• 數美科技全棧式反欺詐,UGC內容平臺的生死大事


    來源:中國產業經濟信息網   時間:2018-11-26





      令UGC頭部平臺焦慮的,不是流量,而是內容審核
     

      UGC內容平臺,無論是資訊類、社交類、還是視頻類,在贏得了網民的支持(流量暴增)之后,隨之而來的,是頻繁的監管審查、違規處理,諸如約談、整頓、關停。
     

      數美科技認為,凡事物極必反,經濟繁榮表象下深藏泡沫,而內容產業的繁榮下則是亂象叢生,受利益驅使,黑產自然不會放過內容平臺這塊肥肉,平臺成了間接作惡工具,自然給企業帶來源源不斷的麻煩、損失。
     

      2018年4月4日,國家廣電總局約談今日頭條、快手相關負責人,要求其將網站上涉及低俗、暴力、血腥、色情等內容的節目立即下線。
     

      7月,短視頻行業又迎來一輪最嚴監管,多達15款短視頻App被下架。其中包括嗶哩嗶哩、洋蔥視頻等用戶耳熟能詳的短視頻分享平臺。
     

      2018年,令UGC平臺最焦慮的不是流量,而是合規,是內容風險。Facebook目前在全球擁有7500個內容審查員;年初今日頭條內容審核已超過4000人,預計未來突破1萬人;快手多次被約談,勒令整改,不得不擴充審核隊伍,2018年4月宣布緊急擴招3000名內容審核員。
     

      當然,除了大平臺,小平臺也一樣,內容風控是當下互聯網業務發展最急迫也是最棘手的問題。
     

      數美科技認為,來自內容的風險主要有兩類
     

      一是監管合規難。主要是涉政、違禁、暴恐、色情四大類內容,將直接導致平臺面臨約談、整頓、罰款乃至關停等監管風險。
     

      二是商業損失。UGC平臺充斥大量廣告導流、欺詐廣告,導致用戶體驗變差、用戶流失、平臺受損。
     

      導流廣告和欺詐廣告,往往由黑產所為,隨著互聯網行業發展,網絡欺詐無處不在,黑色產業鏈已發展為成熟體系。企業反欺詐面臨著黑產技術水平與專業程度不斷提高、缺乏全局風險數據支撐、專業反欺詐人才不足等實際難題,在黑產面前,損失不言而喻。
     

      內容上出了問題,不僅會導致企業停擺,更會讓股市瑟瑟發抖,令投資人睡不好覺。此前,在被點名、約談乃至下架之后,B站股市飄綠,隨后不得不將內容審核上升到戰略級。
     

      在內容百花齊放的時代,內容風控自然成了各平臺不可避免的發展課題。
     

      內容風控的四個發展階段
     

      對于內容風控的進化階段,數美科技認為有如下四個:
     

      一、無人監管。平臺必將頻頻遭遇監管冷板凳待遇。
     

      二、全部人工審核。面對黑產時,他們是機器作案,快速更新欺詐手段,更新設備號。人工必然是疲于應付,卻收效甚微。
     

      三、機器+人工審核。這是部分公司采用的方式,但受限于策略與模型上的規則簡單,導致機器漏殺誤殺嚴重,人工變成了對機器審核的再次檢驗,效率不僅沒有提升,準確率也不高。
     

      四、全棧式AI審核。基于人工智能算法,海量內容數據庫,建立全棧式的內容及場景模型覆蓋,結合用戶行為畫像,確保內容防護面面俱到,內容識別高效與準確。
     

      內容大爆炸的時代,違規內容、欺詐內容呈指數級增長,在內容審核上,有些是人工無法逾越的,比如人不能24小時工作,內容審核團隊也不能無限制擴編。
     

      此外在效率上,人工看圖片可以快速掠過,看視頻和音頻卻無法快進,效率就會大打折扣。而機器可以在音視頻上節省大量時間,比如在音頻識別上,將聲音轉化成文字,再識別文字內容。再比如面對黑產操縱的欺詐廣告,可以采用全局的風險數據支撐和強大的反欺詐技術,實現精準識別。所以,應付五花八門的內容風險,自然要采用更前瞻的人工智能技術加全棧式的內容風控策略。
     

      如何構建一個無懈可擊的全棧式AI內容防護?
     

      機器智能審核的準確率取決于數據量、算法、模型。當數據量不夠多時,自然會漏殺,當策略模型和算法不準確時可能會誤殺。AI過濾就是通過對海量數據的深度學習,再結合算法對特定場景建立相應的分析模型,最終把不同內容形式的不良內容過濾和攔截掉。
     

      當然,對于不同內容形式,所需的技能與策略也不一樣,下面數美科技來一一講述。
     

      文本識別
     

      在文本識別上,人工智能技術可以通過深度學習與智能文本語義分析,識別同一詞在不同語境中的風險。比如針對大麻一詞,“雨很大麻煩車開慢一點”是正常,“在美國大麻違法嗎”就屬于違禁。
     

      文本識別重在要同步網安和網信辦合規要求,建立違規敏感詞庫,一般要建立數十萬級詞庫,涵蓋各類敏感信息。
     

      在對色情文本的識別上,則體現在分類模型的建立上,比如區別什么是色情、什么是低俗、什么是辱罵,因為不同平臺的審核標準不同,不同的分級要區別對待。
     

      文本識別,還有一個很重要的功能就是識別聯系方式。現在的聯系方式(微信、QQ、手機、網址、百度搜)以及各種變體,可謂五花八門。對此,通過機器學習建立上萬種聯系方式變體特征庫就顯得很重要。
     

      圖片識別
     

      圖片識別同樣有各種細分需求,拿涉政圖片來說,就得分普通、漫畫、雕塑、惡搞、負面涉政等。圖片識別重在建立數據庫,以及針對不同類型進行模型訓練。
     

      拿暴恐來說,同樣是槍支,細化到場景,有單純的槍支圖片,但是游戲人物拿著槍支算不算?這就涉及到對不同的槍支圖片進行細分,分別建策略模型,確保游戲槍支不被誤殺。
     

      色情圖片識別,也需要分級,性感、色情、重度色情要區別對待,其次是場景,直播、視頻、電商、社區、游戲,不同的場景下的色情要分別對待,海外一些平臺非常重視兒童裸露色情,所以就得有兒童裸露的策略模型,而國內審核上一般不視為色情。
     

      音頻識別
     

      一般語音識別在語音直播、FM電臺、語音消息、語音文件、視頻直播中都有用到。語音過濾可以利用人工智能將語音轉文本,再識別文本中的涉政、色情、廣告等內容。語音識別又涉及到不同語種,比如普通話、英語、藏語等。
     

      此外,還有一些是特殊化的語音,拿數美天凈來說,就專門為語音中的嬌喘建模,目前有多家平臺在使用,嬌喘識別是通過深度學習與語音檢測技術,識別嬌喘、呻吟等非說話色情。

      

    圖片
     

      視頻識別
     

      視頻識別是對視頻內容中的畫面、聲音、文字進行全方位分析過濾,視頻包括短視頻、長視頻、視頻直播等多種場景。
     

      人工智能技術對視頻的審核過濾,會將視頻進行拆分,將視頻進行畫面截幀,從而過濾圖片,圖片中的字幕則利用OCR字幕來過濾。視頻標題通過文本過濾模型來檢測,視頻語音則單獨采用語音模型過濾。
     

      全棧式AI內容風控需要具備哪些特征?
     

      互聯網發展至今,需要內容風控的場景越來越多,更新迭代也快,從文本、圖片,到長視頻、短視頻,直播答題火了一陣后,抖音風生水起,內容的場景越多,對內容審核的AI技術及場景化應用的要求也更高。數美科技認為做到全棧式AI內容風控需要具備三個方面:
     

      一、橫向來講,在內容形式上要做到全域覆蓋
     

      內容主要有五類:文本、圖片、音頻、視頻、網頁。文本要合規,音視頻也要合規,各種形式的內容風控都要抓起來。文本比較單一,但視頻中有圖片、標題、字幕、語音,它又是一個綜合了多種形式的內容,它的審核要更復雜。在音頻內容中有聲紋識別,還有非說話色情,比如嬌喘等等。在內容形式上要覆蓋足夠寬廣,才不會造成誤殺漏殺。
     

      二、縱向來講,在垂直場景上要做到深度應用
     

      風控是細化到場景的,對場景的理解與場景化建模能力要求很高,拿圖片涉政場景來講,有正常照片、雕塑、漫畫,每一個場景都需要單獨的模型;游戲直播平臺會要求把槍支分為槍支和游戲槍支,那么游戲槍支就需要單獨建分析模型。在特殊時期,坦克這一類型也是需要被識別過濾的,還有不良行為,比如抽煙、喝酒等。人工智能技術非常考驗對場景的理解與技術應用。
     

      三、結合用戶行為畫像,從源頭識別欺詐用戶
     

      前文中提到的內容風險除了有監管不合規外,還有一類是商業損失。造成商業損失的內容,如廣告導流、欺詐廣告是由專業的黑產團隊所為。
     

      正常用戶所發布的內容,我們通過機器的深度學習來識別,但黑產發布的內容通常是通過設備號批量注冊賬號,批量發布信息,令人防不勝防,這時候就需要我們結合設備指紋與用戶行為畫像分析來進行反欺詐。
     

      行為畫像是采用行為序列、關聯圖挖掘、風險傳播算法等時域關聯分析技術對用戶做行為分析。比如用戶在登錄時顯示沒問題,但是每隔幾分鐘登錄一次,可能就是問題用戶。再比如用戶登錄沒問題,但行為有問題,頻繁發違規內容,這樣綜合判定該用戶是有問題的。
     

      用戶畫像主要是對用戶歷史行為進行記錄,對其每一次的網絡行為也進行記錄,最終結合啟動、注冊、登錄、再到業務行為,把這幾個步驟關聯起來建立用戶行為畫像,確保識別效果更準確。
     

      用戶行為畫像是反欺詐中的關鍵點,以數美天凈的聲紋識別舉例來說,在平臺上識別出欺詐廣告的賬號,會把其聲紋記錄下來存在聲紋黑名單庫中,下次即使該用戶更換了設備再進行詐騙,依然可以通過聲紋比對識別出來。
     

      一般一臺設備是一個人使用,不同的聲紋使用同一臺設備,并且出現違法內容時也可以判斷為有問題的用戶。聲紋識別是通過聲紋檢索比對技術,進行聲紋聚類、關聯,發現線上、線下語音廣告與欺詐行為。
     

      橫向的內容層、縱向的場景層、加上從源頭對用戶行為的分析,全棧式AI內容風控,其實是建立了一個多維防御空間來攔截和過濾違規內容與欺詐用戶,從而防范業務風險,避免更大的損失。
     

      增長得越快,背后的風險也越大。UGC內容平臺,小步快跑的同時,別忘了,先好好活著。

          轉自:中華網

      版權及免責聲明:凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章,不代表本網觀點和立場。版權事宜請聯系:010-65363056。

    延伸閱讀

    熱點視頻

    性能提升、服務擴展,北斗三號基本系統建成 性能提升、服務擴展,北斗三號基本系統建成

    熱點新聞

    熱點輿情

    特色小鎮

    ?

    版權所有:中國產業經濟信息網京ICP備11041399號-2京公網安備11010502035964

    www.色五月.com