當前位置首頁 > 中國制造 > 企業 >

數美科技全棧式反欺詐，UGC內容平臺的生死大事

來源：中國產業經濟信息網時間：2018-11-26

　　令UGC頭部平臺焦慮的，不是流量，而是內容審核

　　UGC內容平臺，無論是資訊類、社交類、還是視頻類，在贏得了網民的支持(流量暴增)之后，隨之而來的，是頻繁的監管審查、違規處理，諸如約談、整頓、關停。

　　數美科技認為，凡事物極必反，經濟繁榮表象下深藏泡沫，而內容產業的繁榮下則是亂象叢生，受利益驅使，黑產自然不會放過內容平臺這塊肥肉，平臺成了間接作惡工具，自然給企業帶來源源不斷的麻煩、損失。

　　2018年4月4日，國家廣電總局約談今日頭條、快手相關負責人，要求其將網站上涉及低俗、暴力、血腥、色情等內容的節目立即下線。

　　7月，短視頻行業又迎來一輪最嚴監管，多達15款短視頻App被下架。其中包括嗶哩嗶哩、洋蔥視頻等用戶耳熟能詳的短視頻分享平臺。

　　2018年，令UGC平臺最焦慮的不是流量，而是合規，是內容風險。Facebook目前在全球擁有7500個內容審查員;年初今日頭條內容審核已超過4000人，預計未來突破1萬人;快手多次被約談，勒令整改，不得不擴充審核隊伍，2018年4月宣布緊急擴招3000名內容審核員。

　　當然，除了大平臺，小平臺也一樣，內容風控是當下互聯網業務發展最急迫也是最棘手的問題。

　　數美科技認為，來自內容的風險主要有兩類

　　一是監管合規難。主要是涉政、違禁、暴恐、色情四大類內容，將直接導致平臺面臨約談、整頓、罰款乃至關停等監管風險。

　　二是商業損失。UGC平臺充斥大量廣告導流、欺詐廣告，導致用戶體驗變差、用戶流失、平臺受損。

　　導流廣告和欺詐廣告，往往由黑產所為，隨著互聯網行業發展，網絡欺詐無處不在，黑色產業鏈已發展為成熟體系。企業反欺詐面臨著黑產技術水平與專業程度不斷提高、缺乏全局風險數據支撐、專業反欺詐人才不足等實際難題，在黑產面前，損失不言而喻。

　　內容上出了問題，不僅會導致企業停擺，更會讓股市瑟瑟發抖，令投資人睡不好覺。此前，在被點名、約談乃至下架之后，B站股市飄綠，隨后不得不將內容審核上升到戰略級。

　　在內容百花齊放的時代，內容風控自然成了各平臺不可避免的發展課題。

　　內容風控的四個發展階段

　　對于內容風控的進化階段，數美科技認為有如下四個：

　　一、無人監管。平臺必將頻頻遭遇監管冷板凳待遇。

　　二、全部人工審核。面對黑產時，他們是機器作案，快速更新欺詐手段，更新設備號。人工必然是疲于應付，卻收效甚微。

　　三、機器+人工審核。這是部分公司采用的方式，但受限于策略與模型上的規則簡單，導致機器漏殺誤殺嚴重，人工變成了對機器審核的再次檢驗，效率不僅沒有提升，準確率也不高。

　　四、全棧式AI審核。基于人工智能算法，海量內容數據庫，建立全棧式的內容及場景模型覆蓋，結合用戶行為畫像，確保內容防護面面俱到，內容識別高效與準確。

　　內容大爆炸的時代，違規內容、欺詐內容呈指數級增長，在內容審核上，有些是人工無法逾越的，比如人不能24小時工作，內容審核團隊也不能無限制擴編。

　　此外在效率上，人工看圖片可以快速掠過，看視頻和音頻卻無法快進，效率就會大打折扣。而機器可以在音視頻上節省大量時間，比如在音頻識別上，將聲音轉化成文字，再識別文字內容。再比如面對黑產操縱的欺詐廣告，可以采用全局的風險數據支撐和強大的反欺詐技術，實現精準識別。所以，應付五花八門的內容風險，自然要采用更前瞻的人工智能技術加全棧式的內容風控策略。

　　如何構建一個無懈可擊的全棧式AI內容防護?

　　機器智能審核的準確率取決于數據量、算法、模型。當數據量不夠多時，自然會漏殺，當策略模型和算法不準確時可能會誤殺。AI過濾就是通過對海量數據的深度學習，再結合算法對特定場景建立相應的分析模型，最終把不同內容形式的不良內容過濾和攔截掉。

　　當然，對于不同內容形式，所需的技能與策略也不一樣，下面數美科技來一一講述。

　　文本識別

　　在文本識別上，人工智能技術可以通過深度學習與智能文本語義分析，識別同一詞在不同語境中的風險。比如針對大麻一詞，“雨很大麻煩車開慢一點”是正常，“在美國大麻違法嗎”就屬于違禁。

　　文本識別重在要同步網安和網信辦合規要求，建立違規敏感詞庫，一般要建立數十萬級詞庫，涵蓋各類敏感信息。

　　在對色情文本的識別上，則體現在分類模型的建立上，比如區別什么是色情、什么是低俗、什么是辱罵，因為不同平臺的審核標準不同，不同的分級要區別對待。

　　文本識別，還有一個很重要的功能就是識別聯系方式。現在的聯系方式(微信、QQ、手機、網址、百度搜)以及各種變體，可謂五花八門。對此，通過機器學習建立上萬種聯系方式變體特征庫就顯得很重要。

　　圖片識別

　　圖片識別同樣有各種細分需求，拿涉政圖片來說，就得分普通、漫畫、雕塑、惡搞、負面涉政等。圖片識別重在建立數據庫，以及針對不同類型進行模型訓練。

　　拿暴恐來說，同樣是槍支，細化到場景，有單純的槍支圖片，但是游戲人物拿著槍支算不算?這就涉及到對不同的槍支圖片進行細分，分別建策略模型，確保游戲槍支不被誤殺。

　　色情圖片識別，也需要分級，性感、色情、重度色情要區別對待，其次是場景，直播、視頻、電商、社區、游戲，不同的場景下的色情要分別對待，海外一些平臺非常重視兒童裸露色情，所以就得有兒童裸露的策略模型，而國內審核上一般不視為色情。

　　音頻識別

　　一般語音識別在語音直播、FM電臺、語音消息、語音文件、視頻直播中都有用到。語音過濾可以利用人工智能將語音轉文本，再識別文本中的涉政、色情、廣告等內容。語音識別又涉及到不同語種，比如普通話、英語、藏語等。

　　此外，還有一些是特殊化的語音，拿數美天凈來說，就專門為語音中的嬌喘建模，目前有多家平臺在使用，嬌喘識別是通過深度學習與語音檢測技術，識別嬌喘、呻吟等非說話色情。

　　視頻識別

　　視頻識別是對視頻內容中的畫面、聲音、文字進行全方位分析過濾，視頻包括短視頻、長視頻、視頻直播等多種場景。

　　人工智能技術對視頻的審核過濾，會將視頻進行拆分，將視頻進行畫面截幀，從而過濾圖片，圖片中的字幕則利用OCR字幕來過濾。視頻標題通過文本過濾模型來檢測，視頻語音則單獨采用語音模型過濾。

　　全棧式AI內容風控需要具備哪些特征?

　　互聯網發展至今，需要內容風控的場景越來越多，更新迭代也快，從文本、圖片，到長視頻、短視頻，直播答題火了一陣后，抖音風生水起，內容的場景越多，對內容審核的AI技術及場景化應用的要求也更高。數美科技認為做到全棧式AI內容風控需要具備三個方面：

　　一、橫向來講，在內容形式上要做到全域覆蓋

　　內容主要有五類：文本、圖片、音頻、視頻、網頁。文本要合規，音視頻也要合規，各種形式的內容風控都要抓起來。文本比較單一，但視頻中有圖片、標題、字幕、語音，它又是一個綜合了多種形式的內容，它的審核要更復雜。在音頻內容中有聲紋識別，還有非說話色情，比如嬌喘等等。在內容形式上要覆蓋足夠寬廣，才不會造成誤殺漏殺。

　　二、縱向來講，在垂直場景上要做到深度應用

　　風控是細化到場景的，對場景的理解與場景化建模能力要求很高，拿圖片涉政場景來講，有正常照片、雕塑、漫畫，每一個場景都需要單獨的模型;游戲直播平臺會要求把槍支分為槍支和游戲槍支，那么游戲槍支就需要單獨建分析模型。在特殊時期，坦克這一類型也是需要被識別過濾的，還有不良行為，比如抽煙、喝酒等。人工智能技術非常考驗對場景的理解與技術應用。

　　三、結合用戶行為畫像，從源頭識別欺詐用戶

　　前文中提到的內容風險除了有監管不合規外，還有一類是商業損失。造成商業損失的內容，如廣告導流、欺詐廣告是由專業的黑產團隊所為。

　　正常用戶所發布的內容，我們通過機器的深度學習來識別，但黑產發布的內容通常是通過設備號批量注冊賬號，批量發布信息，令人防不勝防，這時候就需要我們結合設備指紋與用戶行為畫像分析來進行反欺詐。

　　行為畫像是采用行為序列、關聯圖挖掘、風險傳播算法等時域關聯分析技術對用戶做行為分析。比如用戶在登錄時顯示沒問題，但是每隔幾分鐘登錄一次，可能就是問題用戶。再比如用戶登錄沒問題，但行為有問題，頻繁發違規內容，這樣綜合判定該用戶是有問題的。

　　用戶畫像主要是對用戶歷史行為進行記錄，對其每一次的網絡行為也進行記錄，最終結合啟動、注冊、登錄、再到業務行為，把這幾個步驟關聯起來建立用戶行為畫像，確保識別效果更準確。

　　用戶行為畫像是反欺詐中的關鍵點，以數美天凈的聲紋識別舉例來說，在平臺上識別出欺詐廣告的賬號，會把其聲紋記錄下來存在聲紋黑名單庫中，下次即使該用戶更換了設備再進行詐騙，依然可以通過聲紋比對識別出來。

　　一般一臺設備是一個人使用，不同的聲紋使用同一臺設備，并且出現違法內容時也可以判斷為有問題的用戶。聲紋識別是通過聲紋檢索比對技術，進行聲紋聚類、關聯，發現線上、線下語音廣告與欺詐行為。

　　橫向的內容層、縱向的場景層、加上從源頭對用戶行為的分析，全棧式AI內容風控，其實是建立了一個多維防御空間來攔截和過濾違規內容與欺詐用戶，從而防范業務風險，避免更大的損失。

　　增長得越快，背后的風險也越大。UGC內容平臺，小步快跑的同時，別忘了，先好好活著。

轉自：中華網

返回產經網首頁 >>

　　版權及免責聲明：凡本網所屬版權作品，轉載時須獲得授權并注明來源“中國產業經濟信息網”，違者本網將保留追究其相關法律責任的權力。凡轉載文章，不代表本網觀點和立場。版權事宜請聯系：010-65363056。

延伸閱讀

熱點視頻

性能提升、服務擴展，北斗三號基本系統建成

熱點新聞

熱點輿情

特色小鎮

數美科技全棧式反欺詐，UGC內容平臺的生死大事

熱點視頻

熱點新聞

熱點輿情

特色小鎮

微信公眾號