當前位置首頁 > 行業 > 綜合 >

人民數據打造全球最大中文語義語料庫助力Sora新場景

中國產業經濟信息網時間：2024-02-21

　　2月16日，OpenAI宣布推出全新的生成式人工智能模型“Sora”。據了解，通過文本指令，Sora可以直接輸出長達60秒的視頻，并且包含高度細致的背景、復雜的多角度鏡頭，以及富有情感的多個角色。這意味著，繼文本、圖像之后，OpenAI將其先進的AI技術拓展到了視頻領域。OpenAI亦表示，Sora是能夠理解和模擬現實世界的模型的基礎，這一能力將是實現AGI（通用人工智能）的重要里程碑。

　　與此同時，隨著AI生成內容與現實之間的界限變得越來越模糊，如何確保內容的真實性和透明性成為了一個重要問題。此外，版權、隱私和數據安全等問題也需要得到妥善解決。社會必須面對這些挑戰，通過制定相關政策、法律和倫理準則來確保技術的健康發展，同時保護個人和社會的利益不受侵害。

　　當前，大模型已成為AI領域的熱門賽道，眾多企業競相入局投入研發。隨著越來越多的AI大模型產品向公眾開放，其引發的數據隱私與版權爭議日益激烈。

　　1　AI大模型頻繁侵權遭抵制

　　AI大模型引發的數據安全問題引發全球高度關注。現實中，數據來源和版權歸屬復雜、用戶授權規則和知情權不明晰、技術判定和取證困難等多重挑戰，使大模型在訓練和應用階段均可能出現數據濫用問題。

　　2023年3月，意大利以OpenAI公司推出的聊天機器人ChatGPT違反歐盟《通用數據保護條例》等數據隱私保護規定為由，宣布對其禁用；西班牙、法國等歐洲國家跟進對其展開調查。不到半年時間，ChatGPT陷入與多家內容平臺的版權糾紛之中。OpenAI、Meta、微軟等科技公司接連遭遇訴訟，被控從互聯網上“竊取”大量個人數據信息及未授權作品來訓練AI工具。在國內，小紅書、LOFTER等平臺去年推出的AI繪畫功能也因濫用戶數據訓練AI、侵犯畫師作品版權而遭用戶抵制而下線。

　　有專家指出，用于大模型訓練的語料來自互聯網的各個角落，包括但不限于書籍、文章、新聞、論壇、博客等等，凡是互聯網上可以找到的信息幾乎都在其學習之列。即便科研人員會對語料進行數據清洗，但其中仍有可能包含個人隱私信息；隨著數據來源的擴大，即便是號稱“開源”的各類數據庫，也并非意味著完全不存在版權合規問題。此外，生成式AI的快速發展可能導致虛假信息野蠻生長，輿論對“深度造假”問題的擔憂逐漸加劇。

　　2　全球范圍合規監管加速探索

　　針對各自AI產業發展的現狀，不同國家對數據安全性、合規性、倫理性的監管重點不盡相同。如在日本、歐美等地的著作權法中有文本和數據挖掘的限制例外制度，其中規定，為了訓練人工智能的目的而利用他人作品的行為可以不認定為侵權。

　　我國在信息內容安全領域已經有了較為完整的實踐思路。近年來，《中華人民共和國網絡安全法》《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》頒布，為數據安全提供了基礎性法律保障。《互聯網信息服務算法推薦管理規定》《互聯網信息服務深度合成管理規定》等文件相繼出臺，對技術向上向善發展加強引導和規范。

　　2023年8月，國家網信辦等7部門發布的《生成式人工智能服務管理暫行辦法》正式施行，其中明確規定，應當依法開展預訓練、優化訓練等訓練數據處理活動，使用具有合法來源的數據和基礎模型；涉及個人信息的，應當取得個人同意或者符合法律、行政法規規定的其他情形。10月，全國信息安全標準化技術委員會組織制定的《生成式人工智能服務安全基本要求（征求意見稿）》面向社會公開征求意見，其中對語料來源安全、內容安全、標注安全等做出了明確要求。

　　3　以語料庫建設助力AI產業安全發展

　　“一邊是‘嗷嗷待大量數據以哺’的人工智能，另一邊是越發重視個人信息保護的用戶，如何善用數據，考驗全社會數據治理的能力和成效，事關萬千網民的切身利益。”人民日報評論指出，發展和安全從來不必然是矛盾的、對立的，平衡好各方面利益，才能推動生成式人工智能健康可持續發展。

　　語料庫是訓練和優化AI大模型的“養料”。當前，我國AI發展所需要的語料數據仍相對匱乏。有數據顯示，全球通用的50億大模型數據訓練集里，中文語料的占比僅為1.3%。業內人士指出，雖然我國的數據資源豐富，但是由于數據挖掘與流通不足，中文語料庫與英文等其它語言的數據語料庫相比仍有差距，可能成為阻礙大模型研發的重要因素。

　　國內多地數據交易所和大模型研究機構已圍繞中文語料庫建設展開探索。面對合規難題，國家數據庫、主流價值語料庫等建設備受關注。

　　在2023年7月舉行的2023全球數字經濟大會上，首批“北京市人工智能大模型高質量數據集”發布，包括人民日報在內的10家單位的18個高質量訓練數據集入選。

　　為促進AI大模型發展，人民數據打造了新聞數據、問答數據等語義語料庫，相關數據量達到了近3億條。該語義語料庫面向人工智能大模型、通用人工智能、智能互聯網等應用場景，提供高質量的語料生產、定制、供給服務。針對當前大模型普遍回答不了、回答不好卻又必須直面、不容回避的重大問題、敏感問題、疑難問題、復雜問題，該語義語料庫梳理了1萬余個重點問題，并精心編撰建成優質問答語料庫，助力解決大模型在語料方面的剛性需求、緊急需求、安全需求。語料庫的進一步豐富充實或將使資料查找更加便捷，進一步降低了普通人的AI使用門檻，幫助普通人以更簡單的方式獲取更全面的信息。