伴隨AI走向應用深水區,公開數據資源日益枯竭,“數據煙囪”的客觀存在,進一步阻礙高質量數據穿透管控層、資源交互層向場景釋放價值。
9月以來,國家數據局密集發布系列政策,提出公共數據資源開發利用成為產業發展重要趨勢,并明確出臺“可信數據空間”建設行動計劃,確立了2028年前建成100個可信數據空間,培育推廣五大類空間,形成九大關鍵技術突破等目標。
為支撐人工智能產業高質量發展,基于對數據要素核心價值的深入洞察與領先的全棧AI能力,北京電子數智科技有限責任公司(以下簡稱 “北電數智”)以前瞻性的戰略布局投身可信數據空間的探索與實踐,快速實現產品方案轉化,加速可信數據空間全面落地。
在12月19日舉辦的2024數據資產管理大會上,由北電數智、北京大學信息管理系、中日友好醫院共同編寫的《智能計算驅動的AI可信數據空間方案研究》(以下簡稱“《研究報告》”)正式發布,成為可信數據空間領域的首份研究報告。
聚焦AI可信數據空間的關鍵作用,《研究報告》前瞻性提出“以數據可信定義AI終局”的發展愿景,對行業趨勢、現狀和痛點進行了深入剖析,并給出建設性解決方案和研究依據,為AI可信數據空間從理論研究邁向落地提供客觀、詳實的論證和推演。
AI可信數據空間:實現數據資源共享、數據要素流通、數據價值共創、構建數據市場的重要基建
數據是AI發展的關鍵驅動力。《研究報告》指出,數據的價值在于動態流通,具有易于復制、非排他性等特征,數據流通存在安全風險高、成本大等挑戰,數據擁有方共享意愿低,阻礙了數據要素價值的釋放,由此導致高質量數據短缺,成為國內AI發展掣肘之一。
北電數智基于在可信數據空間領域的深入實踐,在《研究報告》中圍繞定義、案例,以及我國發展現狀等維度,對智能計算驅動的AI可信數據空間的建設給出三層次建議:
首先,“明確價值定義”。可信數據空間是數據要素流通的重要基建,是國家中長期數據要素基礎設施,也是實現全行業數據流通的前提和關鍵保障。通過隱私計算、虛擬沙箱等技術手段,可信數據空間可保障數據“可用不可見、可用不可存、可控可計量”,為數據要素的安全、高效流通提供關鍵支撐。具體而言,可信數據空間通過采用“數字合約”規范了數據的流通規則,可提升數據的流通效率;同時,通過可控、可追溯的鏈路設計,確保數據僅在合約范圍內流轉,保障數據安全;此外,還可通過分布式架構讓數據由持有方保管,確保數據在流通過程中產權不發生轉移,實現數據產權保護。
第二,“善借他山之石”。目前,北電數智認為可信數據空間在國內外已有諸多相關案例可供參考借鑒。歐盟通過構建多層次的可信數據空間體系,為數據流通和數字化轉型提供基礎,并在科研、健康等領域取得顯著成效。例如,歐洲開放科學云(EOSC)匯聚了豐富的科研數據資源,為科研人員提供了高效的合作平臺,加速了企業創新孵化。國內也在政務、跨境、工業等領域有了諸多實踐。例如,政務數據空間領域的“區塊鏈+審判”應用,可以提高審判執行效率;科研領域的跨境數據空間,可以促進科研科創數據的跨境共享;工業數據空間則能在工業領域助力企業解決數據流通難題,助力制造升級、實現提質增效。
第三,“因地制宜因情施策”。盡管我國在可信數據空間領域已有積極的探索和實踐,但整體發展尚處于起步階段,特別是“大模型+數據空間”的結合,因技術復雜度高和成本約束,相關應用案例較為稀缺。要真正推動可信數據空間的健康發展,還需要形成統一技術路線和標準體系,并解決大模型與數據空間技術結合的問題。《研究報告》建議,國資背景企業可作為“領頭雁”和“組局者”先行先試,推動安全、高效、公平的數據流通環境建設。
AI可信數據空間:數據要素X人工智能價值的最大化釋放路徑
可信數據空間是數據要素和人工智能價值的最大化釋放路徑。通過構建一個安全、可信的數據環境,讓數據能自由匯聚、共享和流動,從而釋放數據要素價值,為人工智能發展提供數據燃料。
作為AI原生國企,北電數智秉承在數據要素領域先進理念,致力于打造安全、可靠的數據交換和共享環境,構建了“紅湖·可信數據空間”,通過可信數據流通為大模型開發提供優質數據,并通過大模型產業的發展帶動數據要素價值的釋放。
紅湖·可信數據空間的整體架構是面向大模型開發設計的。面向數據提供方,紅湖·可信數據空間有著使用策略協商、數據合約授權、數據安全接入、存證等產品功能,最大范圍保障其權益,讓數據“可用不可見、可用不可存、可控可計量”;面對數據開發者,紅湖·可信數據空間還提供了大模型嵌入與開發、數據安全計算、流程管控、底層算力調度等功能,讓可信空間中的數據有效支持模型訓練及人工智能發展。
如何在大模型訓練和推理過程中保障數據安全及開發安全,是可信數據空間需考慮的重要問題。 紅湖·可信數據空間的產品設計對大模型開發算法安全進行了保障,它能依托混元算力構建,通過嵌入機密計算能力、隱私計算軟硬一體設計等技術,能結合已有算力基礎設施建設可信數據空間,如將平臺能力建立在國產硬件上;而在算法開發環節,紅湖·可信數據空間提供了大模型開發算法融入數據空間的標準化方法,將算法與有效的技術手段結合來保護數據隱私安全。
而對于數據流通的安全性,紅湖·可信數據空間會根據應用場景需求對數據選取不同的安全技術配置,如對于大數量、超大模型、低敏感的數據,可以基于策略控制與軟件隔離對大模型進行訓練;但對于多方小數據量但高敏感的數據,就需要基于密碼學密文計算的樣本對齊、模型推理等。
以“紅湖·可信數據空間”為代表的可信數據產品,充分考慮了人工智能開發過程中的風險因素,可充分發揮AI三大要素的核心作用,是數據要素與人工智能價值的最大化釋放路徑。
面向不同行業需求,北電數智紅湖·可信數據空間已形成多種解決方案。如在醫療領域,通過整合多源異構數據,并結合AI數據挖掘,提升了醫療服務的智能化水平;在科研領域,提出了“1+1+N”科研數據服務解決方案,構建全面的科研與產品服務生態網絡;在公共數據運營領域,構建從數據匯聚、治理、授權管理到開發利用的全鏈條授權開發與流通應用體系,釋放公共數據價值。
最后,《研究報告》認為,通過為數據流轉應用創造互信共享環境,可信數據空間已成為當前促進大模型落地和AI產業發展的關鍵,能夠有效保障數據在安全可信環境中匯聚、共享、開放和應用,是解決數據跨域流通的最優解。
展望未來,建設面向AI可信的數據空間生態,已成為重要的行業趨勢。《研究報告》預計,隨著相關政策與法律法規的不斷優化完善、大模型與數據要素融合趨勢加快、數據流通基礎設施朝向互聯互通邁進,可信數據空間將成為實現數據資源共享共用的數據流通利用基礎設施、數據要素價值共創的應用生態和支撐構建全國一體化數據市場的重要載體。北電數智也將持續鍛造“紅湖·可信數據空間”產品服務能力,全力促進數據要素價值釋放,促進人工智能產業發展。
轉自:中國網
【版權及免責聲明】凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業宣傳資訊,僅代表作者個人觀點,不代表本網觀點和立場。版權事宜請聯系:010-65363056。
延伸閱讀