國家數據局日前印發《關于推進行業高質量數據集建設行動的實施方案》(下稱《實施方案》),提出到2028年底,建成一批覆蓋重點領域、經過應用驗證的行業高質量數據集,打造一批數據驅動人工智能創新發展的典型應用場景,培育一批具備領先優勢的創新型數據企業和專業人才,形成一批行業高質量數據集建設工具和標準。
專家表示,當前人工智能正在加速從“可用”向“好用”邁進,高質量數據集作為大模型訓練與應用的基石,供給規模與質量直接決定人工智能創新高度與產業落地深度。加快推進行業高質量數據集建設,將直接利好數據標注、數據服務、模型應用等多個產業環節。
數據顯示,截至2026年第一季度,全國已建成高質量數據集超過11.6萬個,總體量超過960PB,日均詞元(Token)調用量突破140萬億。
賽智產業研究院人工智能研究所所長安赟對記者表示,當前,人工智能正在從通用對話和內容生成向智能體、科學智能、具身智能和世界模型等方向演進,對行業數據的專業性、結構性、場景性和可驗證性提出了更高的要求。但是,行業數據仍然存在分散沉淀、質量不高、標準不一、模型適配不強、應用驗證不夠等問題,制約人工智能在重點行業和復雜場景中的深入應用。
《實施方案》聚焦國民經濟發展重點行業和戰略性新興產業,圍繞行業高質量數據集供給、流通、應用等關鍵環節,部署強基擴容、標注攻堅、提質增效、應用賦能、管理服務、價值釋放六個專項行動,旨在形成“場景牽引數據、數據驅動模型、模型賦能應用、應用創造價值”的“數據飛輪”,加快構建數據要素與人工智能協同演進的共生生態。
比如,在實施強基擴容行動方面,《實施方案》提出拓寬數據供給渠道,豐富數據供給類型,加快建設行業高質量數據集,為人工智能發展和應用提供充足“燃料”。其中明確,聚焦科學研究、工業制造、農業農村、智慧能源、交通運輸、金融服務等重點領域,以及低空經濟、具身智能、智能駕駛、智慧海洋、生物制造等創新領域,加快推進行業高質量數據集建設。
在實施標注攻堅行動方面,將持續推動數據標注先行先試。培育一批數據標注龍頭企業、獨角獸企業、瞪羚企業,壯大數據標注產業。在實施價值釋放行動方面,《實施方案》提出,創新行業高質量數據集商業模式,包括“探索詞元交易等新型交易模式,構建以詞元為基礎,可量化、可定價的數據價值體系”等。
分析人士認為,系列舉措也將給數據標注、數據服務、模型應用等多個產業環節帶來發展利好。
北京前沿未來科技產業發展研究院院長陸峰表示,在數據標注環節,《實施方案》明確培育數據標注龍頭企業、獨角獸企業等,推動數據標注向專業化、智能化躍升;系列舉措強調加強數據清洗、增強、質檢等關鍵技術攻關,鼓勵運用仿真合成技術解決稀缺場景數據難題,直接利好技術驅動型數據服務商;此外,模型應用與流通環節將加速價值釋放,《實施方案》要求打造“數據飛輪”閉環,培育數據付費市場共識,這將為數據流通與商業變現掃清障礙。
安赟認為,建設行業高質量數據集主要涉及數據資源供給、加工標注、質量提升、模型應用、管理服務和價值釋放等產業鏈環節。特別是,行業高質量數據集建設將優先帶動數據資源豐富、應用場景明確、人工智能賦能需求迫切的重點行業和新興領域,比如,低空經濟、具身智能、智能駕駛、智慧海洋、生物制造等創新領域對多模態數據、仿真數據、物理交互數據和高精度標注數據需求較強,將帶動數據采集、仿真建模、場景測試和模型訓練等環節發展。
這也將為相關行業企業進一步打開發展空間。陸峰認為,相關企業可深耕技術工具與場景閉環,重點投入數據清洗、合成、質檢等關鍵技術研發;同時,深入重點行業和戰略性新興產業,構建“需求-數據-模型”閉環,打造可復用的標桿案例。安赟則表示,數據資源企業要加快梳理數據資源底數,圍繞重點行業應用需求,建設可用于模型訓練、應用驗證和流通交易的高質量數據集,提升數據資源的產品化和服務化能力,為產業鏈上下游提供穩定的數據供給。(記者 郭倩)
轉自:經濟參考報
【版權及免責聲明】凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業宣傳資訊,僅代表作者個人觀點,不代表本網觀點和立場。版權事宜請聯系:010-65363056。
延伸閱讀