近日,圍繞工業高質量數據集建設的政策探討與產業行動持續升溫。由工業和信息化部牽頭,龍頭企業、行業協會深度參與,一場以工業數據筑基為目標、面向人工智能賦能的高質量行業數據集建設先行先試正在悄然鋪開。其目標直指一個核心:如何將海量的工業數據提煉為精準可用的高質量數據,真正讓數據資源轉化為產業升級的核心資產,成為發展新質生產力的關鍵要素?
大數據不等于高質量數據集
何為高質量數據?國家數據局指導發布的《高質量數據集建設指引》指出,高質量數據是指經過采集、加工等數據處理,可直接用于開發和訓練人工智能模型,能有效提升模型表現的數據的集合。
簡單的定義卻透露出了高質量數據的兩個關鍵特點。其一,它是在傳統數據基礎上經過精煉得到的,并非數據規模競賽,而更注重數據質量的深耕;其二,人工智能是推動高質量數據集建設的核心動力,經過處理的數據必須可供人工智能模型使用。
蘇州核數聚信息科技有限公司CTO胡楠以工業場景為例,進一步解釋稱,過去制造行業確實積累了海量數據,但那只是大數據,不等于高質量數據集,根本無法滿足工業 AI的深度賦能需求。他認為先行先試的核心任務,就是把過去的“大數據”通過深度加工,轉化為能真正驅動AI的高質量數據集,讓數據資源真正成為產業發展的核心資產。
胡楠向《中國電子報》記者表示,具體來看,傳統的大數據采集和現在要做的高質量數據集,是兩條完全不同的技術路徑,有著本質區別,二者更像是原油和汽油的關系。他指出,傳統大數據的技術路徑是“先收集,后挖掘統計”,是先將數據堆積起來,再通過統計分析去挖掘價值,這更像是“開采原油”,量大但雜質多。高質量數據集的路徑則是“先算法,后數據”,必須先明確AI算法的應用場景和需求,然后為了訓練這個算法,去定向、精準地收集和構建數據,由此得來的才是為算法“量身定制”的精準原料,也只有這種從“原油”中精煉出的“汽油”才能驅動引擎。
那么,如何判斷一個數據是否高質量?相較傳統大數據,對高質量數據的要求一方面增加了諸多新的評價指標,在準確性、完整性、一致性、時效性等基礎指標之余,還涉及數據的多樣性、真實性、合規性等維度,且不同行業的關注點存在細微差別。例如,工業制造領域就尤其關注數據內容的真實性、多樣性和標注準確性。另一方面,特別強調數據集在模型訓練和應用中的實際效果,即對模型性能的提升程度。
工業高質量數據集建設并非易事
數據顯示,截至2025年年底,全國已建成超10萬個高質量數據集,總體量超過890PB,高質量數據集建設前景廣闊,但在工業場景仍面臨諸多現實挑戰,且遍布采、集、用環節及數據標準層面。
工業制造領域的數據形態多樣,主要包括時序數據、圖像、圖紙文檔、仿真數據等。中國科學院自動化研究所副總工程師、武漢人工智能研究院院長王金橋在接受《中國電子報》采訪時指出,在數據“采”的環節,工業場景中的數據往往來自不同設備、不同協議、不同模態——視覺、聲紋、振動、溫度、時序信號等交織在一起,多模態、多源異構數據的采集與對齊難度較大,行業內還缺乏成熟的自動化采集工具和標準化接口。
在數據“集”的環節,王金橋認為,難點在于標注成本高、專業性強、長尾場景覆蓋難。他特別強調,工業場景中真正有價值的往往是那些“小概率、大影響”的長尾事件,這類數據極度稀缺,靠真實采集難以滿足模型訓練的需求。
在數據“用”的環節,數據安全與共享的矛盾突出。工業企業普遍對數據安全高度敏感,擔心核心工藝數據、產線數據外泄。在“不敢共享”的顧慮下,跨企業、跨行業的數據流通難以實現。他表示,行業需要繼續探索如何在保障數據主權的前提下實現“可用不可見”。
最后,在標準建設層面,王金橋表示,行業數據集的建設仍處于“各自為戰”的狀態,缺乏統一的標準規范,要建立統一的數據格式、質量分級、評測體系,推動形成規模效應和復用價值。
值得注意的是,部分數據集在建設時還存在與工業場景嚴重脫節的問題,脫離企業生產的實際需求,即便數據質量達標,也難以適配具體工藝和真實場景,無法真正賦能AI模型、提升生產效率,并可能造成數據資源和建設成本的浪費。
針對上述問題,業內人士普遍認為,各方應各司其職,協同助力高質量數據集發展。鼎捷數智執行副總裁劉波表示,希望平臺機構以可落地的智能工具為核心,打造全鏈路數據治理能力;龍頭企業開放場景與數據資源,引領智能治理實踐;中小企業主動擁抱輕量化智能工具,低成本實現數據質量提升。
多個場景有望跑出“標桿”
京東工業研發相關負責人向《中國電子報》記者表示,工業領域數字化轉型具有“一米寬、百米深”的特點,“一米寬”即行業是由若干業務邊界清晰的場景組成,“百米深”即每個場景背后都蘊含了大量的工業知識和機理,每個場景的數字化都涉及不同的工具、軟件、技能、方法,具有很強的專業性和復雜度。這也決定了工業高質量數據集建設需立足場景、深耕細作。
工業和信息化部在相關通知中明確提出“六個一批”目標,并將鋼鐵和汽車行業視為工業高質量數據集先行先試的重點領域。業內人士普遍認為,除此之外,還有多個領域同樣具備先行先試的良好基礎,且呈現出鮮明的共性特征,同樣有望成為高質量數據集建設的重要突破口。
王金橋指出,數字化基礎較好、痛點場景明確、數據價值密度高的行業有望率先突破,如電子信息制造業、裝備制造業、生物醫藥與醫療器械、能源與電力及低空經濟相關產業。
劉波則認為,裝備制造、電子信息、工程機械、五金加工、新材料等行業可以先行,他指出,這些行業具備三大特征,第一,產業鏈條長、場景復雜度高、生產數據密集,企業生產過程中產生的經驗數據、記錄數據、參數數據等海量數據,為數據集建設提供了豐富的原始素材;第二,數字化改造起步早、設備聯網率高,已形成較為豐富的數據積累與應用實踐,部分龍頭企業已實現IT 與OT數據的初步貫通;第三,對質量管控、設備運維、供應鏈協同、能耗優化等智能化的需求也十分迫切,龍頭企業帶動效應明顯。
然而,試點推廣過程也需警惕短期效應,兼顧長遠發展。亞信科技智能制造專項負責人劉長水指出,試點項目應警惕“盆景化”風險,防止停留在“做示范”層面。劉波也表示,先行先試中還存在多方協同難、試點經驗復用難、投入產出機制不清晰等現實困難,制約著數據集規模化建設與價值釋放。
從產業鏈全維度來看,工業高質量數據集的建設并非單一主體的獲利,而能帶動整個工業生態的協同發展。北京中科匯聯科技股份有限公司董事長游世學認為,高質量數據集建設有利于加速工業數據標準化、價值化進程,實現數據匯聚、治理、開放與共享。
上下游企業都有望借此迎來發展機遇。劉長水表示,對數據服務企業而言,隨著數據集建設的推進,數據咨詢、數據治理、數據標注等專業服務需求將大幅增長;工業軟件與平臺廠商將迎來需求爆發,相關行動的推進將催生一系列行業數據可信互聯平臺、數據資源庫的建設需求;大模型與工業智能體廠商垂域大模型也將受此影響加速落地;制造業企業則可能通過數據賦能實現提質、降本、增效。(記者 陳存)
轉自:中國電子報
【版權及免責聲明】凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業宣傳資訊,僅代表作者個人觀點,不代表本網觀點和立場。版權事宜請聯系:010-65363056。
延伸閱讀