當前位置首頁 > 新聞 > 產經分析 >

數據“煉油”難點何在？

中國產業經濟信息網時間：2026-04-14

　　近日，圍繞工業高質量數據集建設的政策探討與產業行動持續升溫。由工業和信息化部牽頭，龍頭企業、行業協會深度參與，一場以工業數據筑基為目標、面向人工智能賦能的高質量行業數據集建設先行先試正在悄然鋪開。其目標直指一個核心：如何將海量的工業數據提煉為精準可用的高質量數據，真正讓數據資源轉化為產業升級的核心資產，成為發展新質生產力的關鍵要素？

　　大數據不等于高質量數據集

　　何為高質量數據？國家數據局指導發布的《高質量數據集建設指引》指出，高質量數據是指經過采集、加工等數據處理，可直接用于開發和訓練人工智能模型，能有效提升模型表現的數據的集合。

　　簡單的定義卻透露出了高質量數據的兩個關鍵特點。其一，它是在傳統數據基礎上經過精煉得到的，并非數據規模競賽，而更注重數據質量的深耕；其二，人工智能是推動高質量數據集建設的核心動力，經過處理的數據必須可供人工智能模型使用。

　　蘇州核數聚信息科技有限公司CTO胡楠以工業場景為例，進一步解釋稱，過去制造行業確實積累了海量數據，但那只是大數據，不等于高質量數據集，根本無法滿足工業 AI的深度賦能需求。他認為先行先試的核心任務，就是把過去的“大數據”通過深度加工，轉化為能真正驅動AI的高質量數據集，讓數據資源真正成為產業發展的核心資產。

　　胡楠向《中國電子報》記者表示，具體來看，傳統的大數據采集和現在要做的高質量數據集，是兩條完全不同的技術路徑，有著本質區別，二者更像是原油和汽油的關系。他指出，傳統大數據的技術路徑是“先收集，后挖掘統計”，是先將數據堆積起來，再通過統計分析去挖掘價值，這更像是“開采原油”，量大但雜質多。高質量數據集的路徑則是“先算法，后數據”，必須先明確AI算法的應用場景和需求，然后為了訓練這個算法，去定向、精準地收集和構建數據，由此得來的才是為算法“量身定制”的精準原料，也只有這種從“原油”中精煉出的“汽油”才能驅動引擎。

　　那么，如何判斷一個數據是否高質量？相較傳統大數據，對高質量數據的要求一方面增加了諸多新的評價指標，在準確性、完整性、一致性、時效性等基礎指標之余，還涉及數據的多樣性、真實性、合規性等維度，且不同行業的關注點存在細微差別。例如，工業制造領域就尤其關注數據內容的真實性、多樣性和標注準確性。另一方面，特別強調數據集在模型訓練和應用中的實際效果，即對模型性能的提升程度。

　　工業高質量數據集建設并非易事

　　數據顯示，截至2025年年底，全國已建成超10萬個高質量數據集，總體量超過890PB，高質量數據集建設前景廣闊，但在工業場景仍面臨諸多現實挑戰，且遍布采、集、用環節及數據標準層面。

　　工業制造領域的數據形態多樣，主要包括時序數據、圖像、圖紙文檔、仿真數據等。中國科學院自動化研究所副總工程師、武漢人工智能研究院院長王金橋在接受《中國電子報》采訪時指出，在數據“采”的環節，工業場景中的數據往往來自不同設備、不同協議、不同模態——視覺、聲紋、振動、溫度、時序信號等交織在一起，多模態、多源異構數據的采集與對齊難度較大，行業內還缺乏成熟的自動化采集工具和標準化接口。

　　在數據“集”的環節，王金橋認為，難點在于標注成本高、專業性強、長尾場景覆蓋難。他特別強調，工業場景中真正有價值的往往是那些“小概率、大影響”的長尾事件，這類數據極度稀缺，靠真實采集難以滿足模型訓練的需求。

　　在數據“用”的環節，數據安全與共享的矛盾突出。工業企業普遍對數據安全高度敏感，擔心核心工藝數據、產線數據外泄。在“不敢共享”的顧慮下，跨企業、跨行業的數據流通難以實現。他表示，行業需要繼續探索如何在保障數據主權的前提下實現“可用不可見”。

　　最后，在標準建設層面，王金橋表示，行業數據集的建設仍處于“各自為戰”的狀態，缺乏統一的標準規范，要建立統一的數據格式、質量分級、評測體系，推動形成規模效應和復用價值。

　　值得注意的是，部分數據集在建設時還存在與工業場景嚴重脫節的問題，脫離企業生產的實際需求，即便數據質量達標，也難以適配具體工藝和真實場景，無法真正賦能AI模型、提升生產效率，并可能造成數據資源和建設成本的浪費。

　　針對上述問題，業內人士普遍認為，各方應各司其職，協同助力高質量數據集發展。鼎捷數智執行副總裁劉波表示，希望平臺機構以可落地的智能工具為核心，打造全鏈路數據治理能力；龍頭企業開放場景與數據資源，引領智能治理實踐；中小企業主動擁抱輕量化智能工具，低成本實現數據質量提升。

　　多個場景有望跑出“標桿”

　　京東工業研發相關負責人向《中國電子報》記者表示，工業領域數字化轉型具有“一米寬、百米深”的特點，“一米寬”即行業是由若干業務邊界清晰的場景組成，“百米深”即每個場景背后都蘊含了大量的工業知識和機理，每個場景的數字化都涉及不同的工具、軟件、技能、方法，具有很強的專業性和復雜度。這也決定了工業高質量數據集建設需立足場景、深耕細作。

　　工業和信息化部在相關通知中明確提出“六個一批”目標，并將鋼鐵和汽車行業視為工業高質量數據集先行先試的重點領域。業內人士普遍認為，除此之外，還有多個領域同樣具備先行先試的良好基礎，且呈現出鮮明的共性特征，同樣有望成為高質量數據集建設的重要突破口。

　　王金橋指出，數字化基礎較好、痛點場景明確、數據價值密度高的行業有望率先突破，如電子信息制造業、裝備制造業、生物醫藥與醫療器械、能源與電力及低空經濟相關產業。

　　劉波則認為，裝備制造、電子信息、工程機械、五金加工、新材料等行業可以先行，他指出，這些行業具備三大特征，第一，產業鏈條長、場景復雜度高、生產數據密集，企業生產過程中產生的經驗數據、記錄數據、參數數據等海量數據，為數據集建設提供了豐富的原始素材；第二，數字化改造起步早、設備聯網率高，已形成較為豐富的數據積累與應用實踐，部分龍頭企業已實現IT 與OT數據的初步貫通；第三，對質量管控、設備運維、供應鏈協同、能耗優化等智能化的需求也十分迫切，龍頭企業帶動效應明顯。

　　然而，試點推廣過程也需警惕短期效應，兼顧長遠發展。亞信科技智能制造專項負責人劉長水指出，試點項目應警惕“盆景化”風險，防止停留在“做示范”層面。劉波也表示，先行先試中還存在多方協同難、試點經驗復用難、投入產出機制不清晰等現實困難，制約著數據集規模化建設與價值釋放。

　　從產業鏈全維度來看，工業高質量數據集的建設并非單一主體的獲利，而能帶動整個工業生態的協同發展。北京中科匯聯科技股份有限公司董事長游世學認為，高質量數據集建設有利于加速工業數據標準化、價值化進程，實現數據匯聚、治理、開放與共享。

　　上下游企業都有望借此迎來發展機遇。劉長水表示，對數據服務企業而言，隨著數據集建設的推進，數據咨詢、數據治理、數據標注等專業服務需求將大幅增長；工業軟件與平臺廠商將迎來需求爆發，相關行動的推進將催生一系列行業數據可信互聯平臺、數據資源庫的建設需求；大模型與工業智能體廠商垂域大模型也將受此影響加速落地；制造業企業則可能通過數據賦能實現提質、降本、增效。（記者陳存）

　　轉自：中國電子報

返回產經網首頁 >>

　　【版權及免責聲明】凡本網所屬版權作品，轉載時須獲得授權并注明來源“中國產業經濟信息網”，違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業宣傳資訊，僅代表作者個人觀點，不代表本網觀點和立場。版權事宜請聯系：010-65363056。

延伸閱讀

熱點視頻

科技賦能玫瑰產業升級校企合作共筑鄉村振興新篇章

熱點新聞

數據“煉油”難點何在？

熱點視頻

熱點新聞

微信公眾號