對于具身智能產業而言,2026年注定是“數據”之年。從“數據孤島”到“數據底座”,從“炫技表演”到“務實應用”,行業正在經歷一場深刻而艱難的蛻變。數據的規模化、標準化、高質量化,將助力人形機器人跨越“泛化性”的天塹,真正成為賦能千行百業、走進千家萬戶的智能基礎設施。
這場關于數據的攻堅戰,才剛剛拉開序幕。作為連接數字智能與物理世界的橋梁,具身智能數據正成為這場產業變革的“新石油”。
“數據”將是最后一道壁壘?
如果說大語言模型(LLM)的成功依賴于互聯網海量文本數據的“涌現”,那么具身智能的進化則依賴于高質量的真實物理交互數據。具身智能數據,并非簡單的圖像或文本,它是機器人在與物理環境交互過程中產生的多模態、時空對齊的復雜信息集合,涵蓋了視覺、動作、力/觸覺、環境以及交互等多個維度。這些數據共同構成了智能體學習在真實世界中感知、決策與執行的基礎。
上海交通大學助理教授穆堯指出,從目前趨勢看,數據是重要的,其中高質量數據是最重要的。他指出,硬件發展已到一定高度,但機器人手部操作的成熟度遠低于人類,模型架構也基本夠用,因此“優質數據”是解決問題的重要因素。
行業內人士深知,機器人本體質量雖在提升,但“泛化性不足”導致機器人進入千行百業總還有“最后一公里”距離。讓模型理解物理規律、掌握靈巧操作本領,海量且真實的帶物理模態的數據是唯一解藥。IDC中國研究經理李君蘭表示,當前具身智能機器人正處于技術高度復雜且潛力巨大的交匯點。虛實融合數據體系成為持續進化的核心基礎,仿真合成數據成為規模化訓練的主體,視頻學習正在成為潛在擴展路徑,遙操作實采數據作為高質量補充,通過閉環訓練、仿真微調與在線反饋,支撐機器人在低成本條件下實現能力擴展與持續進化。
在這場關乎行業未來主動權的競賽中,誰掌握了數據,誰就掌握了行業定義權。自今年以來,產業界對此的響應速度空前。
3月16日,京東集團宣布,依托其超級供應鏈和海量真實業務場景,將建成全球規模最大、場景最全的具身智能數據采集中心,并在未來兩年內積累超1000萬小時的優質數據。據悉,京東將開放這些數據,助力具身智能產業從算法仿真邁向真實數據驅動的新階段。
接著,帕西尼感知科技繼去年建成全球最大的天津數據工廠后,再次宣布在江蘇宿遷、湖北武漢、四川自貢、江西贛州新建4座超級數據采集工廠,形成覆蓋全國五大區域的具身智能數據集群,目標是以“百億級”實采數據為產業筑牢高質量底座。帕西尼創始人、CEO許晉誠表示:“高質量多模態數據的稀缺是制約智能進化的瓶頸,目前行業數據儲備與實際訓練需求之間存在指數級差距。”
3月27日,宇樹科技開源了面向全球開放的高質量全身遙操作真機數據集UnifoLM-WBT-Dataset,旨在構建場景覆蓋“最廣”、任務復雜度“最高”、操作多樣性“最豐富”的人形機器人真機數據體系。此外,北京人形機器人創新中心的數據基地也已成為國內數據采集的重要力量。據悉,該基地已牽頭制定了國內首個具身智能數據集行業標準《人工智能具身智能數據采集規范》,對外市場化交付超數萬小時高質量實采數據,整體數據合格率穩定在95%以上,有望迎來全球首個采集完成百萬小時高質量具身智能機器人數據的里程碑。
密集的行業動作表明,2026年,已然成為具身智能數據規模化生產與應用的“元年”。
數據之困瓶頸在哪兒?
盡管行業熱情高漲,但具身智能數據的工程化落地之路并非坦途,在業內專家看來,當前行業面臨以下核心挑戰。
首先,數據孤島與“方言”問題嚴重。不同構型的機器人本體,其傳感器布局、關節自由度、控制接口各不相同,導致采集的數據天然帶有“機器人形態烙印”,難以跨本體遷移和復用。這直接構成了數據共享與復用的巨大障礙。
北京人形機器人創新中心數據基地負責人蔣未來指出:“數據異構形成數據孤島是行業大問題,需要積累到大語言模型內置級別涌現智能的數據等級,否則單個企業的數據量有限。”智源研究院院長王仲遠也表達了同樣的擔憂:“數據孤島下,大家各做各的數據,格式都不一樣。重復采集數據,訓練各自的模型,也很難部署在不同款型的機器人上。這就意味著大家都在重復造輪子,資源出現重大浪費。”
其次,數據采集成本高昂。真機數據質量最高,其成本也最為昂貴。賽迪智庫分析報告指出,單臺設備產生1萬小時訓練數據甚至需要消耗上百萬元。同時,人員成本也居高不下,一個數采員一天只能采集300~500條數據,復雜任務產出更低。蔣未來坦言,真機數采的成本構成包括資產折舊、人員效率和數據損耗。“如果有效率在95%以上和75%以上,成本會差很多。”他說道。
再次,數據質量與有效性參差不齊。數據質量不僅關乎采集的精度,更關乎其是否能為模型訓練提供有效“養分”。劣質數據不僅浪費資源,更可能誤導模型。
最后,數據標準體系缺失。這是行業最底層的痛點。無論是數據采集的格式、標注的規范,還是數據質量的評估,都缺乏統一的標準。專家表示,數據標準不一致,使用的組織就需要用大量精力去做后端的工具鏈開發。此外,現在不同機構的開源數據集在數據格式、標注體系等方面存在顯著差異,導致數據難以跨項目集成與復用。
破局之道從何出發?
面對重重挑戰,產業界并未卻步,而是從多個維度積極探索破局之道。
首先,對數據采集的范式進行革新。帕西尼重塑數據集第一性原理,創建了“以人為中心”(Human-Centered)的數采體系,讓人做回數據的“生產者”。以自研的高精度自主物理感知硬件為觸點,帕西尼開發了高精度多維觸覺采集終端PMEC,配合空間視覺矩陣,共同構建起“以人為中心”的含稀缺觸覺模態的全模態感知高精度實采具身數據體系。此外,它石智航也提出了“以人為中心”的數據采集范式,思路是“好的數據范式是你工作、你生活,而我記錄你”。這一理念的核心在于,構建通用物理智能的關鍵是讓模型學習人類在真實環境中的自然行為,而不是用遙操或仿真數據得到一個頭重腳輕、不能在真實復雜環境中使用的VLA模型。為此,它石智航自主研發了SenseHub數據采集套件,去規避遙操作難以規模化的瓶頸,彌補仿真數據與現實之間的鴻溝。
其次,為了在數據規模與成本之間找到平衡點,行業也在積極探索無本體數據采集和高質量仿真數據生成。比如,無本體采集不和具體機器人綁定,理論上可以擴大規模、降低投入,并解決數據孤島問題,但有效性還需更多檢驗和證明。專家表示,無本體、世界模型路線嘗試解耦數據和機型,需要研發突破,先證明這些數據訓練效果和真機一樣好,再解決構型綁定問題,才容易形成統一市場,方便交易。
再次,加速數據標準制定,打通產業“任督二脈”。標準化是解決數據孤島、降低行業成本、促進生態繁榮的根本途徑。去年年末,工信部人形機器人與具身智能標準化技術委員會正式成立,我國首個覆蓋全產業鏈、全生命周期的《人形機器人與具身智能標準體系(2026版)》隨之發布,標志著行業進入規范化、系統化發展新階段。專家指出:“現在人形機器人的標準在全世界范圍內都是沒有的,這給了我們一個很好的契機,讓中國標準成為世界標準。”
最后,構建數據生態,開放共享,協同進化。數據作為新型生產要素,其價值在于流通與復用。京東、宇樹科技、帕西尼等企業紛紛選擇開源或開放數據,正是看到了這一點。
從京東的千萬小時數據布局,到帕西尼的全國數據集群,再到行業標準的逐步落地,2026年的具身智能產業,已經告別“炫技式”發展的浮躁,穩步邁入務實落地的深水區。未來,隨著數據生態的不斷完善、技術范式的持續革新,具身智能終將憑借堅實的數據底座,真正走進千家萬戶、賦能千行百業,開啟人機共生的全新篇章。(記者 楊鵬岳)
轉自:中國電子報
【版權及免責聲明】凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業宣傳資訊,僅代表作者個人觀點,不代表本網觀點和立場。版權事宜請聯系:010-65363056。
延伸閱讀