近日,中國電信宣布,在業內率先完成1024卡千億參數大模型500公里分布式聯合訓練試商用,為AI基礎設施的協同發展提供了新方案。
此次試商用的核心挑戰在于如何實現長距離、大帶寬、低延遲的算力協同。中國電信組織旗下研究院、天翼云、北京分公司深度協作,通過自主研發的“廣域智聯無損網絡”技術,在天津武清至北京瀛海之間構建了一張長達500公里的真實光路環回網絡,成功將千億參數大模型的分布式訓練性能提升至單數據中心效能的97%以上。
據北京電信相關負責人王軼介紹,關鍵技術亮點為采用800G廣域無損傳輸技術,帶寬收斂比提升至32∶1,解決了長距傳輸中因網絡擁塞導致的丟包問題。“可以實現50毫秒極速倒換。”王軼表示,通過WSON(光波長保護)技術實現鏈路中斷無感知切換,保障訓練的連續性與穩定性。
在此基礎上,本次聯合訓練試商用還利用“息壤”智算平臺,集成跨地域算網協同、自動并行、斷點續訓等功能,實現故障秒級定位與分鐘級恢復,大幅提升商用模型的部署效率。
當前,AI大模型訓練對算力的需求呈指數級增長,但傳統單數據中心模式受限于物理空間、能源成本與地域限制,難以滿足需求。中國電信此次突破的核心價值在于,通過跨地域算力整合,將分散的數據中心轉化為“虛擬超級計算機”,極大降低了訓練成本,同時為“東數西算”等國家工程提供了可落地的技術路徑。
此次試商用的成功是中國電信在智算網絡領域持續創新和實踐的成果,也是積極響應國家戰略推動算力網絡協同發展的重要舉措。未來,中國電信將繼續加大在智算網絡領域的投入和研發力度,為人工智能產業的發展提供更加強有力的網絡支持,助力我國數字經濟高質量發展。(記者 劉剛)
轉自:人民郵電報
【版權及免責聲明】凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業宣傳資訊,僅代表作者個人觀點,不代表本網觀點和立場。版權事宜請聯系:010-65363056。
延伸閱讀