當前位置首頁 > 中國制造 > 創新 >

昇騰算力“煉”出業界一流大模型

中國產業經濟信息網時間：2025-06-08

　　記者從華為公司獲悉，華為日前在MoE模型訓練領域再進一步，推出參數規模高達7180億的全新模型——盤古Ultra MoE。這是一個全流程在昇騰AI計算平臺上訓練的準萬億MoE模型。華為同時還發布了盤古Ultra MoE模型架構和訓練方法的技術報告，披露眾多技術細節，充分體現了昇騰在超大規模MoE模型訓練性能上的跨越。

　　業界專家表示，訓練超大規模和極高稀疏性的MoE模型極具挑戰，訓練過程中的穩定性往往難以保障。針對這一難題，盤古團隊在模型架構和訓練方法上進行了創新性設計，成功地在昇騰平臺上實現了準萬億MoE模型的全流程訓練。

　　據介紹，在模型架構上，盤古團隊提出DSSN穩定架構和TinyInit小初始化的方法，在昇騰平臺上實現了超過18TB數據的長期穩定訓練。同時，盤古Ultra MoE使用了業界先進的MLA和MTP架構，在預訓練和后訓練階段都使用了Dropless訓練策略，實現了超大規模MoE架構在模型效果與效率之間的最佳平衡。

　　在訓練方法上，華為團隊首次披露在昇騰CloudMatrix 384超節點上，高效打通大稀疏比MoE強化學習（RL）后訓練框架的關鍵技術，使RL后訓練進入超節點集群時代。同時，在5月初發布的預訓練系統加速技術基礎上，不到一個月時間內，華為團隊又完成了一輪迭代升級，包括適配昇騰硬件的自適應流水掩蓋策略、自適應管理內存優化策略的開發，以及昇騰親和的算子優化等，這些技術實現萬卡集群預訓練MFU（模型算力利用率）由30%大幅提升至41%。

　　此外，近期發布的盤古Pro MoE大模型，在參數量僅為720億、激活160億參數量的情況下，通過動態激活專家網絡的創新設計，實現了以小打大的優異性能。在大模型榜單SuperCLUE最新公布的5月排行榜上，位居千億參數量以內大模型排行并列國內第一。

　　業內專家表示，華為盤古Ultra MoE和盤古Pro MoE系列模型的發布，說明華為不僅完成了國產算力+國產模型的全流程自主可控的訓練實踐，同時在集群訓練系統的性能上也實現了業界領先，國產人工智能基礎設施的自主創新能力得到了進一步驗證，這為中國人工智能產業的發展提供了有力支撐。（記者吳蔚）

　　轉自：經濟參考網

返回產經網首頁 >>

　　【版權及免責聲明】凡本網所屬版權作品，轉載時須獲得授權并注明來源“中國產業經濟信息網”，違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業宣傳資訊，僅代表作者個人觀點，不代表本網觀點和立場。版權事宜請聯系：010-65363056。

延伸閱讀

熱點視頻

2024年我國新能源汽車產銷量均超1200萬輛

熱點新聞

昇騰算力“煉”出業界一流大模型

熱點視頻

熱點新聞

微信公眾號