• 華為發布AI推理創新技術--UCM推理記憶數據管理器


    中國產業經濟信息網   時間:2025-08-28





      8月12日,2025金融AI推理應用落地與發展論壇在上海舉行。會上,華為發布AI推理創新技術--UCM推理記憶數據管理器。華為公司副總裁、數據存儲產品線總裁周躍峰表示,該技術旨在推動AI推理體驗升級,提升推理性價比,加速AI商業正循環。同時,華為攜手中國銀聯率先在金融典型場景開展UCM技術試點應用,并聯合發布智慧金融AI推理加速方案應用成果。


      據了解,UCM推理記憶數據管理器包括對接不同引擎與算力的推理引擎插件(Connector)、支持多級KV Cache管理及加速算法的功能庫(Accelerator)以及高性能KV Cache存取適配器(Adapter)三大組件,通過推理框架、算力、存儲三層協同,實現AI推理“更優體驗、更低成本”。


      推理體驗方面,依托UCM層級化自適應的全局前綴緩存技術,系統能直接調用KV緩存數據,避免重復計算,使首Token時延最大降低90%。同時,UCM將超長序列Cache分層卸載至外置專業存儲,通過算法創新突破模型和資源限制,實現推理上下文窗口10倍級擴展,滿足長文本處理需求;推理成本方面,UCM具備智能分級緩存能力,可根據記憶熱度在HBM、DRAM、SSD等存儲介質中實現按需流動;同時融合多種稀疏注意力算法,實現存算深度協同,使長序列場景下TPS(每秒處理token數)提升2~22倍,顯著降低每Token推理成本。


      當前,華為已就UCM技術與中國銀聯開展聯合創新技術試點,在中國銀聯“客戶之聲”業務場景下,借助UCM技術及工程化手段,大模型推理速度提升125倍,僅需10秒即可精準識別客戶高頻問題,促進服務質量提升。


      此外,華為方面表示,UCM將于今年9月正式開源,可通過開放統一的南北向接口,適配多類型推理引擎框架、算力及存儲系統。未來,UCM將逐步貢獻給業界主流推理引擎社區,攜手全產業共同推動AI推理生態繁榮發展。(記者 張琪瑋)


      轉自:中國電子報

      【版權及免責聲明】凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業宣傳資訊,僅代表作者個人觀點,不代表本網觀點和立場。版權事宜請聯系:010-65363056。

    延伸閱讀

    ?

    版權所有:中國產業經濟信息網京ICP備11041399號-2京公網安備11010502035964

    www.色五月.com