• 國家數據局:國內多數模型訓練使用中文數據占比超60%


    中國產業經濟信息網   時間:2025-08-21





      記者從國家數據局獲悉:中文數據在國內大模型的訓練性能提升方面發揮著重要作用。國內多數模型訓練使用的中文數據占比已經超過60%,有的模型達到80%。中文高質量數據的開發和供給能力持續增強,推動我國人工智能模型性能快速提升。


      在人工智能時代,Token(通常所說的詞元)是處理文本的最小數據單元。國家數據局局長劉烈宏介紹,2024年初,我國日均Token的消耗量為1000億,截至今年6月底,日均Token消耗量已經突破30萬億,1年半時間增長了300多倍,反映了我國人工智能應用規模的快速增長。(記者 王云杉)


      轉自:人民日報

      【版權及免責聲明】凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業宣傳資訊,僅代表作者個人觀點,不代表本網觀點和立場。版權事宜請聯系:010-65363056。

    延伸閱讀

    ?

    版權所有:中國產業經濟信息網京ICP備11041399號-2京公網安備11010502035964

    www.色五月.com