國家數據局：國內多數模型訓練使用中文數據占比超60%

中國產業經濟信息網時間：2025-08-21

　　記者從國家數據局獲悉：中文數據在國內大模型的訓練性能提升方面發揮著重要作用。國內多數模型訓練使用的中文數據占比已經超過60%，有的模型達到80%。中文高質量數據的開發和供給能力持續增強，推動我國人工智能模型性能快速提升。

　　在人工智能時代，Token（通常所說的詞元）是處理文本的最小數據單元。國家數據局局長劉烈宏介紹，2024年初，我國日均Token的消耗量為1000億，截至今年6月底，日均Token消耗量已經突破30萬億，1年半時間增長了300多倍，反映了我國人工智能應用規模的快速增長。（記者王云杉）

　　轉自：人民日報

　　【版權及免責聲明】凡本網所屬版權作品，轉載時須獲得授權并注明來源“中國產業經濟信息網”，違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業宣傳資訊，僅代表作者個人觀點，不代表本網觀點和立場。版權事宜請聯系：010-65363056。

延伸閱讀

熱點視頻

2024年我國新能源汽車產銷量均超1200萬輛

熱點新聞