當前位置首頁 > 行業 > 通信 >

打造“多語種”名片科大訊飛實現智能語音自主創新生態

中國產業經濟信息網時間：2024-05-14

　　在教室，老師通過遙控器和智能黑板直接對話；在家里，空調、電視機等家電早已實現語音控制；駕車行駛在路上，一句指令就能操控汽車；會議室里，多人發言都能立刻被清晰錄音并轉寫成文字、生成會議紀要……近年來，智能語音正潤物細無聲地改變著人們的生活，也創造了巨大的市場價值。

　　據國際數據公司IDC分析，預計到2030年，全球智能語音服務市場規模將達731.6億美元，復合增長率27%。如此龐大的市場，中國如何實現技術突破？以科大訊飛為代表的中國科技企業給出答案：自主創新。

　　20世紀90年代，中國的智能語音技術和語音產業還是外國人的天下。據了解，科大訊飛創始人劉慶峰當時還是中國科學技術大學的學生，在導師王仁華的支持下，他和幾位同學創立了科大訊飛。

　　經過多年研究和實踐，科大訊飛不僅將中文語音技術做到領先，也將多語種技術做到全球領先：語音識別的準確率達到98%，多人會議場景的說話人分離和識別的準確率達到95%。2006年至2019年，連續十四年榮獲國際語音合成大賽冠軍；2016年至2023年，連續4屆獲得國際多通道語音分離和識別比賽CHiME冠軍；2021年，科大訊飛在美國國家標準與技術研究院NIST發起的國際低資源多語種語音識別競賽OpenASR中，獲得全部受限賽道的15個語種冠軍及7個語種非受限賽道冠軍；2021—2023年，連續三年獲得國際語音翻譯比賽IWSLT冠軍……

　　如今，在中國智能語音市場，科大訊飛的市場占有率多年保持第一。不止如此，科大訊飛還取得了多項重要標志性成果，逐漸構建起獨立的語音自主知識產權技術體系。

　　今年1月30日，科大訊飛發布基于首個全國產算力訓練的訊飛星火V3.5，正式發布星火語音大模型，首批37個主流語種效果超過OpenAI Whisper V3。

　　4月26日，訊飛星火大模型V3.5再次更新，發布業界首個支持長文本、長圖文以及長語音的大模型產品。其長語音功能可以實現會議錄音、學習視頻等的一鍵研讀，實現音視頻場景的高效知識獲取。新版大模型將科大訊飛國際領先的語音識別和翻譯技術結合起來，讓英文資料也能像純文字內容一樣進行快速獲取和學習。

　　如今，一個自主可控的多語種智能語音技術及全球產業生態正在構建。科大訊飛的技術算法全部自研，目前已建成5個國產化集群，語音合成、識別、翻譯、交互等國產化能力日服務8.73億次。2023年，訊飛與華為聯合攻關大模型國產化算力底座核心難題，建設首個全國產算力平臺“飛星一號”，填補了國產超大模型訓練平臺空白。

　　科大訊飛董事長劉慶峰表示：“我們應正視差距，聚焦自主創新的底座大模型‘主戰場’，聚焦資源加快追趕，同時系統性構建通用人工智能生態和應用，打造綜合優勢。”（黃一鶴）

　　轉自：經濟參考網

返回產經網首頁 >>