• 有一群人正在教AI說蘇州話


    來源:中國產業經濟信息網   時間:2020-05-27





      方言語音識別輸入在長三角人日常生活中的應用值得期待。對著手機的麥克風說幾句鄉音,就已經參與到了方言保護的工作中。


      日前,全國人大代表、南京市人大常委會主任龍翔提交了一份關于深入推進漢語方言傳承工作的建議。他認為,長三角地區城市化快速發展帶來的大規模人口流動,縮小和降低了方言使用范圍和使用率,或是導致長三角方言漸失活力乃至逐步萎縮的主因之一。


      龍翔指出,以南京為例,統計顯示南京話在家庭生活中使用比例最高,達62.8%;而在日常工作中使用的比例最低,僅為39.8%。與此同時,南京暫住人口每增長1%,普通話使用率約增長2.3%;人口內部流動還使南京原下關區特有的、具有區域特色的讀音近乎消失。


      方言承載著地域文化內涵,更是人們鄉情的根系。然而,在經濟社會高速發展的今時今日,方言卻在我們的日常生活中漸行漸遠。如何留住正在遠去的方言?一家長三角企業如今正利用人工智能技術,“教”AI說蘇州話。此前,一項面向全國的本土出生人群方言使用情況的調查顯示,包括上海、蘇州、杭州、寧波、溫州在內的多個長三角城市,6到20歲人群能夠熟練使用各自方言的比例在全國普遍偏低,其中墊底的蘇州僅為2.2%。


      人工智能+長三角方言能有啥效果?


      復制方言


      在2019年于蕪湖舉辦的首屆長三角一體化發展高層論壇上,科大訊飛董事長劉慶峰的發言帶著皖南口音,被快速精準地識別成文字,并同步放到了大屏幕上。看來,方言和口音不是語言識別技術的障礙。總部設在安徽合肥的科大訊飛目前對保護方言的解決方案是“復制方言”。科大訊飛消費者輸入法業務部總經理程坤這樣解釋訊飛方面的構想:“我們的目標是利用人工智能技術,不斷提升方言語音識別、合成和翻譯的能力。一旦能夠實現這幾點,也就意味著一門方言被完整地‘拷貝’下來了。即使有朝一日這門方言無人再使用,也能夠實現數據留檔,并翻譯成主流的通行語言。”


      聯合國教科文組織的統計數據顯示,世界范圍內,每兩周就有一種語言消失。為方言留檔,確實意義重大。然而,雖然2017年科大訊飛就在蘇州成立了分支機構,但是人工智能的蘇州話,還是得有人“教”。


      程坤說,“教”AI說方言,是一個手把手、一字一句教學的過程。首要任務是要進行大規模的數據采集,采集的數據在經過標注后,便可以形成語料庫。然后利用語料庫,結合機器學習技術,訓練方言識別模型:“語料庫里有很多方言音頻,每一條音頻有對應的文本。而所謂的教學過程,簡單來說就是告訴AI,這段音頻對應的是這段文字。如此反復,AI最終就能‘學會’這門方言。”


      教AI說方言,數據采集是最吃功夫的部分。據程坤介紹,傳統的做法是實地前往各個方言地區,通過與當地人的面對面交流,收集當地方言中特有的詞匯、俚語等音頻數據。采集完成后,數據標注工作同樣大量依賴人力。程坤說:“工作人員首先要對音頻的質量進行判斷,剔除音頻質量不好的數據,然后將保留下來的數據轉寫成文字。”


      應用前景


      由于方言所對應文字相當一部分沒有統一標準,因此在進行標注前,“教材編纂”團隊需要制定方言用字規范。他們會大量參考官方文獻,逐一進行確認。對于在文獻中找不到的文字,則需再調研當地人的用字習慣,選出接受度最高的作為該方言詞語的對應用字。


      “想要讓人工智能真正學會一門方言,始終離不開方言母語者的實際參與。開發方言輸入法,也是為了能夠創造更多的方言應用場景,為語料庫的數據錄入創造條件。”程坤坦言,如何讓更多的方言母語者參與到語料庫的建設和數據標準的工作中,是“教”AI說方言的一大難點。


      5月18日,訊飛方面與蘇州博物館的一次跨界合作,或可視作為AI尋找更多民間“方言老師”的嘗試:在第44個國際博物館日,雙方合作推出一款微信小程序,用戶可以用蘇州話講述蘇博館藏文物的歷史,并進行上傳和分享。而用戶上傳的這些蘇州話音頻,在經過篩選和標注后,將成為AI“學習”蘇州話的“教材”。


      程坤表示,蘇州話是吳方言中重要的一支和典型代表,因此蘇州話的保護極具標桿意義。另一方面,蘇州話近年來的活力不容樂觀,尤其在青少年中的使用率下降可謂斷崖式。程坤說:“訊飛輸入法跨界聯動蘇州博物館,借助方言講述文物歷史的形式,是希望激發大眾參與方言傳承和保護的熱情,就像保護以蘇州話為載體的昆曲、評彈、蘇劇那樣,增強蘇州市民對蘇州話的認同感和自豪感。”


      如果說訊飛與蘇博的此次合作尚是一次“應景”之舉,那么方言語音識別輸入在日常生活中的應用則更值得期待。當操著各自方言的長三角人拿著手機用語音進行輸入時,遠在云端的AI的“教材”也在不斷地被充實。這也意味著,僅僅是對著手機的麥克風說幾句鄉音,就已經切實參與到了方言保護的工作中。隨著越來越多的人在日常生活中參與到“教材編纂”的工作中,AI掌握一口正宗吳儂軟語的日子或許為期不遠,未來智能語音識別也將應用到更多的生活場景中去。



      轉自:解放日報

      【版權及免責聲明】凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業宣傳資訊,僅代表作者個人觀點,不代表本網觀點和立場。版權事宜請聯系:010-65367254。

    延伸閱讀

    熱點視頻

    清明祭||梁學章:英雄不死,精神永存 清明祭||梁學章:英雄不死,精神永存

    熱點新聞

    熱點輿情

    特色小鎮

    ?

    版權所有:中國產業經濟信息網京ICP備11041399號-2京公網安備11010502035964

    www.色五月.com