• 達摩院發布中文社區最大規模預訓練語言模型


    中國產業經濟信息網   時間:2021-05-08





      近日,阿里巴巴達摩院發布中文社區最大規模預訓練語言模型PLUG。該模型參數規模達270億,集語言理解與生成能力于一身。


      該模型背后的操作原理是自然語言處理。這是人工智能的核心技術。它無縫彌合了復雜的人類語言和編碼機器之間的通信鴻溝,讓機器“聽得懂”人話。而預訓練語言模型正是目前自然語言處理的一種主流技術。它可以基于大規模文本預訓練,得出通用的語言知識,然后經過微調,有針對性地將學習到的知識傳遞給不同的下游任務。


      從產業發展的角度來看,基于人工智能的語言模型提供了一種基于海量非監督數據自學習的范式,減少人工干預成本,加快AI技術的商業化落地。近年來,AI領域興起了預訓練語言模型浪潮。2020年5月,OpenAI發布的1750億參數超大規模預訓練模型GPT-3“一炮而紅”。微軟巨額投資跟進,獲得GPT-3語言模型的獨家許可。2021年1月,谷歌推出1.6萬億參數的超級語言模型Switch Transformer,也受到了高度關注。


      “通常情況下,越多訓練數據,越大參數規模,一般能夠獲得更好的性能。當然,到了一定程度也有一定的上限。”達摩院深度語言模型團隊負責人黃松芳在接受記者采訪時表示。大規模AI語言模型競爭的背后,實際上是數據量、算力和模型結構設計之間的較量。


      據黃松芳介紹,PLUG的亮點主要體現在兩個方面:首先,不同于GPT-3單向生成模型,PLUG是一個雙向的自然語言理解和生成統一模型,集成了達摩院自研的語言理解StructBERT和語言生成PALM雙模型,通過構建輸入文本雙向理解能力,顯著提升了輸出文本的相關性。其次,得益于阿里云EFLOPS高性能AI計算集群和高效的并行訓練優化算法,PLUG基于1TB的文本數據訓練,參數規模達到270億,在語言理解任務上,PLUG以80.614分刷新了CLUE分類榜單紀錄;在語言生成任務上,PLUG多項應用數據較業內最優水平提升了8%以上。


      然而,黃松芳也坦言:“目前PLUG是全球中文領域最大的純文本預訓練語言模型,但相比國外以英文為核心的GPT-3模型1750億的參數規模,還只有其1/6不到。”據介紹,達摩院計劃將PLUG參數規模擴大至2000億級,并進一步提升文本生成質量。


      “后續,我們在盡力繼續擴大模型參數規模的同時,也會關注超大模型的落地應用實踐,努力探索低碳、高效、業務可用的預訓練語言模型。另外,對于大規模訓練語言模型的發展趨勢,我們將從數據驅動逐步發展到知識驅動,探索數據和知識深度融合的預訓練語言模型。”黃松芳說。


      未來,PLUG有望廣泛運用于日常生產及生活的場景中。例如,在醫療領域中,PLUG可用于電子病歷的質量控制、臨床醫學的輔助診療等;在電力領域,可用于各種電力設備文檔的解析,打造為電力企業員工提供設備故障診斷的AI助手,還可以幫助理解電力故障報案需求,提供高效的電力調度支持。


      “超大規模預訓練模型將作為一種AI基礎設施,推動相關理論研究和技術應用更上一層,從而改變整個產業格局。”智源學術副院長、清華大學教授唐杰表示,“繼基于數據的互聯網時代、基于算力的云計算時代之后,接下來可能將進入基于模型的AI時代。”(記者宋婧)


      轉自:中國電子報

      【版權及免責聲明】凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業宣傳資訊,僅代表作者個人觀點,不代表本網觀點和立場。版權事宜請聯系:010-65363056。

    延伸閱讀

    ?

    版權所有:中國產業經濟信息網京ICP備11041399號-2京公網安備11010502035964

    www.色五月.com