• 大語言模型與非遺“共舞”


    中國產業經濟信息網   時間:2024-11-06





      宋錦既然起源于蘇州,為什么叫宋錦?為什么會有宋錦到蜀錦的發展轉變?繅絲使用梭子的方式與一般織布有何不同?近日,在《中國世界級非遺文化悅讀系列》叢書發布會上,一款同步推出的“非物質文化遺產大語言模型”引人注目。在模型中輸入上述問題,一個個翔實、生動的答案躍入眼簾。


      南京農業大學信息管理學院王東波教授接受記者采訪時表示,他帶領團隊聯合南京大學“術語與翻譯跨學科研究基地”推出的這款模型,致力于推動非遺文化的數字化保護,為非遺文化的保護與傳播開辟新路徑。


      “非物質文化遺產是中華優秀傳統文化的重要組成部分,我們希望通過打造一款非遺領域的人工智能大模型,促進中華優秀傳統文化的國內外傳播。”王東波介紹,目前的通用領域大模型雖然在語言能力與通用知識領域表現出色,但缺乏對特定領域知識的了解。通過專業領域的數據開展預訓練,能夠彌補通用大模型在非遺知識領域的匱乏。


      “在非物質文化遺產領域,數據的獨特性與復雜性是大模型構建的關鍵挑戰。”王東波表示,為確保非遺大模型能夠精準理解和運用文化遺產領域的獨特知識,研究團隊在數據收集階段,從中國非物質文化遺產網的政策、資源、學術等五大板塊獲取并整理了海量數據,并利用學術文獻數據庫中的大量非遺相關期刊論文摘要,通過對網頁內容的分類解析和論文摘要的整理,構建了一個內容豐富、預訓練數據總字數超1868萬字的數據集。


      在王東波看來,高質量數據集的構建是非遺大語言模型獲取相關領域專業知識的必要條件。為使模型能夠更好地理解和響應非遺相關問題,研究團隊通過對數據的量化分析和組織專家的深度參與,構建了面向非遺的知識實體標注方案,所完成的知識實體精標注語料庫總字符數超176萬。


      經過長期的人工數據標注與校驗,團隊實現了非遺數據知識實體的精細標注。為進一步豐富訓練數據,研究團隊結合數據生成的特性,與南京大學術語與翻譯跨學科研究基地的魏向清教授團隊合作,依托超大型語言模型,融入了《中國世界級非遺文化悅讀系列》叢書中的對話內容,對已有非遺文本數據進行轉換與增強,構建了高質量的非遺知識對話數據。


      依托南京農業大學高性能算力平臺,研究團隊訓練出非遺領域基座大模型,又在非遺知識對話數據的基礎上進一步構建了非遺對話大模型。


      “非遺對話大模型可以實現非遺文化的智能化傳播與知識普及,目前,這款模型有中英文兩種語言模式。后期我們也將嘗試引入其他語種,將不同地域的非遺文化融合,打破語言障礙,助力中國非遺文化走向世界。”王東波表示,團隊希望通過非遺領域大語言模型,促進傳統故事、技藝、習俗等內容的數字化、知識化、系統化保護與利用,建立非遺的長效保護體系,確保非遺的可持續發展。(記者 金鳳 通訊員 趙志梟)


      轉自:科技日報

      【版權及免責聲明】凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業宣傳資訊,僅代表作者個人觀點,不代表本網觀點和立場。版權事宜請聯系:010-65363056。

    延伸閱讀

    ?

    版權所有:中國產業經濟信息網京ICP備11041399號-2京公網安備11010502035964

    www.色五月.com