近日,在上海徐匯區“模速空間”舉辦的“2025金融大模型評測體系發布會”上,上海人工智能實驗室和庫帕思聯合發布新版金融大模型評測體系和基準。評測發現,在測試難度提升的前提下,2025年大模型測試結果全面超越2024年。
據悉,該體系在標準引領、數據驅動、安全可信與生態共建四大維度實現全面升級,構建覆蓋金融全場景的評測基線,為行業提供統一、權威、可操作的技術評估框架。
庫帕思COO施佳樑介紹,該評測體系匯聚了4個公開數據集與22個自建數據集,約3.6萬條評測數據,堅持科學與魯棒的評測過程,采用循環選項打亂機制和多樣化提示詞,并研發金融裁判大模型,實現評測全流程自動化、標準化,助力機構選型、優化及風險把控。
與會專家向記者解釋,采用循環選項打亂機制,目的是避免大模型猜題或者固定答案;設置多樣化提示詞,是針對同一個考點設計不同文本提問以反復評測準確性;讓大模型來評測大模型,是為了減少人工在評測過程中的干擾和不穩定性。
此外,該評測體系包括大語言模型評測體系和智能體評測體系兩部分。其中,智能體是2025年新增的評測對象。
對此,上海財經大學教授張立文表示,金融智能體評測近期備受關注,也是實際評測中的難點領域。因為在金融實務中,大模型能力只是一方面影響因素,金融機構更多是以智能體的形式來提供服務。因此評測金融智能體更有實際意義。
對于推出金融大模型評測體系和基準的必要性,上海市人工智能行業協會相關負責人表示,“人工智能技術正加速向金融行業縱深滲透,大模型在智能投研、風險控制、客戶服務、合規審查等場景中的應用日益廣泛。然而,面對模型能力參差不齊、評測標準不統一、安全合規邊界模糊等現實挑戰,行業亟需一套權威、開放、可復現、面向實戰的金融 AI評測體系,以引導技術健康發展、加速產業落地進程。”
上海市委金融辦副主任、一級巡視員葛平表示,2024年由庫帕思、上海人工智能實驗室等機構發布的全國首個“以金融業務為中心”的金融大模型評測體系,為行業提供了科學選型與能力對標的重要“標尺”。2025年評測體系的全面升級,將助力上海建設具有全球影響力的金融科技中心。
會上,上海市委金融辦金融科技處、徐匯區商務委、上海市經信委人工智能處、上海市委網信辦網絡技術處,聯合上海人工智能實驗室、庫帕思及上海財經大學,共同發布《金融大模型應用評測報告(2025)》與《金融大模型評測數據集(2025)》。該報告基于真實金融業務場景構建評測任務,探索金融垂直領域大模型應用的新理念、新機制與新手段,將有效支撐金融機構科學選型、降本增效,加速大模型在投研、風控、客服等核心環節的規模化落地。(記者 葉健)
轉自:經濟參考網
【版權及免責聲明】凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業宣傳資訊,僅代表作者個人觀點,不代表本網觀點和立場。版權事宜請聯系:010-65363056。
延伸閱讀