• 金智維登頂ScreenSpot-Pro榜單,多項指標領先全球


    中國產業經濟信息網   時間:2026-03-26





      摘要:以小模型實現高精度界面定位,AI執行能力進入新階段

      近日,一項聚焦AI操作能力的全球性基準測試——ScreenSpot-Pro,開始從技術圈走向更廣泛的行業視野。

      在最新公布的ScreenSpot-Pro榜單中,金智維KV-Ground模型取得全面領先:其中,主流8B模型位列全榜單第一,超越了包括更大參數規模在內的所有模型;4B小模型位列4B參數模型第一,以更小模型實現更高性能。

      這一結果也充分反映出,AI 正在從“聽得懂指令”向“真正能夠操作”邁進了關鍵一步。

      ScreenSpot-Pro 測的是什么?

      過去幾年,業界常用“多模態能力”來衡量AI進步,例如能否看懂圖片、理解頁面內容,但在真實企業環境中,這些能力往往只停留在理解層面。真正決定AI能否落地的,是更具體的一環:AI能否在復雜的軟件界面中,準確找到并指向應該點擊的控件。例如,當財務人員需要在企業ERP系統中“生成上月銷售匯總報表”時,AI不僅要理解指令,還必須在滿是菜單、工具欄和層層彈窗的完整界面里,精準定位那個可能藏在角落的“導出”按鈕。

      ScreenSpot-Pro 重點考察的正是這一能力。在真實測試中,它會給模型一句自然語言指令,例如“打開高級篩選”或“導出當前報表”,然后要求模型在一張完整的、高分辨率的真實軟件界面截圖中,精準定位對應的按鈕、菜單或輸入框。這種技術能力被稱為GUI Grounding,通俗來說,就是AI是否具備“操作電腦”的基礎執行力。

      ScreenSpot-Pro采用的是整屏、專業軟件的高難度場景,覆蓋辦公、開發、設計、工程分析等23款真實應用,橫跨多個行業與操作系統,所有任務均由資深專業人士標注。相比早期許多僅使用簡化網頁截圖的測試,這個基準更接近企業日常工作的真實復雜程度,因此被廣泛視為判斷智能體能否真正落地的世界級關鍵標桿。它由多家知名學術機構聯合打造,目前已被OmniParser v2、Qwen2.5-VL、UI-TARS等多個主流GUI智能體項目采用,成為行業共識性的重要參考。

      金智維KV-Ground在高難度基準上的表現

      根據ScreenSpot-Pro官方榜單數據,金智維KV-Ground-8B模型作為一款與智能體策略深度融合的模型,在ScreenSpot-Pro上得分80.5分,位列所有模型第一,成功超越包括更大參數模型在內的多個競品;KV-Ground-4B模型得分67.0分,摘得4B規模組第一,在全榜單中同樣表現突出。

      這一成績已非常接近人類在復雜界面定位任務中的表現水平,標志著金智維KV-Ground不僅能在專業高分辨率GUI場景中精準理解指令,更具備接近人類水準的動手執行能力。

      值得關注的是,這一成績并非單純依賴更大參數規模。從基礎模型到KV-Ground版本的對比實驗顯示,金智維KV-Ground在界面定位精度上實現了穩定提升,其采用的專項優化方法,能夠在不同規模模型上被穩定復現和擴展,而非針對單一榜單的偶然突破。

      小模型領先:企業真正需要的落地優勢

      在企業真實應用場景中,模型參數規模仍是重要指標之一,但并非唯一決定因素。金融機構需要快速處理報表,制造企業要在CAD軟件中執行設計調整,研發團隊則經常面對MATLAB或SolidWorks等專業工具……這些場景下,部署成本、響應速度和系統兼容性同樣關鍵。在這一背景下,金智維KV-Ground-4B 小模型在復雜專業界面中仍保持較高精度,意味著企業可以在更低算力條件下實現類似能力。

      換句話說,原本可能需要較高硬件投入的界面理解與操作能力,如今在更輕量的部署環境中也可以實現,原本中大模型動輒幾十萬甚至上百萬元的服務器,大幅降低到僅需萬元左右的設備即可滿足,實現更低的時延和更高的性價比。當小模型也能精準完成復雜界面定位時,AI才真正具備大規模進入企業系統的條件,極大降低了企業級智能體的部署門檻。

      從“能理解”到“能執行”:智能體落地邁出關鍵一步

      長期以來,企業智能體一直都面臨一道難關:大模型可以清晰理解任務,卻難以直接完成操作;傳統自動化工具可以執行固定流程,卻缺乏靈活適應能力。而GUI Grounding能力的突破,填補了這條斷層。

      這也意味著,系統不需要改變,AI可以主動適應系統,企業因此能夠以更低的門檻,將智能體融入日常業務流程,實現從輔助決策到直接執行的躍遷。

      此次金智維KV-Ground在ScreenSpot-Pro這一世界級高難度基準上的領先表現,打破了“參數越大越強”的單一認知,展現出一條更注重效率與實用性的優化路徑,即在專業GUI操作這一真實難題上,通過針對性優化,小規模模型同樣能夠達到世界領先水平,這也為行業提供了新的參考思路。

      如今,AI的發展正在從拼規模轉向拼能力結構,尤其是在企業落地場景中,高效與實用正成為核心競爭力。隨著GUI Grounding等底層能力的持續成熟,企業級智能體將進一步走向實用階段,AI不僅“會想”,更“會做”,真正成為驅動企業生產力的可靠力量。


      轉自:中國網

      【版權及免責聲明】凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業宣傳資訊,僅代表作者個人觀點,不代表本網觀點和立場。版權事宜請聯系:010-65363056。

    延伸閱讀

    ?

    版權所有:中國產業經濟信息網京ICP備11041399號-2京公網安備11010502035964

    www.色五月.com