多模態大模型的多語種文字理解能力還有很長的路要走,字節、華科聯合發布MTVQA Bench
期待后續多模態大模型的研究和發展更加關注多語種場景
MTVQA Bench團隊 投稿
量子位 | 公眾號 QbitAI
近期多模態大模型(MLLM)在視覺文本理解領域取得了顯著進展,比如開源模型InternVL 1.5、MiniCPM-Llama3-V 2.5、TextMonkey, 閉源模型GPT-4o、Claude等,甚至在某些方面展現了超越人類的能力。
然而,當前的評估主要集中在英文和中文的語言環境中,對于更具挑戰的多語種環境,研究還相對缺乏。在全球化的今天,多語言環境越來越多的出現在人們日常生活中,也給人工智能的發展帶來了很大的挑戰。
MTVQA(Multilingual Text-Centric Visual Question Answering)基準測試正是在這樣的背景下應運而生,專注于以多語言文字為中心的視覺問答,旨在填補現有評測基準在多語種視覺文本領域的空白。
MTVQA涵蓋了阿拉伯語、韓語、日語、泰語、越南語、俄語、法語、德語和意大利語等9種語言,收集整理了自然場景和文檔場景下的多語種富文本圖片,如菜單、路標、地圖、賬單、PPT、論文、圖表等。問答對都經過人類專家的精心標注,以確保視覺文本與問題及答案之間的高度一致性。
在MTVQA基準的測試結果顯示,無論是開源模型還是最先進的閉源模型如GPT-4o (Acc. 27.8%),準確率不到30%,開源的文檔類專家大模型表現也不盡如人意。
無論從哪方面來看,多語種文字理解能力都還有較大的提升空間。MTVQA重點關注除中英文以外廣泛使用的語言,希望能促進多語種文字理解能力的發展,將多模態大模型的成果普及到更多的國家和地區。

論文鏈接:https://arxiv.org/abs/2405.11985
項目鏈接:https://bytedance.github.io/MTVQA/

背景介紹
視覺文本理解能力是多模態大模型能力中的一個關鍵維度,現有的benchmark如DocVQA、TextVQA、STVQA等在GPT-4o、Gemini 、Internlm VL等先進的閉源和開源MLLMs的測評中發揮了重要作用,評估了多模態大模型在不同維度的視覺文本理解能力,但是他們都專注于中英文能力的測評,缺少一個能夠測評其他語種理解能力的benchmark。針對這些不足,字節和華科的研究者提出了MTVQA,首個全面測評多場景多語種視覺文本理解能力的benchmark。
MTVQA的構建過程
數據收集
測試集包括1220張泛文檔類的圖片和876張自然場景的圖片,數據來源可分為三部分:
(1) 網絡收集的圖片,如PPT、paper、logo等。
(2) 實地采集拍攝圖片,包括各種場景,時間跨度2023年3月到2024年3月。
(3) 現有公開數據,從ICDAR MLT19的公開圖片中采樣了一些具有代表性的場景文本圖片。
數據標注
所有QA數據均為經過培訓的母語人士進行標注,并進行多輪交叉驗證,確保問題的豐富性和答案的準確性。
標注規則:
- 問題必須和圖片中的文字內容有關
- 每張圖片包括3個可以直接問答的問題和2個需要進行一定推理的問題
- 答案盡可能和圖片中的文字保持一致
- 答案盡可能簡短,不重復問題的內容

交叉評估和修改:
- 評估問題和圖片中文本內容的相關性
- 評估答案的準確性和完整性
- 道德評估,判斷是否符合人類道德規范
數據集概覽


MLLMs在MTVQA Bench上的表現
在MTVQA上對19個先進的MLLM進行來測評,包括開源和閉源模型,測評結果如下:

實驗結果發現:
多語種文字理解現階段任然是非常有挑戰性的任務。盡管GPT-4o在大部分語種和總體成績上取得了第一名的成績,但是平均準確率只有27.8,相比于多模態大模型的英文理解能力,差距明顯,更別談和人類的差距了。
開源模型和閉源模型存在較大的差距。最優的開源模型是MiniCPM-V 2.5,取得了18.9%的成績,但距離頂尖的閉源模型如QwenVL Max, Gemini Ultra, Claude3 Opus, GPT-4o等還比較遠。
以文字理解為中心的多模態大模型并沒有明顯的優勢。研究者選取了最近的3個以視覺文字理解為中心的MLLM,mPLUG-DocOwl 1.5,TextMonkey,TextSquare,發現最優的TextSquare相比通用MLLM MiniCPM-V 2.5并沒有優勢(15.6 vs. 18.9)。
不同語種的理解能力差距明顯。拉丁類的語種如意大利語、德語、法語的表現遠好于非拉丁類語種如日語、韓語、俄語。這應該是由于拉丁類語種在視覺和語義上都和英文更相似。

總結
來自字節跳動和華中科大的研究者們針對多語種視覺文本理解任務提出了新的測評基準MTVQA Bench,并對多模態大模型的表現進行了測評和分析。研究發現,多語種視覺理解任務難度很大,當前多模態大模型表現較差,距離人類的水平還有很長的路要走。研究者們期待后續多模態大模型的研究和發展更加關注多語種場景,擴大多模態大模型的應用范圍,使得更多國家和地區的人們能夠參與其中,共享人工智能帶來的便利
- 英偉達自毀CUDA門檻!15行Python寫GPU內核,性能匹敵200行C++2025-12-08
- GPT-5-Thinking新訓練方法公開:讓AI學會懺悔2025-12-04
- GPT5.5代號“蒜你狠”曝光!OpenAI拉響紅色警報加班趕制新模型,最快下周就發2025-12-03
- 華爾街尬捧TPU學術界懵了:何愷明5年前就是TPU編程高手,多新鮮2025-11-30



