謝賽寧團(tuán)隊(duì)新作打破“多語(yǔ)言詛咒”!MetaCLIP 2支持300多種語(yǔ)言,英語(yǔ)性能反倒提升了
數(shù)據(jù)和代碼均已開源
謝賽寧團(tuán)隊(duì)新作正在引起熱議!
一直以來(lái),作為文生圖基石的CLIP模型主要基于英文數(shù)據(jù)訓(xùn)練,但實(shí)際上,全球互聯(lián)網(wǎng)仍有超過(guò)50%的非英文數(shù)據(jù)。
為了將CLIP模型進(jìn)一步擴(kuò)展,研究人員需要搞定兩大“攔路虎”:
- 缺乏處理非英語(yǔ)數(shù)據(jù)的篩選方法;
- 現(xiàn)有多語(yǔ)言CLIP的英語(yǔ)性能比純英語(yǔ)版本差(即所謂的“多語(yǔ)言詛咒”)。
而謝賽寧團(tuán)隊(duì)正是在這兩方面取得突破。他們提出了首個(gè)基于全球數(shù)據(jù)從頭訓(xùn)練的CLIP——MetaCLIP 2,通過(guò)擴(kuò)展元數(shù)據(jù)、優(yōu)化篩選和提升模型容量,斬獲了以下成果:
- 搭建了能處理300多種語(yǔ)言的CLIP數(shù)據(jù)整理流程。
- 打破了“多語(yǔ)言詛咒”,不僅沒(méi)有影響英語(yǔ)任務(wù)的表現(xiàn),而且反倒還提升了。
論文一作Yung-Sung Chuang(MIT博士生、現(xiàn)Meta實(shí)習(xí)生)激動(dòng)表示:
是時(shí)候告別語(yǔ)言過(guò)濾器了!

剛被小扎從OpenAI挖走的Lucas Beyer也出來(lái)對(duì)這一觀點(diǎn)表示認(rèn)同,順帶還感謝了論文中的引用:
很高興看到我們提出并始終倡導(dǎo)的“NoFilter”理念能在MetaCLIP 2中得到應(yīng)用。
這就是正確的道路!

這也引來(lái)了謝賽寧本人的回應(yīng):
早在MetaCLIP中,團(tuán)隊(duì)的目標(biāo)也是NoFilter(與其搞復(fù)雜過(guò)濾,不如相信原始數(shù)據(jù)的價(jià)值)。
我也認(rèn)為NoFilter才是正道。

下面詳細(xì)來(lái)看MetaCLIP 2所采用的方法。
基于MetaCLIP,進(jìn)一步優(yōu)化結(jié)構(gòu)和流程
概括而言,為了讓CLIP模型能從全球數(shù)據(jù)中學(xué)習(xí),MetaCLIP 2采用了三大關(guān)鍵創(chuàng)新:
- 構(gòu)建全球元數(shù)據(jù)
- 實(shí)施全球篩選算法
- 構(gòu)建全球模型的訓(xùn)練框架

開始之前,論文先回顧了原始MetaCLIP所采用的思路。
簡(jiǎn)單說(shuō),其篩選邏輯主要分三步:
- 從英語(yǔ)WordNet、維基百科提取50萬(wàn)個(gè) “視覺概念”,組成元數(shù)據(jù)列表M;
- 用這些概念匹配圖像-文本對(duì)的描述文字(逐個(gè)檢查文本里的內(nèi)容,看能否匹配到M里的詞條);
- 設(shè)定一個(gè)閾值t,通過(guò) “平衡機(jī)制”(控制頭部/尾部概念的比例)篩選數(shù)據(jù),確保“貓”“狗”這類常見概念和“深海生物”“小眾建筑”這類少見概念分布合理。
順便一提,OpenAI CLIP將t設(shè)置為20k,而MetaCLIP為了適配十億級(jí)英語(yǔ)數(shù)據(jù),把t調(diào)高到170k ,讓平衡策略更適合大規(guī)模數(shù)據(jù)。
而MetaCLIP 2,正是在英文MetaCLIP的基礎(chǔ)上,進(jìn)一步優(yōu)化了架構(gòu)和流程。
這第一步非常簡(jiǎn)單,無(wú)非是將之前的元數(shù)據(jù)擴(kuò)展到300多種語(yǔ)言。
具體而言,它現(xiàn)在包含了多語(yǔ)言的WordNet和各國(guó)維基百科的詞匯,有點(diǎn)像給每種語(yǔ)言都編了一套 “視覺概念詞典”。
然后用算法給每種語(yǔ)言“量身篩數(shù)據(jù)”。
先是識(shí)別文字是哪種語(yǔ)言,再用對(duì)應(yīng)語(yǔ)言的“字典”去匹配圖像-文字對(duì)。
同時(shí)給每種語(yǔ)言設(shè)立單獨(dú)的篩選標(biāo)準(zhǔn)(比如控制“常見概念”和“少見概念”的比例),確保每種語(yǔ)言的數(shù)據(jù)分布合理,不會(huì)出現(xiàn)某類內(nèi)容過(guò)多的情況。
下圖為MetaCLIP 2篩選全球多語(yǔ)言圖像-文本對(duì)的偽代碼(用Python/NumPy風(fēng)格編寫):

最后再調(diào)整訓(xùn)練策略,避免“顧此失彼”。
一方面,鑒于全球數(shù)據(jù)變多了,所以團(tuán)隊(duì)按比例增加了訓(xùn)練時(shí)“見過(guò)的樣本量”(比如擴(kuò)大2.3倍),保證英語(yǔ)樣本量不減少。
另一方面,團(tuán)隊(duì)發(fā)現(xiàn)模型大小很關(guān)鍵——小一點(diǎn)的模型(如ViT-L/14)還會(huì)受“多語(yǔ)言詛咒”,但大一點(diǎn)的ViT-H/14能打破詛咒,讓英語(yǔ)和非英語(yǔ)能力一起提升。

p.s. 大語(yǔ)言模型中的“多語(yǔ)言詛咒”是指,當(dāng)模型在多語(yǔ)言數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),出現(xiàn)某些特定語(yǔ)言(尤其是原本表現(xiàn)較好的語(yǔ)言,如英語(yǔ) )性能下降的現(xiàn)象。
采用以上數(shù)據(jù)篩選方法,MetaCLIP 2與NoFilter理念形成了深度協(xié)同——篩選邏輯的本質(zhì)從“語(yǔ)言過(guò)濾”(如直接排除非英語(yǔ)數(shù)據(jù))轉(zhuǎn)向“概念平衡”,從“排除數(shù)據(jù)”(如用單一標(biāo)準(zhǔn)排除數(shù)據(jù))轉(zhuǎn)向“優(yōu)化分布”。
多語(yǔ)言任務(wù)創(chuàng)下新SOTA,還打破了“多語(yǔ)言詛咒”
為了驗(yàn)證方法的有效性,團(tuán)隊(duì)基于全網(wǎng)公開數(shù)據(jù)(英語(yǔ)占44%,非英語(yǔ)占56%)進(jìn)行了實(shí)驗(yàn)。
訓(xùn)練配置上,團(tuán)隊(duì)基本沿用OpenAI CLIP/MetaCLIP的參數(shù),僅調(diào)整樣本量(如ViT-H/14用290億樣本)和模型容量。
實(shí)驗(yàn)結(jié)果顯示,MetaCLIP 2在多項(xiàng)測(cè)試中表現(xiàn)亮眼:
首先,它打破了大語(yǔ)言模型領(lǐng)域存在的“多語(yǔ)言詛咒”,證明學(xué)了非英語(yǔ)數(shù)據(jù)后,英語(yǔ)能力不僅沒(méi)有下降,甚至反而變強(qiáng)了。
例如,它在ImageNet識(shí)別日常物品上準(zhǔn)確率達(dá)到81.3%,超過(guò)純英語(yǔ)CLIP的80.5%。

其次,它在多語(yǔ)言測(cè)試中(如用280種語(yǔ)言給圖片分類、跨36種語(yǔ)言搜圖),成績(jī)遠(yuǎn)超之前的mSigLIP、SigLIP 2等模型。
還是上面這張圖,它在Babel-ImageNet多語(yǔ)言圖像分類任務(wù)里,取得了50.2%的準(zhǔn)確率;在XM3600圖像到文本檢索任務(wù)中,檢索匹配的準(zhǔn)確率達(dá)到64.3%。
更有意思的是,MetaCLIP 2不僅更懂“文化多樣性”,而且嵌入質(zhì)量也更優(yōu)。
一方面,它在文化多樣性任務(wù)(如地理定位)上表現(xiàn)更優(yōu),如在Dollar Street、GLDv2等數(shù)據(jù)集上,全球數(shù)據(jù)訓(xùn)練的模型準(zhǔn)確率顯著高于純英語(yǔ)或純非英語(yǔ)模型。

另一方面,它在對(duì)齊性(圖像-文本相關(guān)性)和均勻性(視覺嵌入分布)上的得分同樣更優(yōu)。

劃重點(diǎn),目前相關(guān)數(shù)據(jù)和代碼均已開源了~
論文:
https://arxiv.org/abs/2507.22062
代碼地址:
https://github.com/facebookresearch/MetaCLIP
- 梁文鋒,Nature全球年度十大科學(xué)人物!2025-12-09
- 英偉達(dá)巧用8B模型秒掉GPT-5,開源了2025-12-06
- SpaceX估值8000億美元超OpenAI,IPO就在明年2025-12-06
- 騰訊發(fā)布EdgeOne Pages正式版:國(guó)內(nèi)首個(gè)邊緣全棧開發(fā)平臺(tái),內(nèi)測(cè)階段用戶突破15萬(wàn)2025-12-05



