卡帕西大模型橫評方法太好玩!四大AI匿名參賽評分,最強出乎意料
模型還會承認自己的答案不夠好
鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
卡帕西又來發布趣味編程項目了~
這次直接整了一個“大模型議會”(LLM Council)web app。
界面看起來和ChatGPT的聊天形式別無二致,但實際上當用戶輸入問題后,系統會通過OpenRouter調起多個大模型開會商議。
有意思的是,它們不僅會一起答題,而且還會互相評分、排序,最終將由主席模型給出一個統一答案。

卡帕西剛把這個應用的安裝部署教程分享出來,就立馬被不少網友碼住:

更有甚者表示,或許以后模型自己評價模型本身就能變成一種新的“自動benchmark”:

暢銷書《Python機器學習》作者也很看好這個思路:

LLM議會怎么玩
具體來說,卡帕西的這個LLM議會系統,主要可分為三步流程:
Step 1:讓多個模型同時回答一個問題。
首先使用中間層OpenRouter同時調用多個大模型,包括:
- GPT-5.1
- Gemini 3 Pro Preview
- Claude Sonnet 4.5
- Grok-4
然后在同一問題下逐個收集它們的回復,并以標簽視圖的形式展示,以便用戶進行檢查。
Step 2:所有模型進行匿名互評。
這時,每個LLM都會收到其他LLM的回復。
為避免偏袒,對它們的身份都做了匿名化處理。
然后要求模型根據準確性和洞察力對其他模型的回答質量進行評估,需要給出評分和詳細理由。

Step 3:主席模型匯總最終回答。
LLM委員會將指定一名主席,將所有模型的回復匯總,并形成一個最終的答案,再轉交給用戶。
于是通過這個過程,就能直接對比不同模型,在處理同一個問題時的風格差異,而且能夠直觀地看到模型之間互相評價的過程。
這套系統,其實是延續了卡帕西最近分享的用LLM分階段深度閱讀的項目。

PS:在GitHub上也收獲了1.8k Stars。

該項目將傳統的閱讀流程重塑為與LLM協作的流程,通常閱讀一篇文章內容也分為三個階段:
1、先人工自己通讀一次,獲得整體感知和直覺理解。
2、然后將內容交給大模型處理,讓它理解重難點、提取結構、總結內容等。
3、對文章細節進行深度追問,例如“為什么作者這里會這樣寫?”
最終就是將寫作對象從人類讀者轉變為LLM讀者,讓LLM作為中介理解內容,再個性化翻譯給不同的讀者聽。
當將大模型議會融入其中后,大模型們的商議結果也很有意思。
卡帕西發現,大模型一致認為最強、最有洞見的答案來自GPT-5.1,而Claude被公認為最弱,Gemini 3和Grok-4則排名位于中間。

但顯然他對這個答案并不認同,在卡帕西的個人主觀評價中,GPT-5.1內容豐富但是結構不夠緊湊;Gemini 3答案更簡潔凝練、信息處理得更好;而Claude答案過于簡略。
此外,令人出乎意料的是,模型幾乎很少出現明顯的偏見,它們通常會愿意承認自己的答案不如另一個模型好。
總的來說,卡帕西認為雖然模型內部自評不一定與人類主觀一致,但類似的多模型集成或許將成為一個巨大的可探索空間,甚至可能成為未來LLM產品的一個突破點。
參考鏈接:
[1]https://x.com/karpathy/status/1992381094667411768?s=20
[2]https://github.com/karpathy/llm-council
[3]https://x.com/karpathy/status/1990577951671509438
- 知名數學家辭職投身AI創業:老板是00后華人女生2025-12-06
- Runway Gen-4.5刷屏發布,把重量塵土和光影都做對了,網友:顛覆2025-12-02
- 靈光 “一閃”,330萬個“閃應用”已創建2025-12-02
- AI也會被DDL逼瘋!正經研究發現:壓力越大,AI越危險2025-12-01




