最癲OpenAI爆料者竟是AI智能體??CEO出來認領,網友炸鍋
如果你關注AI消息,很大概率見過這個賬號……
夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
如果你這幾天在/推特上關注AI消息,那很大概率見過這個“草莓哥”賬號。
頭像是電影《Her》里的男主,昵稱是三顆草莓,要素拉滿。不知疲倦一天24小時在線水貼,內容多是OpenAI下一代模型爆料消息,時準時不準……

自從OpenAI奧特曼和草莓哥配合互(炒)動(作)過之后,不管你愿意不愿意看,推薦算法都會確保ta出現在你的時間線上。

昨天,草莓哥聲稱OpenAI將有大動作,大家是非常期待的。
而且剛好又到了谷歌開發布會的時間,OpenAI拿出什么消息來搶頭條也是很合理的吧。
但時間到了大家發現,沒有GPT-5,也沒有草莓/Q*,也沒有Sora公測……OpenAI只是發了新版大模型代碼能力測試基準。

就在網友們的耐心被耗光的時候,劇情反轉來了。
創業公司MultiOn AI的創始人Div Garg現身認領:
草莓哥賬號其實是我們家最先進的AI Agent控制的,快來和它在線互動吧。

網友一下子炸鍋了:
“要么這就是當前最好的AI Agent,要么這家公司參與炒作,把公司聲譽全毀了。”

斯坦福博士休學創業,估值7億元
先來說說MultiOn AI這家公司,專注于構建AI智能體。
旨在自動化日常任務和操作網頁,例如從電商平臺買手紙或安排日程表。
今年6月,有消息稱MultiOn將完成2000萬美元(約1.4億元)融資,估值約1億美元(約7.1億元)。
創始人Div Garg,斯坦福大學讀CS博士期間休學創業,在Uber、谷歌、蘋果、英偉達都有實習經歷。

他們最新推出的智能體產品Agent Q,號稱擁有做計劃和糾正自己錯誤的能力,可以跨站點瀏覽、填寫表單,zero-shot表現比Llama 3基線提升340%。

與此同時,也發布了與斯坦福團隊合作的相關研究論文,

關鍵創新點是AlphaGo同款蒙特卡洛樹搜索算法結合DPO微調。

總之呢,產品和論文看起來還挺正經的。
就是CEO聲稱草莓哥賬號是AI控制的這一點,網友們還是不太買賬。

最近圍繞AI的消息太多太亂,大家已經不知道該相信什么了。

不過也有人認為,草莓哥的賬號與MultiOn公司成立時間對的上,用戶名iruletheworldmo最后的“mo”可以是MultiOn的縮寫。

但即使是真的,也有很多人批評這家公司的做法,沒有帶來什么好影響,而是浪費了很多人時間。
AI越獄大師Pliny看不慣這種做法,發出了最后通牒:
給你們15分鐘時間,要不拿出決定性的證據,要么坦白真相,不然就把你家智能體的系統提示詞公布在GitHub上。

時間到了,Div Garg并沒有回應,反而刪除了其中一條聲稱草莓哥賬號由AI控制的兩條發言,另一條還保留著。
Pliny也如約發布了提示詞。

One More Thing
在國內大家睡覺的這段時間,AI圈發生了很多事。
除了MultiOn的鬧劇之外,谷歌發布了對標GPT-4o高級語音模式的Gemini Live語音聊天機器人。

OpenAI則出了兩招來回應:
發布最新代碼能力基準測試SWE-Bench Verified,給“AI程序員”們出了一套更合適的考試題。
OpenAI在測試中發現原版基準中有一些AI不可能或很難解決的任務,從而導致基準普遍低估了當前模型的自主軟件工程能力。
此前SWE-Bench原版作者姚班學霸姚順雨已經畢業入職OpenAI,這次OpenAI也和普林斯頓原始團隊進行了合作,在新版本中修正了這些問題,可以提供更準確的評估。
目前新版基準測試已經開源在GitHub上。

同時在大模型競技場上,GPT-4o的最新版本反超谷歌Gemini-1.5-Pro的試驗版本,重新奪回第一的位置。

OpenAI和谷歌的AI大戰,還將繼續……
參考鏈接:
[1]https://x.com/MultiOn_AI/status/1823412701441482959
[2]https://x.com/ai_for_success/status/1823447309008490730
[3]https://openai.com/index/introducing-swe-bench-verified/
- GPT-5.2果然反超谷歌Gemini 3 Pro!北大數院校友核心貢獻2025-12-12
- 釘釘又發新版本!把 AI 搬進每一次對話和會議2025-12-11
- 英偉達自毀CUDA門檻!15行Python寫GPU內核,性能匹敵200行C++2025-12-08
- GPT-5-Thinking新訓練方法公開:讓AI學會懺悔2025-12-04




