谷歌Gemini 3把GPT-5.1打成計量單位!馬斯克奧特曼都服了
全新智能體開發(fā)平臺,殺入AI編程賽場
夢晨 聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
不得了。
谷歌Gemini 3 Pro進(jìn)步太大了,與上一代2.5 Pro之間差出一個GPT-5.1(狗頭)。
新模型在幾乎所有基準(zhǔn)測試中超過GPT-5.1和Claude4.5,包括人類最后的考試、ARC-AGI-2這些專為AGI準(zhǔn)備的測試,數(shù)學(xué)的AIME 2025帶工具拿滿分,還刷新了之前讓大模型全員得0分的LiveCodeBench Pro紀(jì)錄。

用戶投票的大模型競技場也是一樣,馬斯克的Grok4.1昨天才刷完榜,今天就被反超了。

這下奧特曼和馬斯克也不得不佩服了,前后腳出來點贊祝賀。


測試期間看Gemini 3模擬Windows、Mac、Linux三大操作系統(tǒng)界面,還以為它只擅長設(shè)計前端呢,原來設(shè)計出的程序他真能用啊。
設(shè)計一個樂高編輯器,一次嘗試就完成了界面+負(fù)責(zé)空間邏輯和所有編輯器功能。

谷歌官方用Gemini 3 Pro設(shè)計的游戲更是發(fā)布在了油管上可以直接玩,純靠AI都能搭起一個4399小游戲網(wǎng)了你敢信?
在智能體任務(wù)上,Gemini 3 Pro不光擅長編程,還強化了現(xiàn)實生活任務(wù)的長期規(guī)劃能力,模擬管理自動售貨機一年賺了5000美元,取得所有模型中最高的收入。

從今天起,谷歌宣布“以整個公司的體量”發(fā)布Gemini 3系列模型,包括首次在發(fā)布當(dāng)天就將Gemini整合進(jìn)搜索,上線獨立APP,還推出全新的智能體開發(fā)平臺。
還有一個更強Gemini 3 Deep Think深度思考模式,正在路上。
至于這么大的能力飛躍如何實現(xiàn)的,只有研究VP Oriol Vinyals透露了一點:預(yù)訓(xùn)練還沒結(jié)束,后訓(xùn)練也還有很大改進(jìn)空間。

Gemini系列的集大成者
回看Gemini系列這幾年的演進(jìn),有點像打怪升級了,每一代都在補上一代的短板,然后在下一代里又把所有能力都打磨一遍。
1代奠定根基,把多模態(tài)能力和超長上下文打通,Gemini成為第一個能夠處理百萬級tokens上下文的大模型。
2代就開始變得有行動力,在1代的基礎(chǔ)上記住大量信息后,它就整合海量信息進(jìn)行決策和規(guī)劃,這也為智能體能力鋪了路。
到了Gemini 2.5,谷歌則開始認(rèn)真搞思考和推理,給它加了思考引擎,讓它能做更深入的推理、鏈?zhǔn)剿伎迹踔聊7氯祟惙植浇鉀Q問題。
現(xiàn)在的3代更是能力的集大成者,不是簡單堆料,而是深度融合,多模態(tài)、推理、Agent能力這些特性一起進(jìn)化,主打“你敢想,我實現(xiàn)”。
而且,Gemini 3更明顯的變化是更懂人話了。

不用糾結(jié)提示詞是否寫得“有水平”,只要把需求一丟,再長的提示詞它也能抓住語境、明白意圖,然后回你一句更簡潔又直接的答案,沒有彩虹屁的那種(doge)。

多模態(tài)方面更是開掛,文本、圖像、視頻、音頻和代碼一股腦地?zé)o縫理解。
比如說,給它看一段球賽的長視頻,它就能總結(jié)打法,把球員技巧整理出來,然后順便教你復(fù)現(xiàn)動作。
怎么感覺,上傳自己的訓(xùn)練視頻,就可以直接讓Gemini 3當(dāng)教練了……

在搜索場景里,Gemini 3也不是直接扔給你一堆鏈接,而是把即時查詢的信息組織成你真正能用的東西,生成可交互式的內(nèi)容。

反重力開發(fā)平臺,殺入AI編程戰(zhàn)場
這次與旗艦?zāi)P虶emini 3 Pro同步推出的,還有Google Antigravity(反重力)實驗性智能體開發(fā)平臺。
其核心理念是構(gòu)建一個“智能體優(yōu)先”(agent-first)的開發(fā)環(huán)境,將開發(fā)者從繁瑣的編碼工作中解放出來,轉(zhuǎn)向更高層次、面向任務(wù)的架構(gòu)師角色。
官方展示了如何用1分鐘開發(fā)一個航班追蹤程序。

與Cursor為代表的AI IDE相比,Google Antigravity的智能體已被提升到一個獨立的界面,并可直接訪問編輯器、終端和瀏覽器。智能體可以代表用戶自主規(guī)劃和執(zhí)行復(fù)雜的端到端軟件任務(wù),同時驗證自身的代碼。
全新的管理器視圖旨在同時控制多個智能體,使每個智能體都能更加自主地工作。

谷歌對這款開發(fā)工具的野心很大,他不僅支持Gemini系列模型,也允許使用GPT-OSS、Claude第三方模型。
Antigravity目前以公共預(yù)覽版的形式免費提供,并承諾為Gemini 3 Pro的使用提供“慷慨的速率限制”,一發(fā)布就吸引了大量開發(fā)者來“薅羊毛”。
目前Claude Code收入占Anthropic總營收約21%,OpenAI也在不斷圍繞Codex做文章。
AI編程工具,看來是下一個必爭之地了。
參考鏈接:
[1]https://blog.google/products/gemini/gemini-3/#learn-anything
— 完 —
量子位 QbitAI · 頭條號簽約
關(guān)注我們,第一時間獲知前沿科技動態(tài)
- 又一高管棄庫克而去!蘋果UI設(shè)計負(fù)責(zé)人轉(zhuǎn)投Meta2025-12-04
- 萬卡集群要上天?中國硬核企業(yè)打造太空超算!2025-11-29
- 學(xué)生3年投稿6次被拒,于是吳恩達(dá)親手搓了個評審Agent2025-11-25
- 波士頓動力前CTO加盟DeepMind,Gemini要做機器人界的安卓2025-11-25




