低調(diào)霸榜全球最難SQL榜單超兩月,國(guó)產(chǎn)AI這次選擇高調(diào)開源!
敢“按效果付費(fèi)”的玩家
金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
不鳴則已,一鳴驚人。
沒想到一個(gè)低調(diào)霸榜了全球最權(quán)威SQL榜單超過(guò)兩個(gè)月的國(guó)產(chǎn)AI,這一次選擇了高調(diào)開源。

如此反差劇情的主角正是螞蟻數(shù)科,在第二屆CCF中國(guó)數(shù)據(jù)大會(huì)上,它正式宣布:
開源旗下數(shù)據(jù)智能體關(guān)鍵技術(shù)——Agentar-SQL系列。
此次開源不僅包含實(shí)時(shí)文本轉(zhuǎn)SQL(Text-to-SQL)框架的全套論文、代碼、模型和使用指南,后期還將陸續(xù)開源數(shù)據(jù)庫(kù)理解與挖掘、行業(yè)知識(shí)挖掘、實(shí)時(shí)多輪交互技術(shù)框架,覆蓋意圖理解、業(yè)務(wù)理解到數(shù)據(jù)理解的全鏈路數(shù)據(jù)能力。
如果你關(guān)注AI數(shù)據(jù)分析領(lǐng)域,大概率聽說(shuō)過(guò)BIRD-Bench。這是目前全球公認(rèn)最具權(quán)威性的NL2SQL評(píng)測(cè)基準(zhǔn)。
就在今年9月,螞蟻數(shù)科的Agentar-Scale-SQL在BIRD榜單上以執(zhí)行準(zhǔn)確率(81.67%)和執(zhí)行效率(77%),雙料第一的成績(jī)登頂一舉超越了谷歌、亞馬遜等國(guó)際科技巨頭。

自然語(yǔ)言轉(zhuǎn)SQL(NL2SQL)在實(shí)際落地中面臨四大嚴(yán)峻挑戰(zhàn):理解模糊多義的人類口語(yǔ)、注入龐大的行業(yè)專業(yè)知識(shí)、解析復(fù)雜的數(shù)據(jù)庫(kù)結(jié)構(gòu)與關(guān)聯(lián),以及生成準(zhǔn)確無(wú)誤的復(fù)雜SQL語(yǔ)句。這些挑戰(zhàn)意味著,簡(jiǎn)單的模型“套殼”遠(yuǎn)不足以滿足企業(yè)級(jí)應(yīng)用的可靠性與準(zhǔn)確性要求。
螞蟻數(shù)科的Agentar-SQL核心思想在于,不是追求單一“完美”的SQL生成,而是通過(guò)系統(tǒng)化工程方法,真正讓AI賦能生產(chǎn),讓數(shù)據(jù)結(jié)果懂需求、懂業(yè)務(wù)。在某頭部城商行試運(yùn)營(yíng)期間,螞蟻數(shù)科Agentar SQL多個(gè)工具的平均查詢準(zhǔn)確率超92%,較傳統(tǒng)查詢方案提升超3倍。
但這樣的成績(jī),還不足以形容螞蟻數(shù)科。
一直以來(lái),螞蟻數(shù)科的AI發(fā)展可謂非常“低調(diào)”。如果深挖今年的動(dòng)作會(huì)發(fā)現(xiàn),螞蟻數(shù)科的AI版圖已經(jīng)非常成熟與豐富,走出了一條中國(guó)AI“非常識(shí)”但又價(jià)值巨大的新路徑。
螞蟻數(shù)科CEO趙聞飆近日在生態(tài)伙伴大會(huì)上的一番話,道出了螞蟻數(shù)科AI布局上的真實(shí)“野心”:
AI的真正價(jià)值不僅在于技術(shù)的先進(jìn)性,更在于能否深入產(chǎn)業(yè)一線、解決實(shí)際問題。
△螞蟻數(shù)科CEO趙聞飆之所以會(huì)有這番言論,是因?yàn)檫@個(gè)AI誕生的地方,正是在金融行業(yè)這個(gè)最復(fù)雜、數(shù)據(jù)門檻最高的業(yè)務(wù)場(chǎng)景,它經(jīng)受住了比任何公開榜單都嚴(yán)酷的考驗(yàn)——
從登榜到開源,從金融到各行各業(yè),螞蟻數(shù)科正在用一套務(wù)實(shí)的方法論,回答產(chǎn)業(yè)AI如何真正用起來(lái)。
從一場(chǎng)非共識(shí)的死磕說(shuō)起
讓我們先把時(shí)間撥回到2024年初。
那是百模大戰(zhàn)打得最兇的時(shí)候,市面上的AI公司大多在做兩件事:要么在刷各種通用榜單,證明自己的模型智商有多高;要么在做Chatbot,試圖讓AI變得更像一個(gè)陪聊伙伴。
但螞蟻數(shù)科的CEO趙聞飆和他的團(tuán)隊(duì)的做法,卻顯得有些“格格不入”——
一頭扎數(shù)據(jù)門檻最高、合規(guī)要求最嚴(yán)的金融領(lǐng)域,這個(gè)被普遍認(rèn)為是AI落地的“深水區(qū)”。
這個(gè)戰(zhàn)略從表面上來(lái)看是一點(diǎn)也不性感的,它意味著團(tuán)隊(duì)必須要與“兩高一長(zhǎng)”相伴:高風(fēng)險(xiǎn)、高投入、長(zhǎng)回報(bào)周期。
因?yàn)檫@里沒有“差不多”,只有“百分百”。一個(gè)錯(cuò)誤的回答不僅僅是用戶體驗(yàn)下降這么簡(jiǎn)單,更可能意味著巨額資金的損失,甚至是監(jiān)管的紅牌罰下。
金融場(chǎng)景的極端復(fù)雜性,體現(xiàn)在三個(gè)維度:
- 數(shù)據(jù)高度敏感且孤島化:客戶資產(chǎn)、交易流水、風(fēng)控規(guī)則等關(guān)鍵數(shù)據(jù)分散在多個(gè)系統(tǒng),互不打通;
- 業(yè)務(wù)邏輯極其嚴(yán)謹(jǐn):如“重點(diǎn)客戶”不是模糊標(biāo)簽,而是“本季度活躍度大于80分”的明確定義;
- 合規(guī)要求近乎苛刻:所有AI推理必須可解釋、可審計(jì)、可回溯,不允許“黑箱決策”。
每一項(xiàng)對(duì)AI來(lái)說(shuō)都是老大難的問題。
換言之,一個(gè)AI若是能精準(zhǔn)地搞定最難領(lǐng)域的問題,那它再身處別的領(lǐng)域時(shí)就會(huì)變得從從容容游刃有余。
但螞蟻數(shù)科偏偏選擇了死磕,事實(shí)證明,這場(chǎng)豪賭,他們贏了。
因?yàn)樽钚碌某煽?jī)單顯示:螞蟻數(shù)科的服務(wù)已經(jīng)覆蓋了100%的國(guó)有股份制銀行,以及超過(guò)60%的地方性商業(yè)銀行。
可以說(shuō)中國(guó)金融體系的毛細(xì)血管里,已經(jīng)流淌著螞蟻數(shù)科的代碼。
不僅如此,他們還悄然躋身了IDC《中國(guó)智能體開發(fā)平臺(tái)2025年廠商評(píng)估》的領(lǐng)導(dǎo)者象限,意味著在市場(chǎng)份額和技術(shù)實(shí)力上,他們已經(jīng)站到了第一梯隊(duì)。
但光有戰(zhàn)略定力是不夠的,AI發(fā)展到現(xiàn)在的階段,更看重的好不好用。
在寧波銀行,雙方合作打造的智能化決策系統(tǒng),便徹底打破了傳統(tǒng)金融服務(wù)的知識(shí)孤島。
過(guò)去,客戶經(jīng)理面對(duì)一個(gè)復(fù)雜的投資咨詢,需要在多個(gè)系統(tǒng)間來(lái)回切換,答案常常是模糊的、滯后的。
新系統(tǒng)通過(guò)“規(guī)劃-檢索-推理”的智能機(jī)制,實(shí)現(xiàn)了從模糊匹配到精準(zhǔn)推理的跨越。復(fù)雜問題回答準(zhǔn)確率從68%躍升至91%,響應(yīng)速度進(jìn)入百毫秒級(jí)。
更關(guān)鍵的是,系統(tǒng)能清晰呈現(xiàn)推理過(guò)程與數(shù)據(jù)來(lái)源,在強(qiáng)監(jiān)管的金融場(chǎng)景中實(shí)現(xiàn)AI黑箱白化。
上海銀行推出的AI手機(jī)銀行,則是另一種維度的革新。
它以對(duì)話即服務(wù)為核心,用戶通過(guò)自然語(yǔ)言交互即可辦理轉(zhuǎn)賬、理財(cái)咨詢、養(yǎng)老金查詢等業(yè)務(wù)。這不再是簡(jiǎn)單的功能堆砌,而是體驗(yàn)的重構(gòu),從“人找服務(wù)”到“服務(wù)找人”。
配合千人千面的個(gè)性化推薦與適老化設(shè)計(jì),它已經(jīng)成為了行業(yè)數(shù)智化轉(zhuǎn)型的典型樣本。
已經(jīng)從金融級(jí)外溢到了產(chǎn)業(yè)級(jí)
金融領(lǐng)域的成功實(shí)踐,為螞蟻數(shù)科積累了可遷移的產(chǎn)業(yè)AI方法論,也推動(dòng)其能力向更多民生領(lǐng)域延伸。
在南京,螞蟻數(shù)科與南京公交聯(lián)合打造的公交智能體小藍(lán)鯨,便是這一能力外溢的典型案例。

它將金融領(lǐng)域驗(yàn)證過(guò)的“規(guī)劃-檢索-推理”邏輯,應(yīng)用到了城市交通的復(fù)雜系統(tǒng)中。
從分析客流到生成線路,再到輸出經(jīng)濟(jì)可行性報(bào)告,小藍(lán)鯨展現(xiàn)的是一種通用的、可遷移的產(chǎn)業(yè)AI能力。
210路公交車的開通,可謂是一下子把之前這片區(qū)域的公交線網(wǎng)空白給填上了,單日最高客流達(dá)2168人次,老年卡使用占比近50%。
不僅如此,類似210路這樣在AI建議下開通的公交,在南京已經(jīng)有30多個(gè),還新增了84個(gè)招呼站!

據(jù)悉,這是國(guó)內(nèi)首次將AI智能體技術(shù)深度應(yīng)用于公共交通調(diào)度系統(tǒng),根據(jù)站點(diǎn)、客流、線路等多維數(shù)據(jù)分析,實(shí)現(xiàn)從經(jīng)驗(yàn)決策到智能規(guī)劃的全面升級(jí)。
在能源領(lǐng)域,這種能力同樣鋒利。
螞蟻數(shù)科的 EnergyTS 能源電力時(shí)序大模型,能夠精準(zhǔn)預(yù)測(cè)發(fā)電量和市場(chǎng)供需變化。
在投前決策環(huán)節(jié),它能將原本需要2–3天的人工投資測(cè)算,縮短為十余分鐘,決策效率提升超60倍,已助力協(xié)鑫能科、霍普等企業(yè)實(shí)現(xiàn)數(shù)智化升級(jí)。
由此可見,從最難的場(chǎng)景切入,延伸到更廣的場(chǎng)景,用最硬的指標(biāo)說(shuō)話,這就是螞蟻數(shù)科在過(guò)去一年里上演的非共識(shí)劇本。
還敢按效果付費(fèi)
技術(shù)再牛,如果賣不出去,也是白搭。
在To B的軟件市場(chǎng),傳統(tǒng)的收費(fèi)模式無(wú)非兩種:要么按項(xiàng)目制收費(fèi),要么是按訂閱制收費(fèi)。
但這兩種模式都有痛點(diǎn):甲方覺得我花了錢,萬(wàn)一效果不好怎么辦?乙方覺得我投入了這么多人力,利潤(rùn)薄如刀片。
螞蟻數(shù)科在付費(fèi)模式上采取的做法也是一種非共識(shí)的打法——按效果付費(fèi)。
這種模式,極大地降低了中小機(jī)構(gòu)應(yīng)用AI的門檻和風(fēng)險(xiǎn)。客戶不再需要為不確定的技術(shù)前景買單,而是為確定的業(yè)務(wù)結(jié)果付費(fèi)。
這就倒逼了技術(shù)提供商必須真正深入業(yè)務(wù)一線,理解客戶的痛點(diǎn),將技術(shù)能力轉(zhuǎn)化為可量化的商業(yè)價(jià)值。這是一種對(duì)自身能力的極度自信,也是一種對(duì)產(chǎn)業(yè)伙伴的真誠(chéng)負(fù)責(zé)。
要規(guī)模化地實(shí)現(xiàn)這種模式,單打獨(dú)斗是行不通的,螞蟻數(shù)科深諳這一道理,因此,生態(tài)共榮,成為它必然選擇。
據(jù)了解,截至今年,螞蟻數(shù)科已與300家合作伙伴建立深度合作,共同服務(wù)超13000家終端客戶。
在這次的大會(huì)上,螞蟻數(shù)科正式升級(jí)了“星瀾計(jì)劃”,從技術(shù)賦能、運(yùn)營(yíng)支持、商機(jī)共享、資金扶持四個(gè)維度,全面提升伙伴能力,推動(dòng)整個(gè)生態(tài)的全域升級(jí)。

一位合作伙伴在現(xiàn)場(chǎng)分享,今年其30%的營(yíng)收來(lái)自與螞蟻數(shù)科的合作業(yè)務(wù)。這不僅僅是數(shù)字,更是市場(chǎng)對(duì)這套“技術(shù)+生態(tài)+商業(yè)化”組合拳的有力投票。伙伴們通過(guò)合作,沉淀出了一套AI賦能垂直場(chǎng)景的方法論,共同推動(dòng)產(chǎn)業(yè)AI的規(guī)模化落地。
這種生態(tài)的視野,甚至延伸到了全球。
螞蟻數(shù)科的技術(shù)方案,已服務(wù)南洋商業(yè)銀行、渣打銀行等超百家海外金融機(jī)構(gòu)。今年10月,其入選香港金融管理局生成式AI沙盒項(xiàng)目,為沙盒提供AI智能體服務(wù)與AI安全產(chǎn)品。
這標(biāo)志著源自中國(guó)嚴(yán)苛金融場(chǎng)景打磨出的AI方案,正獲得國(guó)際市場(chǎng)的認(rèn)可,展現(xiàn)出強(qiáng)大的全球競(jìng)爭(zhēng)力。
在通用AI的喧囂之后,產(chǎn)業(yè)AI的務(wù)實(shí)革命才剛剛開始;而這場(chǎng)革命的主角,必將是那些敢于用效果說(shuō)話的實(shí)干者。
— 完 —



