DeepSeek加持,北大通院幾何模型達IMO金牌水平!32個CPU核心和1塊4090就能實現滿血解題
DeepSeek-Coder在列作為神經網絡基礎
西風 發自 凹非寺
量子位 | 公眾號 QbitAI
國產AI幾何模型性能達IMO金牌水平,打平谷歌DeepMind最新AlphaGeometry系列——
TongGeometry,使用的策略網絡和價值網絡還來自微調版本的DeepSeek-Coder。
它能解決IMO-AG-30題中的所有30題,在IMO-AG-50上也能解決42題,而人類金牌選手平均水平分別為:25.9、40.9。
例如,下面是TongGeometry提出的一道IMO2024幾何題的解法,與標準答案完全一致:

TongGeometry不僅能解題還會出題,所出的題目甚至獲得了權威數學競賽認可。
就在去年全國高中數學聯賽預賽北京地區的考試中,就有TongGeometry出的幾何題;由美國IMO競賽教練組組織的一項美國民間數學競賽USEMO,也收錄了TongGeometry出的兩道幾何題在他們的競賽短表中。

TongGeometry由北京通用人工智能研究院打造,下文是更多細節。

DeepSeek加持神經網絡基礎
IMO是面向全球200多個國家,最頂尖高中生,所舉辦的最有影響力的數學競賽。這項競賽要求參賽選手對代數、數論、幾何、組合四項類型的問題有深刻的理解。其中,幾何學問題,又常常因為其優美的圖形性質,受到眾多參賽選手和數學愛好者們的熱議。
△Thébault定理,2003年前曾一度被西方認為是最難證明的幾何定理之一業界通常認為,能夠代表國家參加該項賽事并獲得金牌,是個人在數學研究歷程上的莫大榮譽。菲爾茲獎得主陶哲軒(Terence Tao)教授,就曾經是該項賽事最年輕的金牌得主。
△陶哲軒教授參加IMO比賽歷史記錄對比賽而言,幾何題的難點就在于如何恰到好處地添加輔助線,使得原先難以推理出來的結論,能夠借助輔助的點、線、圓來得到。構建這些推理的橋梁,是解決這類問題的關鍵。
通常,非常困難的問題需要添加數條輔助線才能完成定理的證明。
谷歌DeepMind AlphaGeometry最早提出了使用結合語言模型和邏輯引擎解決此類問題的方案。
在他們的方案中,語言模型負責提出可能的輔助線,推理引擎則負責檢查添加輔助線后所能產生的結論是否是我們正在尋找的。如果所需要證明的定理仍然不在其中,系統則需要繼續搜索可能的輔助線構造方案。
在最新的工作中,AlphaGeometry宣稱其工作超越了奧林匹克競賽金牌獲得者的平均水平,能夠解決IMO-AG-30數據集上的所有30題,并能解決IMO-AG-50上的42題。
而人類金牌選手的平均水平分別是,25.9和40.9。
△AlphaGeometry系列工作在數據集上的表現在AlphaGeometry最新工作公布后,北京通用人工智能研究院的TongGeometry工作也浮出水面。
相比較AlphaGeometry1/2,TongGeometry有如下改進:
- 摒棄算數推理(AR),僅僅使用歸納數據庫方法(DD)
- 嚴格構造對稱圖形,確保幾何圖形上的優美性
- 使用馬爾可夫鏈構造樹形狀搜索結構,并使用人類數據啟發數據生成樹的搜索方向
- 利用策略網絡(Policy)和價值網絡(Value)聯合Beam Search進行解題
純粹的歸納數據庫方法
相比較AlphaGeometry,TongGeometry摒棄了DD+AR的方法,轉而只使用DD。
據悉,AR方法由于計算慢,效率低,在實際測試中的嚴重影響性能。TongGeometry使用的DD方法,包含類似AlphaGeometry使用的10個核心謂詞:共線(equine),共圓(eqcircle),等長(cong),中點(midp),平行(para),垂直(perp),等角(eqangle),等比(eqratio),相似(simtri),全等(contri)。
這套謂詞表示邏輯,能夠覆蓋IMO 2000-2024年的所有幾何題目中的86.8%。
△歸納數據庫方法構造對稱圖形,確保幾何圖形保持美觀
相比于AlphaGeometry僅僅使用隨機化的構造方案,TongGeometry在設計問題搜索時就優先考慮對稱圖形。這種方法來自開源項目GeoGen。在正式比賽中,多見大量對稱圖形。
因此,使用對稱方法生成數據,能夠在有限數據的情況下,盡可能確保數據符合問題的分布。
△TongGeometry生成的對稱圖形使用人類數據啟發搜索方向
除了在問題構造的時候優先考慮對稱結構,TongGeometry在問題生成的時候還將使用人類數據中獲得的分布,指導數據生成方向。
TongGeometry從往屆IMO,CMO,以及各大比賽中總共收集196題,并使用這個小數據集構造數據。從結果看,這一方法能夠產生大量難度上數倍于現有IMO題目的構型。
△使用人類數據進行啟發,TongGeometry生成的數據難度可數倍于IMO現有題目難度利用策略網絡和價值網絡聯合搜索
TongGeometry在解題過程中,使用了類似Reinforcement Learning的Policy和Value兩個網絡。
Policy網絡用于提出可能的解題搜索方向。而Value網絡用于從Policy網絡提出的所有可能搜索方向中,篩選出最有用的幾種方向。
結合Beam Search和后端的邏輯推理引擎,TongGeometry的解題策略能夠形成一個閉環。
△策略網絡和價值網絡聯合搜索解題此外,TongGeometry使用的策略網絡和價值網絡都來自微調版本的DeepSeek-Coder。可以說,DeepSeek也在默默地助力TongGeometry的發展。
△DeepSeek-Coder在列,作為TongGeometry的神經網絡基礎在性能測試上,TongGeometry技術報告顯示,TongGeometry能夠解決IMO-AG-30題中的所有30題。
根據北京通用人工智能研究院的最新介紹,在IMO-AG-50上,TongGeometry也能解決42題。注意到TongGeometry的技術報告公布于2024年12月份,誰才是第一個超過人類金牌選手平均水平的幾何解題工具,還尚值得商榷。
△TongGeometry在2024年12月公布的技術報告中的性能指標解題/出題樣樣精通
TongGeometry除了是一個解題達人,還是一個出題教練。TongGeometry的訓練數據包含許多很有價值的幾何關系發現,其中不乏大量具有鏡像對稱和旋轉對稱的美麗構型。
根據報告,這些題目的難度可能數倍于現有的IMO競賽題目。
此外,TongGeometry所出的題目還獲得了數學競賽的認可。在2024年全國高中數學聯賽預賽北京地區的考試中,TongGeometry所出的幾何題就正式亮相。
△TongGeometry在全國高中數學聯賽北京卷和美國奧林匹克競賽中的供題去年北京地區的考生,可能神不知鬼不覺地已經經歷了一次來自AI的測試。另外,由美國IMO競賽教練組組織的一項美國民間數學競賽USEMO,也收錄了2題幾何題在他們的競賽短表中(shortlist)。
△北京卷賽題幾何部分記錄高效推理,性能提升18倍
相比AlphaGeometry需要246個CPU核心和4塊英偉達V100的高性能計算集群才能在90分鐘解決一題相比,TongGeometry只需要32個CPU核心和1塊4090就能實現滿血解題。
在這一配置下,TongGeometry最多用時僅僅需要38分鐘。
△AlphaGeometry將解體時間控制在90分鐘需要使用246核心CPU和4塊英偉達V100的高性能計算集群相比AlphaGeometry使用246*90核心分鐘相比,TongGeometry僅僅需要32*38核心分鐘,性能提升18倍有余。在這個配置要求下,你的黑神話主機,都能用來學習幾何了。
△TongGeometry僅僅使用32個CPU核心和1塊4090就能將解題時間控制在38分鐘內論文鏈接:https://arxiv.org/pdf/2412.10673
- 商湯分拆了一家AI醫療公司,半年融資10億,劍指“醫療世界模型”2025-12-02
- “豆包手機”在二手市場價格都翻倍了……2025-12-05
- OpenAI首席研究員Mark Chen長訪談:小扎親手端湯來公司挖人,氣得我們端著湯去了Meta2025-12-03
- 讓大模型學會“高維找茬”,中國聯通新研究解決長文本圖像檢索痛點|AAAI 2026 Oral2025-12-01




