FM Agent登頂OpenAI MLE-Bench，由百度智能云研發

一水 2025-10-24 17:25:38 來源：量子位

超越微軟R&D Agent和OpenAI展示的AIDE系統

近日，百度智能云研發的FM Agent登頂OpenAI機器學習工程權威基準MLE-Bench，拿下SOTA成績，超越微軟R&D Agent和OpenAI展示的AIDE系統。

據了解，MLE-Bench由OpenAI主導，是目前評估AI Agent“實戰”能力的核心榜單。該基準含金量極高，其測試集包含了75個真實的Kaggle競賽項目——這些項目均為往年全球頂尖數據科學家團隊參與解決的真實工程難題，測試AI在模型訓練、數據準備、實驗運行等機器學習工程中的能力。

公開信息顯示，百度FM Agent在“中等”和“高難度”任務上的表現顯著領先，顯示出強大的攻堅能力。同時，該Agent框架具備自主優化能力，通過構建具備自驅演化的智能系統，系統性分析問題、并自主優化解決方案。

近期百度在AI領域動作頻頻，最新開源的文心4.5衍生模型PaddleOCR-VL模型以0.9B參數量，在全球權威榜單OmniDocBench v1.0+v1.5雙榜奪得綜合性能第一、四項子任務全線SOTA成績。另據市場消息，百度年度最重要的科技大會“百度世界2025”已定檔11月13日。