LLM能替代數(shù)據(jù)科學(xué)家了?DeepAnalyze幫你告別手動(dòng)分析數(shù)據(jù)
你是否還在為復(fù)雜的文件和海量數(shù)據(jù)而苦惱?
DeepAnalyze團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
你是否還在為復(fù)雜的文件和海量數(shù)據(jù)而苦惱?是否希望能夠自動(dòng)從數(shù)據(jù)中挖掘出真正有價(jià)值的信息?
最近,來(lái)自人大與清華的研究團(tuán)隊(duì)推出DeepAnalyze —— 你的專(zhuān)屬「數(shù)據(jù)科學(xué)家」。只需一個(gè)指令,它便能自動(dòng)化分析你的數(shù)據(jù)、自主完成各類(lèi)數(shù)據(jù)科學(xué)任務(wù):
- 數(shù)據(jù)任務(wù):支持自動(dòng)化數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)分析、數(shù)據(jù)建模、數(shù)據(jù)可視化、數(shù)據(jù)洞察
- 數(shù)據(jù)研究:可在非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行開(kāi)放式深度研究,生成研究報(bào)告

DeepAnalyze是首個(gè)面向數(shù)據(jù)科學(xué)的Agentic LLM,無(wú)需任何workflow,僅憑一個(gè)LLM即可像數(shù)據(jù)科學(xué)家一樣,自主完成多種復(fù)雜的數(shù)據(jù)任務(wù)。
DeepAnalyze的論文、代碼、模型、數(shù)據(jù)均已開(kāi)源,收獲1.1K+GitHub星標(biāo),歡迎大家體驗(yàn)!
DeepAnalyze —— 你的專(zhuān)屬「數(shù)據(jù)科學(xué)家」
DeepAnalyze在環(huán)境中自主編排和優(yōu)化各種操作,完成復(fù)雜的數(shù)據(jù)科學(xué)任務(wù)。
DeepAnalyze在真實(shí)環(huán)境中學(xué)習(xí)復(fù)雜任務(wù)
數(shù)據(jù)無(wú)處不在,而數(shù)據(jù)科學(xué)一直被視為人類(lèi)智能的重要體現(xiàn)。從Kaggle比賽到日常的數(shù)據(jù)分析實(shí)踐,大量評(píng)測(cè)都在考察數(shù)據(jù)科學(xué)家在數(shù)據(jù)準(zhǔn)備、分析、建模、可視化與洞察等方面的綜合能力。
當(dāng)前的數(shù)據(jù)智能體(Data Agent)通常依賴(lài)人工設(shè)計(jì)的workflow,來(lái)驅(qū)動(dòng)大模型完成特定的數(shù)據(jù)分析與可視化任務(wù)。雖然在各類(lèi)單點(diǎn)任務(wù)上已取得了令人矚目的成果,但由于LLM的自主性仍然有限,它們距離理想的“全能自主數(shù)據(jù)科學(xué)家”依然存在明顯差距。
隨著大型語(yǔ)言模型智能水平的不斷提升,一個(gè)關(guān)鍵問(wèn)題也愈發(fā)突出:如何讓LLM真正具備自主完成復(fù)雜數(shù)據(jù)科學(xué)任務(wù)的能力?

DeepAnalyze通過(guò)在真實(shí)環(huán)境中訓(xùn)練,學(xué)會(huì)自主編排、自適應(yīng)優(yōu)化操作,最終完成復(fù)雜的數(shù)據(jù)科學(xué)任務(wù)。為實(shí)現(xiàn)此,DeepAnalyze提出課程學(xué)習(xí)式Agentic訓(xùn)練范式(Curriculum-based Agentic Training ofDeepAnalyze)和面向數(shù)據(jù)的軌跡合成框架(Data-grounded Trajectory Synthesis)。
課程學(xué)習(xí)式Agentic訓(xùn)練
數(shù)據(jù)科學(xué)任務(wù)本身具有高度復(fù)雜性,這讓基礎(chǔ)LLM在早期訓(xùn)練階段往往難以順利完成任務(wù)。任務(wù)復(fù)雜性導(dǎo)致模型幾乎得不到正向獎(jiǎng)勵(lì)信號(hào)(即“獎(jiǎng)勵(lì)稀疏”問(wèn)題),強(qiáng)化學(xué)習(xí)過(guò)程容易停滯,甚至出現(xiàn)訓(xùn)練崩潰的情況。
為了解決這一難題,DeepAnalyze提出了「課程學(xué)習(xí)式 Agentic 訓(xùn)練」。其模擬人類(lèi)數(shù)據(jù)科學(xué)家的學(xué)習(xí)路徑,讓LLM在真實(shí)環(huán)境中從簡(jiǎn)單到復(fù)雜、從單一任務(wù)到綜合任務(wù)逐步進(jìn)階。通過(guò)這種漸進(jìn)式訓(xùn)練,模型的能力得以穩(wěn)步提升,避免在復(fù)雜任務(wù)中因?yàn)椤蔼?jiǎng)勵(lì)信號(hào)為零”而導(dǎo)致學(xué)習(xí)失敗。
訓(xùn)練過(guò)程包括兩大階段:
- 單能力微調(diào):
訓(xùn)練LLM在代碼生成、結(jié)構(gòu)化數(shù)據(jù)理解、邏輯推理等方面的基礎(chǔ)能力; - 多能力Agentic訓(xùn)練:
在真實(shí)任務(wù)環(huán)境中,讓LLM學(xué)會(huì)運(yùn)用多種能力,像數(shù)據(jù)科學(xué)家一樣自主完成復(fù)雜任務(wù)。
面向數(shù)據(jù)的軌跡合成
在數(shù)據(jù)科學(xué)領(lǐng)域,缺乏完整的長(zhǎng)鏈問(wèn)題求解軌跡,這讓LLM在探索解題空間時(shí)缺乏有效指導(dǎo),只能進(jìn)行低效、盲目的“試錯(cuò)式”探索,難以獲得有意義的中間監(jiān)督信號(hào)。
為了解決這一難題,DeepAnalyze提出了「面向數(shù)據(jù)的軌跡合成」方法。其能夠自動(dòng)合成50萬(wàn)條數(shù)據(jù)科學(xué)推理與環(huán)境交互數(shù)據(jù),為大模型在龐大的搜索空間中提供正確路徑的示范和引導(dǎo)。
數(shù)據(jù)合成包含兩個(gè)關(guān)鍵部分:
- 推理軌跡合成:
基于現(xiàn)有的 TableQA、結(jié)構(gòu)化知識(shí)理解、數(shù)據(jù)科學(xué)代碼生成任務(wù),構(gòu)建帶有完整推理路徑的訓(xùn)練數(shù)據(jù); - 交互軌跡合成:
構(gòu)建多智能體系統(tǒng),從結(jié)構(gòu)化數(shù)據(jù)源(如Spider和BIRD)中自動(dòng)合成數(shù)據(jù)科學(xué)交互軌跡,提供和真實(shí)環(huán)境的交互軌跡。
DeepAnalyze支持面向數(shù)據(jù)的深度研究
DeepAnalyze支持面向數(shù)據(jù)的深度研究,能夠自動(dòng)生成具備分析師水準(zhǔn)的研究報(bào)告。
在數(shù)據(jù)研究報(bào)告生成任務(wù)中,無(wú)論是內(nèi)容深度還是報(bào)告結(jié)構(gòu),DeepAnalyze的表現(xiàn)都顯著優(yōu)于現(xiàn)有的閉源LLM。

分析報(bào)告:

作者介紹

張紹磊,中國(guó)人民大學(xué)信息學(xué)院助理教授,位于中國(guó)人民大學(xué)講席教授范舉教授團(tuán)隊(duì)。
他博士畢業(yè)于中國(guó)科學(xué)院計(jì)算技術(shù)研究所,導(dǎo)師為馮洋研究員。他的研究方向涵蓋大語(yǔ)言模型、多模態(tài)大模型、AI for Data Science。
相關(guān)研究成果在NeurIPS、ACL、ICLR等國(guó)際人工智能與自然語(yǔ)言處理會(huì)議發(fā)表論文30余篇,開(kāi)源的多語(yǔ)言大模型、多模態(tài)大模型、數(shù)據(jù)科學(xué)大模型在GitHub社區(qū)累計(jì)獲得5000+星標(biāo)。
他長(zhǎng)期擔(dān)任CCF-A類(lèi)國(guó)際會(huì)議ACL ARR的領(lǐng)域主席和責(zé)任編輯。個(gè)人主頁(yè):zhangshaolei1998@github.io。

范舉,中國(guó)人民大學(xué)教授、博士生導(dǎo)師,國(guó)家級(jí)青年人才,中國(guó)計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫(kù)專(zhuān)委會(huì)、大數(shù)據(jù)專(zhuān)委會(huì)執(zhí)行委員。
研究方向包括:數(shù)據(jù)治理技術(shù)與系統(tǒng)、智能數(shù)據(jù)庫(kù)系統(tǒng)等。
相關(guān)研究成果在計(jì)算機(jī)領(lǐng)域國(guó)際頂級(jí)期刊/會(huì)議發(fā)表論文60余篇。作為負(fù)責(zé)人先后主持國(guó)家自然科學(xué)基金優(yōu)秀青年基金項(xiàng)目、重點(diǎn)項(xiàng)目、面上項(xiàng)目,以及多項(xiàng)產(chǎn)學(xué)研合作項(xiàng)目。
先后獲得ICDE 2025 Best Paper Runner-Up、ACM SIGMOD Research Highlight Award、ACM China Rising Award、寶鋼優(yōu)秀教師等獎(jiǎng)勵(lì)。
團(tuán)隊(duì)介紹:
RUC-DataLab是中國(guó)人民大學(xué)信息學(xué)院、數(shù)據(jù)工程與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室設(shè)立的科研團(tuán)隊(duì),負(fù)責(zé)人是范舉教授,團(tuán)隊(duì)專(zhuān)注于數(shù)據(jù)系統(tǒng)+人工智能 (Data+AI)交叉領(lǐng)域,致力于將數(shù)據(jù)技術(shù)與人工智能技術(shù)深度融合,從而打造更加智能、高效的新型數(shù)據(jù)系統(tǒng)。
實(shí)驗(yàn)室的研究方向包括:(1)數(shù)據(jù)庫(kù)系統(tǒng)智能化(AI4DB):利用人工智能技術(shù)提升數(shù)據(jù)庫(kù)系統(tǒng)的查詢(xún)性能、自治能力等;(2)數(shù)據(jù)庫(kù)技術(shù)賦能AI系統(tǒng)(DB4AI):利用數(shù)據(jù)管理技術(shù)支撐大模型訓(xùn)練的高效處理、大模型推理的低延遲、高吞吐優(yōu)化;(3)數(shù)智融合的新型數(shù)據(jù)科學(xué)系統(tǒng)(AI4DS):利用推理大模型、多模態(tài)語(yǔ)義理解與智能體等技術(shù),提升數(shù)據(jù)科學(xué)系統(tǒng)的智能化水平與執(zhí)行性能,有效釋放數(shù)據(jù)價(jià)值。
論文:https://arxiv.org/pdf/2510.16872
代碼:https://github.com/ruc-datalab/DeepAnalyze
模型:https://huggingface.co/RUC-DataLab/DeepAnalyze-8B
數(shù)據(jù):https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K
更多示例:https://ruc-deepanalyze.github.io/




