LLM能替代數(shù)據(jù)科學(xué)家了？DeepAnalyze幫你告別手動(dòng)分析數(shù)據(jù)

夢(mèng)晨 2025-11-01 12:27:15 來(lái)源：量子位

你是否還在為復(fù)雜的文件和海量數(shù)據(jù)而苦惱?

DeepAnalyze團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

你是否還在為復(fù)雜的文件和海量數(shù)據(jù)而苦惱？是否希望能夠自動(dòng)從數(shù)據(jù)中挖掘出真正有價(jià)值的信息？

最近，來(lái)自人大與清華的研究團(tuán)隊(duì)推出DeepAnalyze —— 你的專(zhuān)屬「數(shù)據(jù)科學(xué)家」。只需一個(gè)指令，它便能自動(dòng)化分析你的數(shù)據(jù)、自主完成各類(lèi)數(shù)據(jù)科學(xué)任務(wù)：

數(shù)據(jù)任務(wù)：支持自動(dòng)化數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)分析、數(shù)據(jù)建模、數(shù)據(jù)可視化、數(shù)據(jù)洞察
數(shù)據(jù)研究：可在非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行開(kāi)放式深度研究，生成研究報(bào)告

DeepAnalyze是首個(gè)面向數(shù)據(jù)科學(xué)的Agentic LLM，無(wú)需任何workflow，僅憑一個(gè)LLM即可像數(shù)據(jù)科學(xué)家一樣，自主完成多種復(fù)雜的數(shù)據(jù)任務(wù)。

DeepAnalyze的論文、代碼、模型、數(shù)據(jù)均已開(kāi)源，收獲1.1K+GitHub星標(biāo)，歡迎大家體驗(yàn)！

DeepAnalyze —— 你的專(zhuān)屬「數(shù)據(jù)科學(xué)家」

DeepAnalyze在環(huán)境中自主編排和優(yōu)化各種操作，完成復(fù)雜的數(shù)據(jù)科學(xué)任務(wù)。

DeepAnalyze在真實(shí)環(huán)境中學(xué)習(xí)復(fù)雜任務(wù)

數(shù)據(jù)無(wú)處不在，而數(shù)據(jù)科學(xué)一直被視為人類(lèi)智能的重要體現(xiàn)。從Kaggle比賽到日常的數(shù)據(jù)分析實(shí)踐，大量評(píng)測(cè)都在考察數(shù)據(jù)科學(xué)家在數(shù)據(jù)準(zhǔn)備、分析、建模、可視化與洞察等方面的綜合能力。

當(dāng)前的數(shù)據(jù)智能體（Data Agent）通常依賴(lài)人工設(shè)計(jì)的workflow，來(lái)驅(qū)動(dòng)大模型完成特定的數(shù)據(jù)分析與可視化任務(wù)。雖然在各類(lèi)單點(diǎn)任務(wù)上已取得了令人矚目的成果，但由于LLM的自主性仍然有限，它們距離理想的“全能自主數(shù)據(jù)科學(xué)家”依然存在明顯差距。

隨著大型語(yǔ)言模型智能水平的不斷提升，一個(gè)關(guān)鍵問(wèn)題也愈發(fā)突出：如何讓LLM真正具備自主完成復(fù)雜數(shù)據(jù)科學(xué)任務(wù)的能力？

DeepAnalyze通過(guò)在真實(shí)環(huán)境中訓(xùn)練，學(xué)會(huì)自主編排、自適應(yīng)優(yōu)化操作，最終完成復(fù)雜的數(shù)據(jù)科學(xué)任務(wù)。為實(shí)現(xiàn)此，DeepAnalyze提出課程學(xué)習(xí)式Agentic訓(xùn)練范式（Curriculum-based Agentic Training ofDeepAnalyze）和面向數(shù)據(jù)的軌跡合成框架（Data-grounded Trajectory Synthesis）。

課程學(xué)習(xí)式Agentic訓(xùn)練

數(shù)據(jù)科學(xué)任務(wù)本身具有高度復(fù)雜性，這讓基礎(chǔ)LLM在早期訓(xùn)練階段往往難以順利完成任務(wù)。任務(wù)復(fù)雜性導(dǎo)致模型幾乎得不到正向獎(jiǎng)勵(lì)信號(hào)（即“獎(jiǎng)勵(lì)稀疏”問(wèn)題），強(qiáng)化學(xué)習(xí)過(guò)程容易停滯，甚至出現(xiàn)訓(xùn)練崩潰的情況。

為了解決這一難題，DeepAnalyze提出了「課程學(xué)習(xí)式 Agentic 訓(xùn)練」。其模擬人類(lèi)數(shù)據(jù)科學(xué)家的學(xué)習(xí)路徑，讓LLM在真實(shí)環(huán)境中從簡(jiǎn)單到復(fù)雜、從單一任務(wù)到綜合任務(wù)逐步進(jìn)階。通過(guò)這種漸進(jìn)式訓(xùn)練，模型的能力得以穩(wěn)步提升，避免在復(fù)雜任務(wù)中因?yàn)椤蔼?jiǎng)勵(lì)信號(hào)為零”而導(dǎo)致學(xué)習(xí)失敗。

訓(xùn)練過(guò)程包括兩大階段：

單能力微調(diào)：

訓(xùn)練LLM在代碼生成、結(jié)構(gòu)化數(shù)據(jù)理解、邏輯推理等方面的基礎(chǔ)能力；
多能力Agentic訓(xùn)練：

在真實(shí)任務(wù)環(huán)境中，讓LLM學(xué)會(huì)運(yùn)用多種能力，像數(shù)據(jù)科學(xué)家一樣自主完成復(fù)雜任務(wù)。

面向數(shù)據(jù)的軌跡合成

在數(shù)據(jù)科學(xué)領(lǐng)域，缺乏完整的長(zhǎng)鏈問(wèn)題求解軌跡，這讓LLM在探索解題空間時(shí)缺乏有效指導(dǎo)，只能進(jìn)行低效、盲目的“試錯(cuò)式”探索，難以獲得有意義的中間監(jiān)督信號(hào)。

為了解決這一難題，DeepAnalyze提出了「面向數(shù)據(jù)的軌跡合成」方法。其能夠自動(dòng)合成50萬(wàn)條數(shù)據(jù)科學(xué)推理與環(huán)境交互數(shù)據(jù)，為大模型在龐大的搜索空間中提供正確路徑的示范和引導(dǎo)。

數(shù)據(jù)合成包含兩個(gè)關(guān)鍵部分：

推理軌跡合成：

基于現(xiàn)有的 TableQA、結(jié)構(gòu)化知識(shí)理解、數(shù)據(jù)科學(xué)代碼生成任務(wù)，構(gòu)建帶有完整推理路徑的訓(xùn)練數(shù)據(jù)；
交互軌跡合成：

構(gòu)建多智能體系統(tǒng)，從結(jié)構(gòu)化數(shù)據(jù)源（如Spider和BIRD）中自動(dòng)合成數(shù)據(jù)科學(xué)交互軌跡，提供和真實(shí)環(huán)境的交互軌跡。

DeepAnalyze支持面向數(shù)據(jù)的深度研究

DeepAnalyze支持面向數(shù)據(jù)的深度研究，能夠自動(dòng)生成具備分析師水準(zhǔn)的研究報(bào)告。
在數(shù)據(jù)研究報(bào)告生成任務(wù)中，無(wú)論是內(nèi)容深度還是報(bào)告結(jié)構(gòu)，DeepAnalyze的表現(xiàn)都顯著優(yōu)于現(xiàn)有的閉源LLM。

分析報(bào)告：

作者介紹

張紹磊，中國(guó)人民大學(xué)信息學(xué)院助理教授，位于中國(guó)人民大學(xué)講席教授范舉教授團(tuán)隊(duì)。

他博士畢業(yè)于中國(guó)科學(xué)院計(jì)算技術(shù)研究所，導(dǎo)師為馮洋研究員。他的研究方向涵蓋大語(yǔ)言模型、多模態(tài)大模型、AI for Data Science。

相關(guān)研究成果在NeurIPS、ACL、ICLR等國(guó)際人工智能與自然語(yǔ)言處理會(huì)議發(fā)表論文30余篇，開(kāi)源的多語(yǔ)言大模型、多模態(tài)大模型、數(shù)據(jù)科學(xué)大模型在GitHub社區(qū)累計(jì)獲得5000+星標(biāo)。

他長(zhǎng)期擔(dān)任CCF-A類(lèi)國(guó)際會(huì)議ACL ARR的領(lǐng)域主席和責(zé)任編輯。個(gè)人主頁(yè)：zhangshaolei1998@github.io。

范舉，中國(guó)人民大學(xué)教授、博士生導(dǎo)師，國(guó)家級(jí)青年人才，中國(guó)計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫(kù)專(zhuān)委會(huì)、大數(shù)據(jù)專(zhuān)委會(huì)執(zhí)行委員。

研究方向包括：數(shù)據(jù)治理技術(shù)與系統(tǒng)、智能數(shù)據(jù)庫(kù)系統(tǒng)等。

相關(guān)研究成果在計(jì)算機(jī)領(lǐng)域國(guó)際頂級(jí)期刊/會(huì)議發(fā)表論文60余篇。作為負(fù)責(zé)人先后主持國(guó)家自然科學(xué)基金優(yōu)秀青年基金項(xiàng)目、重點(diǎn)項(xiàng)目、面上項(xiàng)目，以及多項(xiàng)產(chǎn)學(xué)研合作項(xiàng)目。

先后獲得ICDE 2025 Best Paper Runner-Up、ACM SIGMOD Research Highlight Award、ACM China Rising Award、寶鋼優(yōu)秀教師等獎(jiǎng)勵(lì)。

團(tuán)隊(duì)介紹：

RUC-DataLab是中國(guó)人民大學(xué)信息學(xué)院、數(shù)據(jù)工程與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室設(shè)立的科研團(tuán)隊(duì)，負(fù)責(zé)人是范舉教授，團(tuán)隊(duì)專(zhuān)注于數(shù)據(jù)系統(tǒng)+人工智能（Data+AI）交叉領(lǐng)域，致力于將數(shù)據(jù)技術(shù)與人工智能技術(shù)深度融合，從而打造更加智能、高效的新型數(shù)據(jù)系統(tǒng)。

實(shí)驗(yàn)室的研究方向包括：（1）數(shù)據(jù)庫(kù)系統(tǒng)智能化（AI4DB）：利用人工智能技術(shù)提升數(shù)據(jù)庫(kù)系統(tǒng)的查詢(xún)性能、自治能力等；（2）數(shù)據(jù)庫(kù)技術(shù)賦能AI系統(tǒng)（DB4AI）：利用數(shù)據(jù)管理技術(shù)支撐大模型訓(xùn)練的高效處理、大模型推理的低延遲、高吞吐優(yōu)化；（3）數(shù)智融合的新型數(shù)據(jù)科學(xué)系統(tǒng)（AI4DS）：利用推理大模型、多模態(tài)語(yǔ)義理解與智能體等技術(shù)，提升數(shù)據(jù)科學(xué)系統(tǒng)的智能化水平與執(zhí)行性能，有效釋放數(shù)據(jù)價(jià)值。

論文：https://arxiv.org/pdf/2510.16872
代碼：https://github.com/ruc-datalab/DeepAnalyze
模型：https://huggingface.co/RUC-DataLab/DeepAnalyze-8B
數(shù)據(jù)：https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K
更多示例：https://ruc-deepanalyze.github.io/

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

數(shù)據(jù)分析

夢(mèng)晨

LLM能替代數(shù)據(jù)科學(xué)家了？DeepAnalyze幫你告別手動(dòng)分析數(shù)據(jù)

DeepAnalyze團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

DeepAnalyze —— 你的專(zhuān)屬「數(shù)據(jù)科學(xué)家」

DeepAnalyze支持面向數(shù)據(jù)的深度研究

作者介紹

團(tuán)隊(duì)介紹：

相關(guān)閱讀

在AIGC時(shí)代，數(shù)據(jù)價(jià)值將如何釋放？｜量子位·視點(diǎn) x 北極九章

龍媽非主角？AI告訴你下一個(gè)誰(shuí)便當(dāng)：機(jī)器學(xué)習(xí)解讀《冰與火之歌》

1行代碼實(shí)現(xiàn)Python數(shù)據(jù)分析：圖表美觀清晰，自帶對(duì)比功能丨開(kāi)源

0代碼就能做Python數(shù)據(jù)分析，這個(gè)Jupyter插件，用起來(lái)就像Excel一樣簡(jiǎn)單

北極九章CEO劉沂鑫：從自然語(yǔ)言一步直達(dá)數(shù)據(jù)洞察——數(shù)據(jù)驅(qū)動(dòng)增長(zhǎng)的新范式｜量子位·視點(diǎn)分享回顧

數(shù)勢(shì)科技譚李：企業(yè)級(jí)AI應(yīng)用不止ChatBI，拿到數(shù)據(jù)不等于拿到洞見(jiàn) | 中國(guó)AIGC產(chǎn)業(yè)峰會(huì)

熱門(mén)文章

DeepSeek-V3.2系列開(kāi)源，性能直接對(duì)標(biāo)Gemini-3.0-Pro

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開(kāi)創(chuàng) 語(yǔ)音交互新范式

商湯分拆了一家AI醫(yī)療公司，半年融資10億，劍指“醫(yī)療世界模型”

前端沒(méi)死，AI APP正在返祖

寧德時(shí)代給9萬(wàn)+基層員工漲了薪！每月150元

LLM能替代數(shù)據(jù)科學(xué)家了？DeepAnalyze幫你告別手動(dòng)分析數(shù)據(jù)

DeepAnalyze團(tuán)隊(duì) 投稿 量子位 | 公眾號(hào) QbitAI

DeepAnalyze —— 你的專(zhuān)屬「數(shù)據(jù)科學(xué)家」

DeepAnalyze支持面向數(shù)據(jù)的深度研究

作者介紹

團(tuán)隊(duì)介紹：

相關(guān)閱讀

在AIGC時(shí)代，數(shù)據(jù)價(jià)值將如何釋放？｜量子位·視點(diǎn) x 北極九章

龍媽非主角？AI告訴你下一個(gè)誰(shuí)便當(dāng)：機(jī)器學(xué)習(xí)解讀《冰與火之歌》

1行代碼實(shí)現(xiàn)Python數(shù)據(jù)分析：圖表美觀清晰，自帶對(duì)比功能丨開(kāi)源

0代碼就能做Python數(shù)據(jù)分析，這個(gè)Jupyter插件，用起來(lái)就像Excel一樣簡(jiǎn)單

北極九章CEO劉沂鑫：從自然語(yǔ)言一步直達(dá)數(shù)據(jù)洞察——數(shù)據(jù)驅(qū)動(dòng)增長(zhǎng)的新范式｜量子位·視點(diǎn)分享回顧

數(shù)勢(shì)科技譚李：企業(yè)級(jí)AI應(yīng)用不止ChatBI，拿到數(shù)據(jù)不等于拿到洞見(jiàn) | 中國(guó)AIGC產(chǎn)業(yè)峰會(huì)

熱門(mén)文章

DeepSeek-V3.2系列開(kāi)源，性能直接對(duì)標(biāo)Gemini-3.0-Pro

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開(kāi)創(chuàng) 語(yǔ)音交互新范式

商湯分拆了一家AI醫(yī)療公司，半年融資10億，劍指“醫(yī)療世界模型”

前端沒(méi)死，AI APP正在返祖

寧德時(shí)代給9萬(wàn)+基層員工漲了薪！每月150元

DeepAnalyze團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI