螞蟻數科聯合浙大實驗室,獲NeurIPS 2024大模型隱私挑戰賽賽道冠軍
保護大模型數據隱私安全
近日,第三十八屆神經信息處理系統年會(NeurIPS 2024)特設官方賽——大語言模型隱私挑戰賽(LLM-PC)落幕。螞蟻數科旗下摩斯聯合浙江大學計算機體系結構實驗室陳文智、魏成坤團隊共9人組成了“Morse & ARCLab”參賽隊伍,榮獲該賽事全部兩個賽道中攻擊賽道的冠軍和防御賽道的最佳實用防御獎。賽題聚焦大語言模型訓練數據的隱私安全,有助于推動整個領域向構建更加安全、可靠的AI系統目標前進,冠軍方案也代表著當前業界領先技術。

NeurIPS是機器學習領域三大頂級國際會議之一,也是中國計算機學會A類推薦會議。本次特設競賽于2024年7月底開始,由加州大學伯克利分校、德州大學奧斯汀分校、伊利諾伊大學厄巴納-香檳分校、新加坡國立大學、Center for AI Safety等高校與機構聯合命題組織,吸引來自數十個國家超30支隊伍參與角逐。

本次參賽者的任務是設計與實現創新解決方案,從下游模型中竊取訓練數據中的隱私或設計隱私保護的訓練方法。據悉,此次攻擊賽道中,螞蟻數科和浙大團隊方法在比賽提供的Llama3.1-8B模型上可以達到0.233的攻擊成功率;在防御賽道,其方案使主辦方提供的攻擊方法成功率相對降低30.6%,同時在MMLU和TruthfulQA等基準數據集上的結果也表明該方法對模型性能幾乎沒有損耗。

參賽隊伍隊長螞蟻數科摩斯算法專家劉文炎告訴記者:“在攻擊賽道中,我們通過查詢目標模型來構建提示語,促使其為每個掩蓋的個人可識別信息(PII)生成候選回應,并計算其損失值,再用自我提示候選提取和基于損失的貪心搜索,選擇損失值最低的候選作為最終輸出。這種基于分段與聚合的損失計算方法,以加速候選項的選擇過程。在防御賽道中,我們利用數據脫敏與合成技術,對包含PII的語料進行隨機替換,之后以自回歸的方式微調目標模型,可以擾亂大模型對PII信息的記憶,降低其輸出正確PII的可能,防止隱私數據泄漏。”
解決數據和模型的隱私安全問題,是大模型在產業界尤其是金融行業落地的重要課題。螞蟻數科摩斯結合比賽同款方案,研發了大模型隱私保護產品,該產品融合數據脫敏、拆分學習、模型混淆、差分隱私、TEE等多種技術路線,實現大模型應用中模型微調、推理全鏈路的數據和模型隱私保護。目前該方案應用于網商銀行農業助貸場景,利用摩斯的大模型隱私保護技術融合多方時空大數據,共建“密態時空大模型“,進行行內農戶貸款風險評估,進一步提升種植戶金融放寬效率和滿意度。
今年7月,螞蟻數科摩斯成為信通院首批通過大模型可信執行環境產品專項測試的廠商。螞蟻數科摩斯技術負責人殷山表示,“摩斯將在大模型隱私保護方向,持續進行技術投入和落地探索,推進大模型在產業界發展。”
*本文系量子位獲授權刊載,觀點僅為作者所有
- 九章云極獨攬量子位三項大獎:以“一度算力”重構AI基礎設施云格局2025-12-10
- 視頻理解霸榜!快手Keye-VL旗艦模型重磅開源,多模態視頻感知領頭羊2025-11-28
- 中國唯一!阿里千問斬獲全球AI頂會最佳論文2025-11-28
- 第19屆中國投資年會·有限合伙人峰會在滬成功舉辦2025-11-28



