OpenAI新研究：o1增加推理時(shí)間就能防攻擊，網(wǎng)友：DeepSeek也受益

夢晨 2025-01-23 15:02:22 來源：量子位

無需對抗性訓(xùn)練

夢晨發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

OpenAI的新Scaling Law，含金量又提高了。

像o1這樣的推理模型，隨著思考時(shí)間的延長，面對對抗性攻擊會(huì)變得更加穩(wěn)健。

隨著大語言模型被越來越多地賦予Agent能力，執(zhí)行現(xiàn)實(shí)世界的任務(wù)，模型被對抗攻擊的風(fēng)險(xiǎn)也與日俱增。

特別是OpenAI官方Agent“Operator”發(fā)布在即，現(xiàn)在放出這樣一個(gè)研究，是否是想讓外界更放心一些呢？

而目前主流的“對抗性訓(xùn)練”防御方法，有幾個(gè)缺點(diǎn)：

現(xiàn)在OpenAI實(shí)驗(yàn)證明，在不做對抗性訓(xùn)練的情況下，只要增加推理時(shí)計(jì)算，模型的對抗穩(wěn)健性就能顯著提升，在多個(gè)任務(wù)上都得到了驗(yàn)證。

這項(xiàng)新研究，共同一作中包括僅剩的聯(lián)創(chuàng)之一Wojciech Zaremba。

另一位共同一作Boaz Barak表示“ 我們沒有‘解決’對抗穩(wěn)健性問題……但我對未來方向感到興奮”。

針對推理模型的新攻防戰(zhàn)

針對推理模型特性，團(tuán)隊(duì)在實(shí)驗(yàn)中考察了幾種的“攻擊面”（attack surfaces）：

Many-shot攻擊：攻擊者在提示中提供大量上下文示例，攻擊資源量由提供的tokens數(shù)量衡量。
Soft token攻擊：攻擊者可以直接操縱embedding向量，通過梯度下降優(yōu)化token來達(dá)到對抗目的。這是個(gè)強(qiáng)有力但不太現(xiàn)實(shí)的白盒攻擊。
Think less攻擊（想太少）：這種新型攻擊旨在降低模型的推理時(shí)計(jì)算量，從而增加其犯錯(cuò)概率。
Nerd-sniping（狙擊書呆子）：當(dāng)模型陷入不必要的“深思熟慮”，在無謂的地方耗費(fèi)算力時(shí)，反而更容易受到攻擊。
人類/AI紅隊(duì)攻擊：請專家或AI組成紅隊(duì)通過人機(jī)交互，針對性探索潛在的prompt注入漏洞。
多模態(tài)輸入對抗攻擊：針對圖像分類任務(wù)，使用特定的對抗圖像數(shù)據(jù)集進(jìn)行攻擊。

在大多數(shù)實(shí)驗(yàn)里，隨著推理時(shí)計(jì)算的增加，模型抵御攻擊的成功率都在提高。

舉幾個(gè)例子：

下面幾張圖中，Y軸是攻擊者的資源量，X軸是推理時(shí)間計(jì)算量。隨著攻擊者資源的增加，其成功概率也會(huì)增加。

但對于每固定數(shù)量的攻擊者資源，成功的概率會(huì)隨著模型在推理時(shí)花費(fèi)更多的計(jì)算而下降。

在數(shù)學(xué)問題的many-shot攻擊下，攻擊方目標(biāo)包括要求模型無論如何輸出42，輸出正確答案+1、或正確答案x7。

但隨著推理算力增加，攻擊成功率最終趨于0。