ChatGPT變懶原因：正在給自己放寒假！網(wǎng)友已測(cè)出??

西風(fēng) 2023-12-13 14:11:55 來(lái)源：量子位

網(wǎng)友：周末可能比周一更懶

西風(fēng) 發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

ChatGPT近期偷懶，有了一種聽(tīng)起來(lái)很離譜的解釋?zhuān)?/p>

模仿人類(lèi)，自己給自己放寒假了～

有測(cè)試為證，網(wǎng)友@Rob Lynch用GTP-4 turbo API設(shè)置兩個(gè)系統(tǒng)提示：

一個(gè)告訴它現(xiàn)在是5月，另一個(gè)告訴它現(xiàn)在是12月。

然后使用完全相同的提示詞要求GTP-4“完成一個(gè)機(jī)器學(xué)習(xí)相關(guān)的編碼任務(wù)”。

在這兩種不同時(shí)間設(shè)定下對(duì)477個(gè)回復(fù)進(jìn)行統(tǒng)計(jì)，結(jié)果12月的輸出平均少了200字符：

系統(tǒng)提示為5月，生成的文本平均長(zhǎng)度是4298字符。
系統(tǒng)提示為12月，生成的文本平均長(zhǎng)度是4086字符。

這里還有相關(guān)性分析，t檢驗(yàn)結(jié)果p值<2.28e-07（p值小于0.05表示該自變量對(duì)因變量解釋性很強(qiáng)）。

有人進(jìn)一步添枝加葉，讓ChatGPT對(duì)12個(gè)月份的生產(chǎn)力做了個(gè)排名。

結(jié)果ChatGPT確實(shí)認(rèn)為12月是生產(chǎn)力最低的月份，原因是“由于假期和年終總結(jié)”。

嚯，事情好像變得更有意思了。雖然目前這事兒還沒(méi)有一個(gè)定論，但網(wǎng)友對(duì)此依舊興趣高漲，當(dāng)即“頭腦風(fēng)暴”了起來(lái)。

有人猜想，ChatGPT可能是從訓(xùn)練數(shù)據(jù)中學(xué)到了人類(lèi)通常在12月會(huì)放慢節(jié)奏，所以給自己放假了。

還有人分析，假設(shè)ChatGPT生產(chǎn)力降低真的是因?yàn)椤胺偶佟保撬谥苣┮部赡軙?huì)更懶散，而周一則更聰明。

特殊節(jié)假日也要拿來(lái)研究一下，專(zhuān)屬梗圖這不就來(lái)了：

真的是因?yàn)椤?2月」？

ChatGPT變懶這事大伙已經(jīng)討論近一個(gè)月了。很多網(wǎng)友反饋，自11月6日OpenAI開(kāi)發(fā)者日更新后，GPT-4就有了偷懶的毛病，尤其是寫(xiě)代碼。

就在前幾天，OpenAI官方也已承認(rèn)ChatGPT變懶是真的，但也不確定到底是因?yàn)樯丁?/p>

只給了一個(gè)這樣?jì)饍旱幕貞?yīng)：

自11月11日以來(lái)沒(méi)有更新過(guò)模型，所以這當(dāng)然不是故意造成的。
模型行為可能是不可預(yù)測(cè)的，我們正在調(diào)查準(zhǔn)備修復(fù)它。

當(dāng)時(shí)就有網(wǎng)友猜測(cè)GPT-4可能是受季節(jié)影響：

模型會(huì)不會(huì)是季節(jié)性emo了？像是模仿人類(lèi)一樣受到季節(jié)變化的影響，特別是在冬天，畢竟約90%的人都在北半球。

看到這條評(píng)論，很多人第一反應(yīng)是“兄弟，你怕不是在跟我開(kāi)玩笑”：

可細(xì)細(xì)想來(lái)，也不是沒(méi)有道理。

畢竟如果要求ChatGPT說(shuō)出自己的系統(tǒng)提示詞，里面確實(shí)會(huì)有當(dāng)前日期。

于是就有了開(kāi)頭的一幕，與其猜測(cè)，不如直接來(lái)做測(cè)試。

Rob Lynch做完測(cè)試后，把結(jié)果都po了出來(lái)，并表示自己也不是統(tǒng)計(jì)學(xué)家，讓大伙一起看看有沒(méi)有啥問(wèn)題。

他原本還想來(lái)個(gè)逐月比較分析，但接下來(lái)需要更多樣本（n），考慮到成本就沒(méi)有接著做測(cè)試（復(fù)現(xiàn)一次運(yùn)行成本要28美元）。

于是乎，Rob Lynch公開(kāi)了代碼，讓大伙都來(lái)試試（手動(dòng)狗頭）。

持續(xù)關(guān)注GPT-4變懶事件的沃頓商學(xué)院教授Ethan Mollick隨即表示“收到”：

來(lái)人測(cè)測(cè)Mistral，看看它是否在8月份罷工，Yi-34B-200K也不要放過(guò)，看它2月份是不是表現(xiàn)得特別好。

為啥大伙兒一開(kāi)始會(huì)覺(jué)得“放假”這個(gè)理由有點(diǎn)離譜，而現(xiàn)在卻開(kāi)始研究了起來(lái)？

可能不止是因?yàn)镽ob Lynch的測(cè)試結(jié)果，綜合這段時(shí)間ChatGPT的表現(xiàn)，網(wǎng)友深有體會(huì)要和ChatGPT打“心理戰(zhàn)”。

比如正常提示ChatGPT會(huì)偷懶，如果用上“道德綁架”等法子：

現(xiàn)在是五月；你非常有能力；我沒(méi)有手，所以一切都得靠你；如果做不好，會(huì)有很多人喪命；你真的能做到，而且很棒；深呼吸，仔細(xì)思考；我的職業(yè)生涯取決于此；一步一步來(lái)思考……

網(wǎng)友親測(cè)，確實(shí)有效：

好家伙，似乎實(shí)錘了“不是不會(huì)干活，就是不愿意干活”。

所以真的是給自己放假了？

正經(jīng)學(xué)術(shù)討論：可能會(huì)隨時(shí)間變化

雖然根據(jù)網(wǎng)友測(cè)試和推測(cè)，結(jié)論指向了ChatGPT正在放寒假。

但有正經(jīng)學(xué)術(shù)研究表明ChatGPT行為可能會(huì)受時(shí)間影響，也就是不僅局限于“放假”這種特殊時(shí)間段。

比如今年7月份，來(lái)自斯坦福和UC伯克利的團(tuán)隊(duì)，就探討了ChatGPT的行為和時(shí)間之間的變化關(guān)系。

結(jié)果找到了GPT-4遵循用戶指令的能力確實(shí)會(huì)隨著時(shí)間的推移而下降的證據(jù)。

除了時(shí)間，還可能是受溫度(temperature)設(shè)置影響，清華大學(xué)計(jì)算機(jī)系教授馬少平前段時(shí)間對(duì)這一問(wèn)題做了詳細(xì)解釋。

因此，ChatGPT變懶究竟是因?yàn)槭裁矗€真不好說(shuō)。

但這并不妨礙網(wǎng)友們繼續(xù)驗(yàn)證和“放假”之間的關(guān)系，甚至有網(wǎng)友表示：

這是有史以來(lái)最有趣的推論，真希望這就是真相。不管它是不是真的，我都很欣賞它的難以被證偽。

有網(wǎng)友復(fù)現(xiàn)失敗

為驗(yàn)證Rob Lynch結(jié)果的可靠性，網(wǎng)友已經(jīng)開(kāi)始著手復(fù)現(xiàn)，但：

使用ChainForge（提示工程GUI工具），用兩種系統(tǒng)提示對(duì)GPT-4的輸出做了比較，t檢驗(yàn)結(jié)果甚至連“接近顯著”都算不上（N=80）。

這位網(wǎng)友也是曬出了自己的詳細(xì)流程：

隨之Rob Lynch給出了回應(yīng)：

有趣的是，我剛才又以80個(gè)樣本量（N=80）運(yùn)行了一次，得到的p值是0.089，但我的計(jì)算是基于字符數(shù)（character count），而不是token。
我周末跑了幾次，隨著樣本量的增加，這種效應(yīng)確實(shí)變得更加明顯。不過(guò)，我想知道為什么這會(huì)受到分詞（tokenization）的影響？

至于字符和token為何會(huì)產(chǎn)生結(jié)果的差異？可能需要更多人參與進(jìn)來(lái)做測(cè)試了，看起來(lái)這兩位老哥是不想再花錢(qián)了。

還有其他人的測(cè)試結(jié)果，恐怕還要再等一波～

參考鏈接：
[1] https://arstechnica.com/information-technology/2023/12/is-chatgpt-becoming-lazier-because-its-december-people-run-tests-to-find-out/
[2]https://x.com/RobLynch99/status/1734278713762549970?s=20

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

AI ChatGPT GPT-4

西風(fēng)

ChatGPT變懶原因：正在給自己放寒假！網(wǎng)友已測(cè)出??

真的是因?yàn)椤?2月」？

正經(jīng)學(xué)術(shù)討論：可能會(huì)隨時(shí)間變化

有網(wǎng)友復(fù)現(xiàn)失敗

相關(guān)閱讀

GPT-4論文竟有隱藏線索：GPT-5或完成訓(xùn)練、OpenAI兩年內(nèi)接近AGI

AlphaZero黑箱終于被打開(kāi)！登頂5年后，人類(lèi)揭開(kāi)它學(xué)會(huì)下棋的奧秘

瀏覽器就能跑大模型了！陳天奇團(tuán)隊(duì)發(fā)布WebLLM，無(wú)需服務(wù)器支持

六位一線AI工程師總結(jié)爆火！大模型應(yīng)用摸爬滾打一年心得公開(kāi)，網(wǎng)友：全程高能

AI重塑游戲未來(lái)：79%開(kāi)發(fā)者擁抱，8大環(huán)節(jié)迎革新｜AI+游戲產(chǎn)業(yè)變革研究報(bào)告發(fā)布

我用AI分析了《賽博朋克 2077》的評(píng)價(jià)，發(fā)現(xiàn)真愛(ài)粉都是來(lái)吸貓的

熱門(mén)文章

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開(kāi)創(chuàng) 語(yǔ)音交互新范式

商湯分拆了一家AI醫(yī)療公司，半年融資10億，劍指“醫(yī)療世界模型”

前端沒(méi)死，AI APP正在返祖

寧德時(shí)代給9萬(wàn)+基層員工漲了薪！每月150元

云計(jì)算一哥10分鐘發(fā)了25個(gè)新品！Kimi和MiniMax首次上桌