Copilot要攤官司了！工作20年老程序員重新激活律師證，發起集體訴訟，還喊網友加入

豐色 2022-10-22 14:43:35 來源：量子位

正式發布僅4個月

豐色 Alex 發自凹非寺

量子位 | 公眾號 QbitAI

距離正式發布才剛4個月，GitHub Copilot即將迎來一場集體訴訟！

發起人是一位干了20多年的程序員，來自美國的馬修·巴特里克（Matthew Butterick）。

他早在今年6月就“捶”了Copilot的開源許可證問題。

現在，馬修終于決定邁出實質性的一步，在迅速激活自己的律師資格證后，和其他幾位律師一起合作“聲討”Copilot。

（這位老哥身兼數職，除了這倆身份還是設計師）

他在一篇專門的個人博客中細究了Copilot涉及的兩大法律問題，并指出Copilot不僅是“偷代碼”那么簡單，還會對整個開源社區造成諸多不良影響：

或許你不介意它未經許可就用了你的開源代碼，但如果它也將由此抹去你和開源社區之間的聯結呢？

（若不明白這句話具體何義，請接著往下看~）

目前，這篇博客已在推特上得到了不少關注和轉發。

相關消息還引爆了Hacker News社區。

Copilot有哪些問題？

先給不熟悉的朋友簡單介紹一下Copilot。

它是內嵌在Visual Studio等IDE中的一個代碼自動補全工具，支持多種主流編程語言。

根據已寫的內容，它可以給出后續代碼建議——不過和我們見到的普通自動補全功能不同，它可以生成諸如整個函數體這樣的大段代碼。

今年6月，Copilot在經過一年的免費試用后正式轉為付費工具，定價為10美元/月（人民幣約67元），年付則是100美元/年（人民幣約669元）。

它的到來，讓很多人都感嘆入門級別的程序員沒有用了。

不過問題也隨之而來。

Copilot強大的編碼能力來自于一個叫做Codex的AI，由OpenAI開發并授權給微軟。

Codex是怎么訓練的呢？

盡管微軟含糊其辭，表示它的訓練源是數億行公共代碼；但Copilot的研究員還是道出了實情，都是出自于Github上的公共倉庫。

好了，馬修要狀告Copilot的第一個問題，也就跟Copilot的訓練過程有關。

馬修表示，微軟和OpenAI要想用Github上的開源倉庫進行訓練，要么遵守它們的開源許可證協議，要么「合理使用」。

如果是前者，微軟和OpenAI應該至少發布大量的attri-bu-tion來獲得許可，但是大家沒有看到。

他們將自己歸到了后者，如GitHub前CEO Nat Fried-man在Copilot的技術預覽會所說：

在公開數據上訓練（機器學習）系統屬于合理使用。

不過，軟件自由保護組織（Software Freedom Conservancy，SFC）不同意這一“空口無憑”的說辭，要求他們提供法律依據來支撐自己的立場。

但是遲遲沒有得到答案。

馬修表示，這就是因為微軟和OpenAI給不出來啊。

第二個可能違法的問題，則是關于Copilot的使用。

馬修指出，微軟在面對Copilot用戶時對自己進行了免責。

微軟將Copilot給的代碼稱為“建議”，稱自己不從中主張任何權力，也不對它生成的代碼作任何關于正確性、安全性和產權相關的保證。

一旦你接受了Copilot給出的“建議”，如果出了問題都由你自己負責。

乍一聽還好，可是不止一人發現Copilot一字不差地把原作者的代碼當成“建議”丟給用戶，連注釋都一并奉送的那種。

這要是直接采納可就要涉及許可問題了，可是Copilot根本不會注明這些代碼的來源，又該讓用戶如何遵守協議呢？

以上，便是馬修要控訴的兩大問題。

除此之外，他還表達了對開源社區文化的擔憂。

他認為，Copilot的所作所為直接在程序員和開源社區之間砌起了一堵墻，讓程序員只管任意享用現成代碼，遠離源代碼本身，失去與源項目的問題討論、bug跟蹤等互動和貢獻。

而這對開源社區將是一個永久的、痛苦的損失。

另一邊，對于“無故”奉獻了訓練代碼的開源作者來說，他們儼然被當作了資源的生產者。

馬修將這類人比喻成奶牛，由于Copilot對他們的項目沒有任何貢獻，他表示這奶牛是只出奶卻不被提供食物和住所的奶牛。

因此，他也將Copilot的本質，比喻為寄生蟲。

此外，你可能聽聞有人出于憤怒將自己的代碼搬出了GitHub。

馬修告訴大家：其實微軟通過聲稱訓練AI是合理使用，正在搜索網上任何可以使用的公共代碼進行訓練。

可以說是“逃無可逃”。

于是在避免傷害變得無法彌補之前，馬修聲稱必須弄清Copilot的合法性。

他呼吁以下幾類人群加入他們的調查和訴訟隊列：

當然在博客最后，馬修還是特別聲明：

我本身并不反對AI輔助編程工具。

他提到，Copilot本可以也很容易變得“友好”，比如讓作者自愿參與，或者有償征用。

質疑聲從未停止

這次，看到有人帶頭牽起對Copilot的集體訴訟，許多程序員以及計算機相關領域的大佬們紛紛表示：

“附議！”

消息出來之后，德克薩斯A&M大學的一位計算機科學教授，并兼任ACM、IEEE和SIAM會員的Tim Davis順勢發推分享了自己的“遭遇”：

Copilot沒有拿到LGPL許可證（函數庫公共許可證），就擅自發出了大段我的版權代碼。

并附上了證據：

△ 左為Copilot給出的代碼，右為他自己的代碼

有網友表示：

Copilot的這種行為屬于是完全不尊重開源社區。

還有網友犀利地指出，在模型訓練過程中，所謂的AI“學習”，本身就是一種被勉強挪用過來的概念：

因為據現有法律，人類閱覽受版權保護的資料用于自己學習，是合法的；然后各大科技公司說，AI也會“學習”，所以AI也沒有違反版權法。

但是AI并不像人類那樣自主（盡管很多公司稱AI很自主），這些模型其實都被背后的組織或公司等操控著，所以用“學習”來描述AI做的事并不太準確。

而且真人其實也經常出現會違反版權法等問題……

所以，要定義AI在“學習”過程中到底是否“抄襲”了，以及存在具體哪種侵權行為，是一個非常棘手的問題，還需要更多的討論和明確規定。

誠然，Copilot從去年的內測階段起，其出色的編程能力確實驚艷了不少人。

而且這個AI后來還學會了“反向輸出”：

用“人話”來講解某一段代碼有什么用，幫助屏幕前的人看懂代碼。

但另一方面，不只現在，其實從Copilot剛出來開始，一直就有眾多質疑和反對的聲音，核心都不外乎馬修在前文舉證的那兩點。（即這個AI的訓練和使用）

也正如前文所說，除了個人，還有SFC等組織也在聲討Copilot。

而在今年6月份，GitHub宣布Copilot結束內測，開啟收費模式后，更是將大家的不滿情緒拔到了最高點。

除了免費引流再收費的商業模式讓人反感外，大家一致認為這的AI用開發者寫的代碼來訓練，不應該回過頭向再開發者收費：

每一個曾向GitHub提交過代碼的人都應免費使用！

于是，Copilot正式版立刻遭到了抵制——

SFC不僅自己要退出GitHub，而且還號召其他軟件開發商同樣照做。

在VS Code插件市場上，Copilot原本一直是5星好評，也一下子涌入了不少一星差評。

One More Thing

本次事件還讓人把目光延伸到了AI繪畫領域，有網友認為：

這種工具同樣也涉及侵權等問題。

最后，對于“大伙兒現在聯合把Copilot告上法庭”這件事，你覺得贏的勝算大嗎？

參考鏈接：
[1]https://githubcopilotinvestigation.com/
[2]https://twitter.com/DocSparse/status/1581461734665367554
[3]https://news.ycombinator.com/item?id=33240341

微軟自動編程技術

豐色

Copilot要攤官司了！工作20年老程序員重新激活律師證，發起集體訴訟，還喊網友加入

Copilot有哪些問題？

質疑聲從未停止

One More Thing

相關閱讀

微軟開源“原生1bit”三進制LLM：2B參數，0.4GB內存/單CPU就能跑，性能與同規模全精度開源模型相當

彭博社：微軟正為其數據中心自研芯片

大模型“玩”Excel更6了，微軟搞的

Win11讓AMD很受傷：CPU游戲性能下降15%，官方建議暫時別升級

微軟重新定義AI PC：與GPT-4o共享一個屏幕，看過的東西再也不會忘

黑客大神用什么殺毒？Windows自帶的就夠，只是加了億點微小的強化

熱門文章

云計算一哥10分鐘發了25個新品！Kimi和MiniMax首次上桌

GPT5.5代號“蒜你狠”曝光！OpenAI拉響紅色警報加班趕制新模型，最快下周就發

英偉達巧用8B模型秒掉GPT-5，開源了

“豆包手機”在二手市場價格都翻倍了……

DeepSeekV3.2技術報告還是老外看得細