AI“讀書”合法了：美法院最新裁定，無(wú)需作者同意，已購(gòu)書籍可用于訓(xùn)練AI

不圓 2025-06-26 15:24:21 來(lái)源：量子位

數(shù)據(jù)來(lái)源合法性>使用目的合法性

不圓發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

無(wú)需原作者同意，AI可以用已出版書籍作訓(xùn)練數(shù)據(jù)了。

就在最新判決的訴訟中，美國(guó)法院裁決：允許Claude背后公司Anthropic在未經(jīng)作者許可的情況下，使用合法購(gòu)買的已出版書籍訓(xùn)練AI。

法院參考了美國(guó)版權(quán)法中的“合理使用”（Fair Use）原則，認(rèn)為AI訓(xùn)練屬于“轉(zhuǎn)化性使用”（Transformative Use），即對(duì)原作品的新用途未取代原作市場(chǎng)，且有利于技術(shù)創(chuàng)新和公共利益。

AI“讀書”合法了：美法院最新裁定，無(wú)需作者同意，已購(gòu)書籍可用于訓(xùn)練AI

這是美國(guó)法院首次認(rèn)可AI公司對(duì)書籍的使用權(quán)，保護(hù)人工智能公司在使用受版權(quán)保護(hù)的文本訓(xùn)練 LLMs 時(shí)不受限制：

大大降低了AI訓(xùn)練數(shù)據(jù)的版權(quán)風(fēng)險(xiǎn)。

對(duì)此，不少網(wǎng)友的看法是這樣的：既然人類讀書并加以理解是毫無(wú)爭(zhēng)議的，那AI讀書并理解也應(yīng)該合理。

怎么一回事？

對(duì)Anthropic的指控，由三位作家在2024年8月發(fā)起。

值得關(guān)注的是，Anthropic的案件不僅針對(duì)使用已出版書籍訓(xùn)練AI，還涉及到書籍的來(lái)源問(wèn)題：

2021年，Anthropic的聯(lián)合創(chuàng)始人Ben Mann從盜版網(wǎng)站下載19.6萬(wàn)本受版權(quán)保護(hù)的書籍。

到2022年，Anthropic又從LibGen和PiLiMi下載了“至少500萬(wàn)份拷貝（copies）”和“200萬(wàn)份拷貝”，建立數(shù)字化圖書館。

盡管Anthropic在那時(shí)已意識(shí)到盜版法律風(fēng)險(xiǎn)（“not so gung ho about pirated books for legal reasons”），但仍保留所有盜版副本。

2023年3月，Anthropic從數(shù)字化圖書館選擇書籍子集訓(xùn)練Claude模型，Claude首版發(fā)布。

2024年2月，Anthropic雇傭前Google圖書掃描項(xiàng)目負(fù)責(zé)人Turvey，轉(zhuǎn)向合法采購(gòu)并掃描書籍，購(gòu)買數(shù)百萬(wàn)本紙質(zhì)書。

Turvey發(fā)送了“一兩封郵件”（“an email or two”）給出版商，但未持續(xù)跟進(jìn)（“l(fā)et those conversations wither”）。

根據(jù)美國(guó)法院對(duì)Anthropic的裁決文書，可以關(guān)注到以下幾點(diǎn)：

1、這次事件的爭(zhēng)議主要在Anthropic未經(jīng)過(guò)創(chuàng)作者允許，使用已購(gòu)買的正版書籍或盜版書籍對(duì)Claude進(jìn)行訓(xùn)練。

2、原告對(duì)于Anthropic的指控是：非法復(fù)制作品（包括盜版和掃描版）用于訓(xùn)練AI，侵犯版權(quán)。

3、法院裁定Anthropic可以使用合法采購(gòu)書籍的掃描副本用于訓(xùn)練AI的數(shù)據(jù)處理，認(rèn)為AI訓(xùn)練具有“高度轉(zhuǎn)化性”，未直接替代原作市場(chǎng)，且輸出未侵犯原告作品。

4、法院同時(shí)裁定盜版書籍的使用不構(gòu)成合理使用，盜版行為本身涉及侵權(quán)。盜版相關(guān)責(zé)任及賠償問(wèn)題需進(jìn)入審判階段。

有網(wǎng)友簡(jiǎn)單總結(jié)為：關(guān)鍵在于訓(xùn)練使用書籍的來(lái)源是不是盜版。

也就是說(shuō)，AI公司可未經(jīng)原作者許可使用合法購(gòu)買的書籍訓(xùn)練AI。

有網(wǎng)友表示：這是一個(gè)正確的決定，就像人類可以去圖書館或者讀自己買的書一樣自然。

同樣的，這個(gè)裁決結(jié)果也面臨著一些爭(zhēng)議：AI可以和人類一概而論嗎？創(chuàng)作者又該如何保護(hù)他們的知識(shí)？

類似案例

類似案例曾出現(xiàn)在其他AI公司的訴訟中。

2015年Goggle Books：美國(guó)最高法院認(rèn)定屬于“合理使用”

2004年，Google開(kāi)始了“Google’s Library Project ”，這個(gè)計(jì)劃與各大圖書館合作，打算將超過(guò)兩千萬(wàn)冊(cè)圖書掃描并數(shù)字化，供Google使用者直接搜索。被掃描的圖書包括超過(guò)著作權(quán)保護(hù)期限的公有作品和那些尚處在著作權(quán)保護(hù)期內(nèi)的書籍。

Google Books的處理是：對(duì)公有作品和內(nèi)容提供全文免費(fèi)瀏覽和PDF格式的下載；對(duì)尚處在著作權(quán)保護(hù)期內(nèi)的作品，只提供書目、簡(jiǎn)介和少數(shù)章節(jié)的內(nèi)容，同時(shí)提供正版的電子書或印刷版購(gòu)買鏈接。

2005年，美國(guó)作家協(xié)會(huì)等機(jī)構(gòu)將Google Books告上法庭，認(rèn)為Google未經(jīng)授權(quán)掃描全書構(gòu)成版權(quán)侵權(quán)，理由包括：

全文數(shù)字化復(fù)制侵犯作者復(fù)制權(quán)；
片段瀏覽功能可能替代原作市場(chǎng)；
有商業(yè)動(dòng)機(jī)（搜索業(yè)務(wù)衍生收益）；
數(shù)字副本存儲(chǔ)存在黑客泄露風(fēng)險(xiǎn)；
向合作圖書館分發(fā)副本可能損害版權(quán)人利益。

2013年，美國(guó)聯(lián)邦法院作出了第一判決，駁回原告訴求，認(rèn)定Google的搜索和片段瀏覽功能只“轉(zhuǎn)化”了原作用途（從閱讀到信息檢索，未提供實(shí)質(zhì)替代內(nèi)容，可促進(jìn)學(xué)術(shù)研究和圖書發(fā)現(xiàn)，構(gòu)成合理使用的條件。

2015年，二審維持原判。

2022年GitHub Copilot：促使AI公司推出“代碼來(lái)源標(biāo)注”功能

GitHub Copilot是微軟旗下GitHub開(kāi)發(fā)的AI編程助手，基于OpenAI的Codex模型，通過(guò)分析公開(kāi)代碼庫(kù)（如 GitHub 上的開(kāi)源項(xiàng)目）生成代碼建議。

2022年，多名開(kāi)源開(kāi)發(fā)者及組織指控GitHub Copilot：

許可證違規(guī)：Copilot 訓(xùn)練時(shí)使用了 GPL 等“傳染性”開(kāi)源許可證代碼，但生成代碼未遵循原許可證要求（如保留版權(quán)聲明）。
版權(quán)侵權(quán)：生成的代碼與開(kāi)源代碼高度相似，涉嫌直接復(fù)制。
商業(yè)濫用：微軟將免費(fèi)開(kāi)源代碼轉(zhuǎn)化為付費(fèi)工具（Copilot 企業(yè)版），違背開(kāi)源精神。

根據(jù)公開(kāi)報(bào)道和訴訟進(jìn)展，關(guān)鍵結(jié)論如下：

法院認(rèn)定 AI 訓(xùn)練使用開(kāi)源代碼屬于“轉(zhuǎn)化性使用”，不構(gòu)成直接侵權(quán)（參考Google Books案邏輯）；
原告未能證明Copilot系統(tǒng)性輸出侵權(quán)代碼，偶發(fā)相似片段不構(gòu)成大規(guī)模違規(guī)；
法院要求GitHub加強(qiáng)過(guò)濾機(jī)制，避免輸出受GPL等強(qiáng)許可證約束的代碼，或明確標(biāo)注來(lái)源及許可證要求，并提供工具供用戶檢查代碼與開(kāi)源庫(kù)的相似性。

2023年2月，GitHub正式發(fā)布“代碼來(lái)源檢測(cè)”功能（Code Referencing），作為默認(rèn)服務(wù)集成到Copilot中，幫助用戶識(shí)別生成代碼與開(kāi)源項(xiàng)目的關(guān)聯(lián)性。

2023年Open AI＆Meta：仍在受理

2023年，多名作家、演員以及全球出版商聯(lián)盟指控Open AI和Meta使用盜版數(shù)據(jù)訓(xùn)練AI，數(shù)據(jù)包含來(lái)自“影子圖書館”（如 Bibliotik、LibGen、Z-Library）的書籍，這些網(wǎng)站提供未經(jīng)授權(quán)的版權(quán)內(nèi)容。

ChatGPT能準(zhǔn)確總結(jié)原告的書籍，證明模型“記憶”了受保護(hù)文本；Meta CEO扎克伯格及AI團(tuán)隊(duì)明知LibGen為盜版，仍決定使用其數(shù)據(jù)訓(xùn)練Llama 3，以加速超越OpenAI。

關(guān)于Open AI和Meta的案件仍在受理中，尚未明確裁決。

本次Anthropic案的勝訴并非孤例，而是美國(guó)司法系統(tǒng)在“技術(shù)創(chuàng)新vs.版權(quán)保護(hù)”的拉鋸中傾向前者的體現(xiàn)，也是美國(guó)首次有法院支持合理使用原則，保護(hù)人工智能公司在使用受版權(quán)保護(hù)的文本訓(xùn)練 LLMs 時(shí)不受限制。

意味著此后AI可以研究其購(gòu)買而非從盜版網(wǎng)站獲取的內(nèi)容。

有網(wǎng)友認(rèn)為，本次裁決結(jié)果可能影響美國(guó)法院對(duì)Open AI和Meta案件的審理。

參考鏈接：
[1]https://x.com/rohanpaul_ai/status/1937598431947808893
[2]https://storage.courtlistener.com/recap/gov.uscourts.cand.434709/gov.uscourts.cand.434709.231.0_2.pdf
[3]https://githubcopilotlitigation.com/
[4]https://x.com/CeciliaZin/status/1740109462319644905

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

不圓

AI“讀書”合法了：美法院最新裁定，無(wú)需作者同意，已購(gòu)書籍可用于訓(xùn)練AI

怎么一回事？

類似案例

相關(guān)閱讀

白嫖GPT-4最強(qiáng)競(jìng)品！20秒速通92頁(yè)論文，不怕跟不上技術(shù)進(jìn)展了

成本降低90%！Claude上新Gemini同款提示詞緩存，一次性記住整個(gè)代碼庫(kù)

Claude公司估值615億美元再融35億，那DeepSeek…

兩個(gè)AI關(guān)小黑屋：Llama3.1把Claude Opus聊自閉了

AI被連續(xù)否定30次：ChatGPT越改越錯(cuò)，Claude堅(jiān)持自我，甚至已讀不回

OpenAI離職到估值千億美元，Anthropic4年時(shí)間引硅谷巨頭瘋狂押注

熱門文章

DeepSeek-V3.2系列開(kāi)源，性能直接對(duì)標(biāo)Gemini-3.0-Pro

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開(kāi)創(chuàng) 語(yǔ)音交互新范式

商湯分拆了一家AI醫(yī)療公司，半年融資10億，劍指“醫(yī)療世界模型”

前端沒(méi)死，AI APP正在返祖

寧德時(shí)代給9萬(wàn)+基層員工漲了薪！每月150元