AI“讀書”合法了:美法院最新裁定,無(wú)需作者同意,已購(gòu)書籍可用于訓(xùn)練AI
數(shù)據(jù)來(lái)源合法性>使用目的合法性
不圓 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
無(wú)需原作者同意,AI可以用已出版書籍作訓(xùn)練數(shù)據(jù)了。
就在最新判決的訴訟中,美國(guó)法院裁決:允許Claude背后公司Anthropic在未經(jīng)作者許可的情況下,使用合法購(gòu)買的已出版書籍訓(xùn)練AI。
法院參考了美國(guó)版權(quán)法中的“合理使用”(Fair Use)原則,認(rèn)為AI訓(xùn)練屬于“轉(zhuǎn)化性使用”(Transformative Use),即對(duì)原作品的新用途未取代原作市場(chǎng),且有利于技術(shù)創(chuàng)新和公共利益。

這是美國(guó)法院首次認(rèn)可AI公司對(duì)書籍的使用權(quán),保護(hù)人工智能公司在使用受版權(quán)保護(hù)的文本訓(xùn)練 LLMs 時(shí)不受限制:
大大降低了AI訓(xùn)練數(shù)據(jù)的版權(quán)風(fēng)險(xiǎn)。
對(duì)此,不少網(wǎng)友的看法是這樣的:既然人類讀書并加以理解是毫無(wú)爭(zhēng)議的,那AI讀書并理解也應(yīng)該合理。


怎么一回事?
對(duì)Anthropic的指控,由三位作家在2024年8月發(fā)起。
值得關(guān)注的是,Anthropic的案件不僅針對(duì)使用已出版書籍訓(xùn)練AI,還涉及到書籍的來(lái)源問(wèn)題:
2021年,Anthropic的聯(lián)合創(chuàng)始人Ben Mann從盜版網(wǎng)站下載19.6萬(wàn)本受版權(quán)保護(hù)的書籍。
到2022年,Anthropic又從LibGen和PiLiMi下載了“至少500萬(wàn)份拷貝(copies)”和“200萬(wàn)份拷貝”,建立數(shù)字化圖書館。
盡管Anthropic在那時(shí)已意識(shí)到盜版法律風(fēng)險(xiǎn)(“not so gung ho about pirated books for legal reasons”),但仍保留所有盜版副本。
2023年3月,Anthropic從數(shù)字化圖書館選擇書籍子集訓(xùn)練Claude模型,Claude首版發(fā)布。
2024年2月,Anthropic雇傭前Google圖書掃描項(xiàng)目負(fù)責(zé)人Turvey,轉(zhuǎn)向合法采購(gòu)并掃描書籍,購(gòu)買數(shù)百萬(wàn)本紙質(zhì)書。
Turvey發(fā)送了“一兩封郵件”(“an email or two”)給出版商,但未持續(xù)跟進(jìn)(“l(fā)et those conversations wither”)。
根據(jù)美國(guó)法院對(duì)Anthropic的裁決文書,可以關(guān)注到以下幾點(diǎn):
1、這次事件的爭(zhēng)議主要在Anthropic未經(jīng)過(guò)創(chuàng)作者允許,使用已購(gòu)買的正版書籍或盜版書籍對(duì)Claude進(jìn)行訓(xùn)練。
2、原告對(duì)于Anthropic的指控是:非法復(fù)制作品(包括盜版和掃描版)用于訓(xùn)練AI,侵犯版權(quán)。
3、法院裁定Anthropic可以使用合法采購(gòu)書籍的掃描副本用于訓(xùn)練AI的數(shù)據(jù)處理,認(rèn)為AI訓(xùn)練具有“高度轉(zhuǎn)化性”,未直接替代原作市場(chǎng),且輸出未侵犯原告作品。
4、法院同時(shí)裁定盜版書籍的使用不構(gòu)成合理使用,盜版行為本身涉及侵權(quán)。盜版相關(guān)責(zé)任及賠償問(wèn)題需進(jìn)入審判階段。
有網(wǎng)友簡(jiǎn)單總結(jié)為:關(guān)鍵在于訓(xùn)練使用書籍的來(lái)源是不是盜版。

也就是說(shuō),AI公司可未經(jīng)原作者許可使用合法購(gòu)買的書籍訓(xùn)練AI。
有網(wǎng)友表示:這是一個(gè)正確的決定,就像人類可以去圖書館或者讀自己買的書一樣自然。


同樣的,這個(gè)裁決結(jié)果也面臨著一些爭(zhēng)議:AI可以和人類一概而論嗎?創(chuàng)作者又該如何保護(hù)他們的知識(shí)?



類似案例
類似案例曾出現(xiàn)在其他AI公司的訴訟中。
2015年Goggle Books:美國(guó)最高法院認(rèn)定屬于“合理使用”
2004年,Google開(kāi)始了“Google’s Library Project ”,這個(gè)計(jì)劃與各大圖書館合作,打算將超過(guò)兩千萬(wàn)冊(cè)圖書掃描并數(shù)字化,供Google使用者直接搜索。被掃描的圖書包括超過(guò)著作權(quán)保護(hù)期限的公有作品和那些尚處在著作權(quán)保護(hù)期內(nèi)的書籍。
Google Books的處理是:對(duì)公有作品和內(nèi)容提供全文免費(fèi)瀏覽和PDF格式的下載;對(duì)尚處在著作權(quán)保護(hù)期內(nèi)的作品,只提供書目、簡(jiǎn)介和少數(shù)章節(jié)的內(nèi)容,同時(shí)提供正版的電子書或印刷版購(gòu)買鏈接。
2005年,美國(guó)作家協(xié)會(huì)等機(jī)構(gòu)將Google Books告上法庭,認(rèn)為Google未經(jīng)授權(quán)掃描全書構(gòu)成版權(quán)侵權(quán),理由包括:
- 全文數(shù)字化復(fù)制侵犯作者復(fù)制權(quán);
- 片段瀏覽功能可能替代原作市場(chǎng);
- 有商業(yè)動(dòng)機(jī)(搜索業(yè)務(wù)衍生收益);
- 數(shù)字副本存儲(chǔ)存在黑客泄露風(fēng)險(xiǎn);
- 向合作圖書館分發(fā)副本可能損害版權(quán)人利益。
2013年,美國(guó)聯(lián)邦法院作出了第一判決,駁回原告訴求,認(rèn)定Google的搜索和片段瀏覽功能只“轉(zhuǎn)化”了原作用途(從閱讀到信息檢索,未提供實(shí)質(zhì)替代內(nèi)容,可促進(jìn)學(xué)術(shù)研究和圖書發(fā)現(xiàn),構(gòu)成合理使用的條件。
2015年,二審維持原判。
2022年GitHub Copilot:促使AI公司推出“代碼來(lái)源標(biāo)注”功能
GitHub Copilot是微軟旗下GitHub開(kāi)發(fā)的AI編程助手,基于OpenAI的Codex模型,通過(guò)分析公開(kāi)代碼庫(kù)(如 GitHub 上的開(kāi)源項(xiàng)目)生成代碼建議。
2022年,多名開(kāi)源開(kāi)發(fā)者及組織指控GitHub Copilot:
- 許可證違規(guī):Copilot 訓(xùn)練時(shí)使用了 GPL 等“傳染性”開(kāi)源許可證代碼,但生成代碼未遵循原許可證要求(如保留版權(quán)聲明)。
- 版權(quán)侵權(quán):生成的代碼與開(kāi)源代碼高度相似,涉嫌直接復(fù)制。
- 商業(yè)濫用:微軟將免費(fèi)開(kāi)源代碼轉(zhuǎn)化為付費(fèi)工具(Copilot 企業(yè)版),違背開(kāi)源精神。
根據(jù)公開(kāi)報(bào)道和訴訟進(jìn)展,關(guān)鍵結(jié)論如下:
- 法院認(rèn)定 AI 訓(xùn)練使用開(kāi)源代碼屬于“轉(zhuǎn)化性使用”,不構(gòu)成直接侵權(quán)(參考Google Books案邏輯);
- 原告未能證明Copilot系統(tǒng)性輸出侵權(quán)代碼,偶發(fā)相似片段不構(gòu)成大規(guī)模違規(guī);
- 法院要求GitHub加強(qiáng)過(guò)濾機(jī)制,避免輸出受GPL等強(qiáng)許可證約束的代碼,或明確標(biāo)注來(lái)源及許可證要求,并提供工具供用戶檢查代碼與開(kāi)源庫(kù)的相似性。
2023年2月,GitHub正式發(fā)布“代碼來(lái)源檢測(cè)”功能(Code Referencing),作為默認(rèn)服務(wù)集成到Copilot中,幫助用戶識(shí)別生成代碼與開(kāi)源項(xiàng)目的關(guān)聯(lián)性。
2023年Open AI&Meta:仍在受理
2023年,多名作家、演員以及全球出版商聯(lián)盟指控Open AI和Meta使用盜版數(shù)據(jù)訓(xùn)練AI,數(shù)據(jù)包含來(lái)自“影子圖書館”(如 Bibliotik、LibGen、Z-Library)的書籍,這些網(wǎng)站提供未經(jīng)授權(quán)的版權(quán)內(nèi)容。
ChatGPT能準(zhǔn)確總結(jié)原告的書籍,證明模型“記憶”了受保護(hù)文本;Meta CEO扎克伯格及AI團(tuán)隊(duì)明知LibGen為盜版,仍決定使用其數(shù)據(jù)訓(xùn)練Llama 3,以加速超越OpenAI。
關(guān)于Open AI和Meta的案件仍在受理中,尚未明確裁決。
本次Anthropic案的勝訴并非孤例,而是美國(guó)司法系統(tǒng)在“技術(shù)創(chuàng)新vs.版權(quán)保護(hù)”的拉鋸中傾向前者的體現(xiàn),也是美國(guó)首次有法院支持合理使用原則,保護(hù)人工智能公司在使用受版權(quán)保護(hù)的文本訓(xùn)練 LLMs 時(shí)不受限制。
意味著此后AI可以研究其購(gòu)買而非從盜版網(wǎng)站獲取的內(nèi)容。
有網(wǎng)友認(rèn)為,本次裁決結(jié)果可能影響美國(guó)法院對(duì)Open AI和Meta案件的審理。


參考鏈接:
[1]https://x.com/rohanpaul_ai/status/1937598431947808893
[2]https://storage.courtlistener.com/recap/gov.uscourts.cand.434709/gov.uscourts.cand.434709.231.0_2.pdf
[3]https://githubcopilotlitigation.com/
[4]https://x.com/CeciliaZin/status/1740109462319644905
- AI芯片獨(dú)角獸一年估值翻番!放話“三年超英偉達(dá)”,最新融資53億2025-09-18
- 李飛飛發(fā)布世界模型新成果:一個(gè)提示,生成無(wú)限3D世界2025-09-17
- 奧特曼“續(xù)命”大計(jì):押注讓大腦變年輕的藥物,預(yù)計(jì)年底臨床試驗(yàn)2025-09-16
- DeepMind哈薩比斯最新認(rèn)知都在這里了2025-09-15




