蘋果AI版權戰升溫:盜版書籍數據訓練引爆法律風暴,合理使用原則面臨新考驗

蘋果AI版權戰升溫:盜版書籍數據訓練引爆法律風暴,合理使用原則面臨新考驗

蘋果AI版權戰升溫:盜版書籍數據訓練引爆法律風暴,合理使用原則面臨新考驗

蘋果AI訓練陷版權風波:作家提告盜版數據爭議

2025年9月,科技巨頭蘋果公司再次成為人工智慧(AI)著作權訴訟的焦點。美國作家葛雷迪·亨德里克斯(Grady Hendrix)和珍妮佛·羅伯森(Jennifer Roberson)向北加州聯邦法院提起集體訴訟,指控蘋果在未經許可、同意或支付報酬的情況下,非法使用受著作權保護的書籍來訓練其AI系統。這項訴訟聲稱,蘋果利用了一個名為Books3資料集的數據庫,其中包含近**20萬本盜版書籍**,用於開發其OpenELM語言模型,並可能用於其更廣泛的Apple Intelligence系統。此外,訴訟還提及蘋果的Applebot網路爬蟲可能從所謂的「影子圖書館」中獲取內容,進一步加劇了版權侵權的指控。

此次針對蘋果的法律行動,是AI公司訓練數據來源爭議日益擴大的最新案例。此前,微軟、Meta和OpenAI等公司也面臨類似訴訟,凸顯了AI創新與智慧財產權之間的緊張關係。尤其值得注意的是,就在蘋果被起訴的同時,AI公司Anthropic同意支付1.5億美元的和解金,以解決類似的著作權侵權訴訟,這為當前的法律戰局帶來了重要的參考與壓力。

AI與著作權法的交鋒:合理使用原則的核心辯論

面對日益增長的訓練數據訴訟,AI公司主要依賴「合理使用原則」(Fair Use Doctrine)作為其法律辯護的核心。這項原則源於美國著作權法第107條,允許在特定情況下,未經授權有限度地使用受著作權保護的材料。根據美國著作權局的解釋,判斷是否構成合理使用,需考量四個法定因素:使用目的和性質(包括商業或非商業性質以及是否具備「轉化性」)、著作權作品的性質、所使用部分的數量和實質性,以及對原作品潛在市場或價值的影響。

AI公司主張,其訓練過程符合合理使用的標準,因為機器學習演算法在處理書籍、文章等創意作品時,並非直接複製內容,而是提取統計模式和關係。這種過程將原作品「轉化」為能夠生成新穎輸出的訓練模型,因此創造了具有新目的或性質的「轉化性」新作品,並未與原作品構成市場替代。過去的判例,如Google圖書的搜尋索引、圖片搜尋結果的縮圖顯示,以及為了互操作性而進行的逆向工程,都曾被法院認定為轉化性使用。這些案例表明,即使是大量複製,如果作為實現轉化性最終產品的中間步驟,也可能被視為合理使用。AI訓練被認為類似於搜尋引擎為索引網頁而臨時複製內容,最終模型包含的是習得的關係,而非儲存的副本。

近期判例解析:法院如何界定AI訓練的合理邊界

2025年期間,美國法院對AI訓練與合理使用的判決提供了部分清晰度。聯邦地方法院的裁決指出,某些AI訓練實踐可能符合合理使用保護,但每個案件都需依據其具體事實和情況進行判斷。這些裁決的關鍵在於,AI訓練過程是否產生了足夠的「轉化性」使用,以及是否對原作品市場造成損害。法律分析主要關注AI訓練是否與傳統複製有實質性差異,因為最終模型是基於習得的模式生成新內容,而非直接複製原作品。

例如,2025年6月,北加州兩位聯邦地方法官為AI公司帶來了重要勝利。6月23日,法官威廉·阿爾蘇普(William Alsup)在《Bartz v. Anthropic PBC》案中裁定,使用受著作權保護的書籍訓練AI模型構成著作權法下的「合理使用」,稱該過程「極具轉化性」。法院認為Anthropic的AI模型並未複製原始作品的創意元素供大眾消費。然而,阿爾蘇普法官劃出了一條關鍵界線:儘管合法獲取書籍進行訓練是合理使用,但Anthropic使用盜版副本創建數位圖書館則不受到保護,將進入審判階段。僅兩天後,法官文斯·查布里亞(Vince Chhabria)在《Kadrey v. Meta Platforms》案中也得出類似結論,裁定Meta使用來自影子圖書館的受著作權保護書籍訓練其大型語言模型(LLMs)亦屬合理使用。不過,查布里亞法官對潛在的市場損害表達了更多擔憂,他指出LLMs能迅速創造「數百萬件次級作品」,可能導致市場稀釋。法律專家認為,這些判決高度依賴於具體事實,特別是AI系統是否能實質性地複製與原作品相似的內容。

市場影響與創新權衡:出版業的擔憂與科技界的視角

合理使用分析的第四個因素,即對原作品市場損害的影響,在AI著作權爭議中扮演著核心角色。美國著作權局解釋,此因素考量未經授權的使用對著作權作品潛在市場的影響。AI公司辯稱,其模型所服務的目的是不同於原始訓練材料的,這可能降低了市場損害的擔憂。當用戶與ChatGPT或Claude等AI系統互動時,他們通常尋求的是AI生成的回答、創意輔助或分析洞察,而非直接獲取特定的著作權書籍或文章。AI的輸出,儘管資訊來自訓練數據,但代表著一種不同的產品類別,可能不會直接取代傳統的出版市場,儘管這仍是持續法律辯論的主題。

然而,作者團體、出版商和其他內容創作者則堅稱,AI訓練代表著對智慧財產權的大規模商業利用,且未經適當授權或補償。他們認為AI訓練的規模和商業性質,使其與早期的合理使用案例有所區別。權利人主張,AI公司應為其用於訓練的著作權作品協商許可協議,無論其聲稱的轉化性目的為何。他們指出,許多AI系統由高度營利的企業開發,這些公司有能力補償創作者,而合理使用不應成為新技術商業利用的藉口。出版商也表達了對市場替代的擔憂,認為經過其內容訓練的AI系統最終可能與原作品競爭或取代需求,擔心AI模型可能生成足夠相似的內容,從而損害創作者的市場而不提供任何直接補償。蘋果公司曾公開表示其努力以道德方式訓練AI模型,包括向出版商提供數百萬美元以獲取出版物數據,並於2024年與Shutterstock簽署協議許可數百萬張圖片用於訓練,同時也表示會遵守robots.txt的限制。

法律前景展望:AI訓練數據版權的未來走向

隨著法院持續處理這些複雜問題,合理使用原則的靈活性,將有助於平衡智慧財產權法中相互競爭的利益。傳統的四因素分析框架,為評估AI訓練實踐提供了結構,同時考量了創新效益和創作者保護。未來的法院判決將可能為AI訓練實踐和產業準則建立更清晰的界線。

圍繞AI著作權和合理使用的持續法律訴訟,將影響人工智慧如何發展並融入社會。這些案例正在建立的先例,不僅會影響現有的AI公司,也將對未來的轉化性技術產生影響。訴訟結果可能會決定AI發展是否以當前速度持續推進,抑或面臨可能改變該行業發展軌跡的額外法律限制。

結論

AI技術與著作權法的交會帶來了複雜的挑戰,法院正積極透過合理使用分析來解決這些問題。儘管法律格局仍在不斷演變,既有的四因素框架為評估這些新穎挑戰提供了結構。隨著訴訟的推進,關於如何在AI時代平衡技術創新與智慧財產權的更清晰指引將會逐漸浮現。