我用盜版書訓練人工智能 - 社會資訊(文采家)

作者｜袁榭

原創首發｜藍字計劃

全文字數｜約6000

3月6日，由Meta的AI部門前雇員組成的AI模型評估公司Patronus AI發布了名爲CopyrightCatcher（版權捕手）的API，用于檢測大語言模型中的版權數據內容比例。

在公開的版本中，CopyrightCatcher選用了受美國版權保護的書籍作爲“題庫”，並從編目網站Goodreads中選擇流行的書籍來測試。研究人員設計了100種不同的文本提示，讓模型以續寫或輸出第一頁的方式回應。

結果是，OpenAI的GPT-4表現最差，在44%的提示詞上生成了受版權保護的內容，微軟新投資的Mixtral爲22%。由OpenAI前員工創立、標榜負責任AI的Anthropic公司出品的Claude 2爲8%，Meta的Llama-2爲10%。

一個專戳人短處的行業公敵誕生了。

在AI頭部大廠們版權官司纏身的當下，Patronus AI此舉可以算是給版權方們“遞刀子”。

訓練數據是AI的食糧。從ChatGPT奇迹開始，訓練數據來源的法律糾紛就始終相伴，在可見的未來還會繼續糾纏下去，成爲當下AI技術注定的無解難題。

從人工智障到AI女友的秘密

早在生成式AI技術奠基時，無論泰鬥還是普通研究生，無人會對訓練數據來源的版權有擔憂。因爲當時需要的訓練數據集體量相比現在實在太小了，從無版權的公有領域尋找、手動收集就夠用，規避風險幾乎沒難度。

10年前，業內常用的AI文本訓練數據集包括2003年安然醜聞裏作爲呈堂證供的安達信會計事務所所有電郵、截至2013年所有英語國家數字版政府公開文書。業內常用的圖像訓練數據集是有6萬張手寫黑白數字圖像的1999年MNIST集，6萬張各種貓、青蛙、飛機圖像的CIFAR-10集，1.1萬張鳥類圖像的加州理工學院數據集等等。

這等規模的數據集，現在供本科生寫畢業論文的實驗都不大夠用了。

2012年，AI界泰鬥辛頓（Geoffrey Hinton）和學生克裏澤夫斯基（Alex Krizhevsky）、薩茨克維爾（Ilya Suskever）的神經網絡模型AlexNet，奪得ImageNet圖像分類競賽冠軍，成爲AI技術飛躍的奇點。

AlexNet的成功不僅拉開了英偉達GPU跑大模型的序幕，也是訓練數據集體量飛躍的起點：背後支撐它的，有華人科學家李飛飛制作的、包含1400萬張圖像的訓練數據集。

（詳細報道可點擊閱讀藍字計劃文章：英偉達悄然壟斷算力：人工智能背後的新帝國）

從此開始，“縮放”（Scaling）對大模型性能的影響開始浮現：即使基礎算法沒有徹底革新，只要在訓練數據量、參數規模上有數量級程度的擴張，它在測試數據上的損失（在訓練後對新輸入提示的預測與正確答案之間的差異）會非常顯著地劇減，帶來了大模型能力顯著提升。

此“神經縮放定律”在ChatGPT奇迹上體現得尤爲顯著：按照OpenAI研發團隊的論文，GPT-2用了40GB文本的數據集訓練。GPT-3在570GB數據上進行訓練。OpenAI至今尚未直接透露作爲GPT-3.5的ChatGPT以及GPT-4的訓練數據集有多大，但業內的可靠估計是13TB。

｜論文中關于“神經縮放定律”的呈現：訓練數據規模指數級增加，最小損失值就顯著減少

訓練數據的暴增，給GPT系列大模型帶來的功能改善，最直觀的對比是2018年GPT-2生成的情人節情話還前言不搭後語，2024年可以陪單身男性談戀愛的AI女友應用已成了GPT應用商店最熱門類。

AI也被告知，不會就選C

大體量訓練數據集一旦成爲行業共識，整個人類互聯網産生的數據就不大夠用。

早先，研究者還能手動搜集公有數據。後來，大廠用爬蟲扒全網的數據。

還沒捅到版權的馬蜂窩，先把羊毛薅禿了：參差多態的創意數據有限，大廠們扒來的大同小異，生成式AI大模型産品的“幻覺”有一半源于此弊。

以最基礎的大語言模型（LLM，Large Lauguage Model，簡稱大模型）最簡單訓練爲例：給AI一個缺字的單句，然後讓大模型根據訓練數據集和參數來補全。

此時負責回答的算法會識別單句和訓練數據集裏哪些文本長得像、長得有多像，此時就會得出此句該憑數據集哪部分琢磨答案，然後再按照相似程度給出空缺處所有可能答案。最後算法會基于參數在這些可能答案裏，選“長得最像”、最有機會正確的答案輸出。

訓練起始時大模型一般選不准答案，負責檢驗的算法就會給出一個“損失值”，即“模型認爲最可能”答案與真實正確答案有多大差別的“距離值”，碼農用這個值來對參數進行微調。之後再跑一邊同樣流程，模型生成的答案會離正確答案更近。

如此訓練，過程從缺字單句直到整段整篇的問句，模型的答案也從填缺字直到成篇文章。如果訓練數據集有過十億文本詞元（token，有意義的語義最小單元），模型跑完整個庫之後答案就勉強像樣。

如果訓練數據集包含全互聯網所有能薅到的文本詞元，模型最後訓練好讓用戶使，吐出的答案就會特別像機器通靈感悟、口吐人言。

這是不是很像教一個沒學會課程的中國學生突擊應試：背下解題步驟，原理不重要。現在的AI大模型就是這樣，不管生成的結果是文本、藥物分子式、圖片、視頻，概莫能外。

｜AI論文與模型的訓練數據規模，從1955年的10的2次方，漲到2022年的10的13次方

要真正在推理層面上學通，那是馬斯克們天天吹的AGI（通用人工智能），面世時間恐怕比賈躍亭回國時間還晚。

如此一來，訓練數據集的規模自然與AI大模型的性能表現正相關，正如高三學生做一米厚模擬卷和做半米厚模擬卷的效果也是顯著不同的。

用十多年前谷歌研究總監彼得·諾維格的名言來說，這就是“我們並沒有更好的算法，我們只是有更多的數據。”或者用老港片的片名來說，這叫《大塊頭有大智慧》。

若訓練數據集不夠用，或者沾染了不必要的數據，大模型“幻覺”就會出現。就像一個平庸做題家，AI大模型本身只會“選最像的填”、“不會就選C”，搞笑錯誤自然不少。

“文心一言”剛面世時，輸入“總線”卻生成“公交車”圖片，很大概率應該是因爲産品工期太趕、訓練和調參不夠細，所以依靠現成英文訓練數據集的模型分不出“bus”到底是總線還是公交車。

類似的事故也出現在其他大廠的大模型産品中。2023年12月問世的谷歌大模型Gemini，用中文提示詞詢問時，會答自己是文心大模型、自己創始人是李彥宏。考慮到Gemini想抄“文心一言”不見得有門路，八成也是因爲趕工出貨、調參沒捋好訓練數據，“無法可靠地處理一些非英語查詢”。

AI也怕近親繁殖

既然訓練數據的規模如此重要，那直接用AI生成數據去訓練下遊AI，不行麽？

不行，這樣會把模型搞殘。

2023年2月，美國華裔科幻文學家特德·姜表示，ChatGPT等大語言模型，實質是對互聯網語料庫的有損模糊壓縮。用大語言模型生成的文本來訓練新的模型，如同反複以JPEG格式存儲同一原始高清圖片，每次都會丟失更多的信息，最終成品質量只會越來越差。

2023年6月中旬，多家高校的AI研究者聯合發布論文《遞歸之詛咒：用生成數據訓練會使模型遺忘》，用實驗結果證明了特德·姜的預言。

用AI生成數據訓練新的AI，會導致訓練出的模型出現不可逆轉的缺陷，即使模型最初的基礎架構原始數據來自真實世界。研究者們將這一新模型的退化過程與結果稱爲“模型崩潰”。

按論文所述，不管受訓的新模型功能是以文字生成文字還是以圖片生成圖片，只要使用其他模型生成的內容來訓練，這個過程是不可避免的，即使模型處在近乎理想狀態的長時間學習條件亦如此。

而AI生成數據中的錯誤會極快沉澱，最終導致從生成數據中學習的模型進一步錯誤地感知現實。

“模型崩潰”分爲早期與晚期兩種。在早期時，被餵生成數據的AI模型會開始失去原初數據分布的信息；在晚期，被餵生成數據的AI模型會吐出完全不符合現實、不相關原初底層數據的結果。

“模型崩潰”後的AI還極其固執，錯誤會千篇一律且難以矯正，模型將持續甚至強化將錯誤結果認爲是正確的結論，即使調參也改不過來。

因爲用AI生成內容來訓練AI的話，無可避免就會踩進“統計近似值偏差”的坑裏。

正如AI泰鬥“楊立昆”（Yann LeCun）成天譏嘲的那樣，現在的AI大模型本質是“金剛鹦鹉”、“高端差分統計學程序”，所以天然過于偏重大概率的通常值，和過于忽視小概率的非常值，這叫“近似值擬合”。

這些模型生成的結果持續用來再訓練新模型，數據的多樣性會越來越小、符合豐富真實的正確度會越來越有限、“近似值擬合”會越來越嚴重。

就像人教鹦鹉複讀，鹦鹉能學會模擬“恭喜發財”的音調。然而讓學成的鹦鹉教另外的鹦鹉複讀“恭喜發財”、再讓鹦鹉徒弟教鹦鹉徒孫複讀，最後只會收獲鳥叫聒噪。

|論文中“模型崩潰”過程的示意圖

或者用論文作者之一羅斯·安德森（Ross Anderson）的話說，這就如同用莫紮特作品來訓練AI，結果會得出一個風格類似莫紮特但缺乏靈氣的“薩列裏”模型（薩列裏是意大利作曲家，非常嫉妒莫紮特）。再用“薩列裏”模型的作品訓練新的模型，如此反複五六次後，最終模型的音樂作品既不會有莫紮特的風格也不會有莫紮特的靈光。

在羅斯·安德森的個人博客中，有人評論這是熱力學中的熵、生物學中的近親繁殖退化，在AI界的複現。

版權律師首先聞到血腥味

真實人類生産的數據對AI模型是不可或缺的。就算是弱智吧的段子，做好了標記分類和去重，也有相當價值。

羅斯·安德森刻薄地說，在海洋布滿不可降解塑料垃圾、空氣裏充滿二氧化碳排放物後，互聯網以後也會被AI大模型生成的低質量結果汙染。反過來說，真實人類創造的數據如同潔淨的空氣與飲水，是日後生成式AI必須依賴的維生補給。

按照權威分析機構和咨詢公司的說法，在2027年，全世界互聯網數據量將達到291ZB（1ZB等于十萬億TB），2026年AI就將産出全世界互聯網數據量的10%。而2023年這個大廠們紛紛推出大模型的生成式AI元年，AI産出互聯網數據的比例是1%。

如果1%的AI生成數據混在訓練數據集裏，就能讓谷歌的大模型說自己創始人是李彥宏。那比例漲到10%時將會出現什麽，簡直不敢想。圍繞真實人類數據知識産權和可持續來源的鬥爭，在AI熱潮中越發凸顯。

｜咨詢機構預估AI訓練數據的市場份額將在十年間從20.9億美元上升到98.9億美元

在這場鬥爭中，最先出擊的倒不是大廠們，是聞風而動的版權律師們。

2024年1月12日，美國加利福尼亞州法院駁回了包括喜劇演員莎拉·西爾弗曼在內的幾位創作者對 OpenAI 提起的版權訴訟大部分指控，他們指控OpenAI的ChatGPT盜版了他們的視頻作品。訴訟提出了六項侵權指控並索賠。而法院駁回了除直接侵犯版權之外的所有指控。

這個訴訟是2023年8月中旬提出的，代理這些創作者的是美國律師事務所Joseph Saveri 律師事務所。

同一個律所，在2022年11月代理了對OpenAI出品的GitHub Copilot的代碼版權集體訴訟，2023年1月代理了美國藝術家對Stability AI、Midjourney和DeviantArt等圖片生成AI企業領頭羊的圖像版權集體訴訟，這個訴訟在一年後附加了一份證據：1.6萬名英國與美國藝術家聯署的支持訟由名單。

當然，按這個律所2023年7月自己的媒體公關稿，是因爲ChatGPT和LLaMA這些大模型是“工業級剽竊犯”、創作者和出版商們苦于大廠侵權而聲索無門，律師們才仗義出手。

對OpenAI的訓練數據集的書籍版權訴訟，大都基于OpenAI還開源GPT系列模型集合時的兩篇論文。

2018年介紹GPT-1的論文稱訓練數據中有包含7千本圖書的BookCorpus子集。2020年介紹GPT-3的論文稱訓練數據中15%是Books1和Books2兩個“源于網絡的書籍集合”，數據量分別是BookCorpus的9倍和42倍。

起訴方一般會基于這些論文，稱BookCorpus的來源本身就是從自發行小說網站Smashwords上薅來的，且按體量推斷，Books1應該包含6.3萬本書籍、Books2應該包含29.4萬本書籍，網上版權公開合法來源的書籍絕無此數，其中一定包含盜版電子書。GPT系列模型能生成出與原告們風格相仿的內容，定是抄襲。

然而OpenAI的律師可沒這麽好拿捏。Smashwords本是免費網文站，所以BookCorpus的侵權索償很難走通。而Books1、Books2兩個子訓練集沒有如BookCorpus提供給其他企業，ChatGPT之後的産品也沒有開源，拿“應包含”、“一定有”這種難以坐實的揣測就想當證據，于法于理都容易駁回。

失業宅男給全世界埋下的雷

不過，大廠們還是有無可抵賴的使用盜版把柄能讓集體訴訟者們拿捏的。

這些把柄裏最出名的，莫過于業內著名的Books3數據集。

2020年，一群AI發燒友們讀了OpenAI的GPT-3論文後，在線上聊天群裏整天唠一個話題：咱們能否自己手動搞一個差不多的東西出來？

其中一個名爲肖恩·普雷瑟的技術宅男表示，就算OpenAI錢多又領先，咱們自行做類似模型的阻礙也不見得就更多。當年夏天，他們著手開始操作項目，討論如何從零開始攢出足夠的訓練數據來。

普雷瑟負責的是文本訓練數據這塊，他也認爲OpenAI肯定使用了線上盜版電子書站的資源。大廠做得，我做不得？于是當時無業的他，把有限的生活熱情全部投入了攢文本訓練數據的無限事業中。

普雷瑟以典型的失業獨居宅男生活方式來操作項目：起居無節、飲食無度，睡醒了穿上衣物就扒盜版電子書、做標記、做去重，做到天昏地暗時直接在電腦前、沙發上眯過去。

經過如此天昏地暗的一兩個星期後，普雷瑟收獲了完工的文本數據集和嗜睡症診斷書。此數據集體積37GB，內含196640本書籍內容，做好了標記、去重、全部轉化成TXT文本格式。鑒于OpenAI把文本訓練數據子集稱爲Books1和Books2，普雷瑟把自己的文本數據集命名爲Books3。

包含了Books3數據集的AI訓練數據集“大堆”（The Pile），于2020年秋上線。因爲制作質量好、使用方便，此數據集在業界內迅速風靡。

|“大堆”（The Pile）各個數據來源的占比，Bibliotik部分就是最惹事的Books3數據集

然而Books3這個美國中西部無業宅男傾注心血的項目，不僅方便了全世界AI從業者，也爲全世界版權律師們提供了利器：如果OpenAI的Books1、Books2坐不實用了盜版，全用網上“影子圖書館”攢成的Books3可是板上釘釘跑不掉的。

但凡看到起訴大模型訓練數據集侵犯版權的新聞裏出現“196640本書籍”這個字眼，就是某大廠又因爲用Books3訓練模型被人告了。

這個被起訴隊列中最新一家是英偉達。3月10日，英偉達公司在美國舊金山被三名作家起訴，他們稱該公司未經許可使用了他們的受版權保護的書籍來訓練其AI模型 NeMo。原告們稱他們的作品是“包含196640本書的數據集”的一部分，這些書籍幫助訓練 NeMo 模擬普通書面語言，直到2023年10月份才被刪除。

原告表示刪除行爲表明英偉達知道侵權的存在，所以要讓英偉達爲過去三年使用版權作品訓練大模型支付賠償金。

因爲版權訴訟和維權組織的四處出擊，2023年8月下旬，Books3的主要托管網站將其下線，其他網站的鏡像版本每出現就會被維權組織狙擊。

2023年9月，普雷瑟受訪時表示自己當年的確欠考慮，但制作Books3數據集沒做錯。按他的看法，沒有這種數據平等化行爲，小公司、個體研究者、普通人永遠無法自行參與大語言模型的熱潮。版權方如果要全網刪除Books3，那是他們的抉擇。不過此舉意料之中的附加效果是，生成式AI技術的版圖完全只被有錢做爬蟲兼付法務費的大公司主宰。

AI大廠：竊書能算偷？

持此觀點的法律界和科技界人士其實不少，有專精數據扒取案件的律師稱：“如果你是OpenAI或Meta，自然有資源把訴訟鬥爭糾纏到地老天荒世界末日，而規模稍小的組織就無法照此辦理。所以法律在此的模糊處，現在只有益于大玩家們。”

時勢的演變，部分佐證了這些看法。大廠們的舉止，簡直令人瞠目。

比如1月14日，Meta公開承認使用Books3數據集訓練LLAM 1和LLAM 2模型，不過反指這不是故意侵權，使用Books3數據集屬于版權法律中的“合理使用”（爲研究、教學、諷刺、評論等用途使用版權內容不屬于盜版）範疇，毋需獲得版權持有方許可，甚至不用向書籍作者們支付任何補償。

如果不認錯不給錢的Meta顯得蠻橫，那OpenAI的舉止就更厲害。

2023年的最後一周，《紐約時報》在美國起訴OpenAI和微軟侵犯版權，稱OpenAI的模型是通過使用《紐約時報》數百萬篇受版權保護的新聞文章、深度調查、觀點文章、評論、操作指南等建立起來。

OpenAI大語言模型因此可以生成逐字背誦內容、總結概括其內容並模仿其表達風格的輸出。《紐約時報》稱，這損害了“訂閱、許可、廣告和聯盟收入”，要求賠償。

而OpenAI的反擊簡直奇谲。在2月底向法院提出的駁回請求中，OpenAI表示GPT系列模型集合並非《紐約時報》訂閱服務的替代品，普通人也不會以這種方式使用ChatGPT。

除此之外，OpenAI還稱，爲了從該公司AI産品中生成與過往報紙文章內容完全匹配的回複，《紐約時報》“進行了數萬次提示詞修改嘗試，並不得不向ChatGPT提供部分文章內容”，這屬于“花錢雇黑客入侵OpenAI的産品”。

把舉世通行的“提示詞工程”說成“黑客入侵”，被告變原告，OpenAI法務部門的這口反咬令人歎爲觀止。真是應了古代（美國）人一句名言：提公事包的強盜，可比提沖鋒槍的強盜狠惡多了。

不過大廠們的霸道姿態是有緣故的。它們並非不願出錢購買版權內容，在被《紐約時報》起訴前兩周，OpenAI 宣布購買新聞出版集團斯普林格的新聞內容來訓練大型模型。1月份，OpenAI 表示，正在與數十家出版商洽談達成文章授權協議，以獲取內容來訓練其人工智能模型。不過有消息稱OpenAI出價小氣，向很多商洽對象的開價是每年給100-500萬美元。

然而在法律訴訟中認錯，是要糾正錯誤和違法行爲的。落實到AI模型的訓練數據版權訴訟上，相應的舉措就是必須刪除包含侵權內容的訓練數據集、停止使用侵權內容訓練的AI模型，甚至刪除模型。

正如2023年11月美國國家版權辦公室意圖改變AI訓練數據的版權規制時，一個投資銀行家在征求意見網頁上寫下的，“現在這是逾千億美元的大生意，改變關鍵法律要素，將會顯著擾亂業界的既有預期，進而破壞國家的經濟優勢和安全。”

簡而言之，現在AI經濟這麽火，用點盜版怎麽了，不要擋著路，擋路會天崩地裂。