Anna's Archive Google Books Bounty
Anna's Archive Google Books Bounty
Anna's Archive 提供 200,000 美元獎金以獲取 Google Books 數據
Anna's Archive 提供 200,000 美元的獎金,給予任何能提供 Google Books 完整書籍掃描集或規模相似的收藏,特別是那些由 AI 公司持有且包含稀有書籍的收藏。此獎金針對目前僅能透過搜尋片段(search snippets)獲取的數據,旨在將這些掃描作品移至公開的存檔狀態。
獎金條款與等級
自成立以來,獎金的規模與範圍不斷演進,獎金金額在幾個月內從 10,000 美元增加到 200,000 美元。目前的條款包括:
- Full Scans: $200,000 用於獲取完整的掃描集。
- OCR Text Only: Anna's Archive 願意為僅提供 OCR 文本而無附帶圖像的數據支付獎金的一半($100,000)。
- Alternative Sources: 獎金也適用於其他規模相似的大型收藏,特別是包含稀有書籍的收藏。
數據規模與技術挑戰
獎金議題追蹤器(issue tracker)中的技術討論突顯了所請求數據的龐大規模。一位貢獻者指出,整個存檔(包括受版權保護的材料)大約為 1.5 petabytes(考慮到 IUPUI 站點的複製),而公有領域和作者釋出的材料約佔 300 terabytes。
潛在的貢獻者已建議了幾種獲取方法,包括:
- Internal Access: 獎金明確邀請擁有數據存取權限的 Google 員工「偷出」該收藏。
- Scalable Scraping: 該專案對可透過其協助進行擴展的爬蟲方法原型開放。
- Third-Party Access: 建議包括利用大學合作夥伴或透過 Play Store 使用 Google Takeout 功能。
更廣泛的存檔獎金
除了 Google Books 專案之外,Anna's Archive 還維持著其他幾項活躍的獎金,以擴大其圖書館:
- Internet Archive Digital Lending: 每 100 萬個 PDF 檔案支付 $5,000。
- Text version of full library: $20,000。
- Library of Congress MARC datasets: $3,000。
- English Wikipedia pages for relevant institutions: 每新增一個頁面最高可達 $100。
社群觀點與倫理辯論
此公告在使用者與觀察者之間引發了關於數位盜版與 AI 訓練倫理的重大辯論。
部分使用者將該存檔視為獲取資源的重要資源,一位使用者表示:
I live in a country where the selection of available books, especially in English, is very limited... If it were not for Anna's Archive and Z-Library, I would've never been able to read the books that shaped who I am today.
其他人則認為,此類行為會損害出版業與創作作品的作者:
Between all the piracy, and all the AI training... the practice of writing and publishing genuinely good work is being wiped out. We're killing the goose that lays the eggs, for selfish gain.
對於這些高額獎金的資金來源也存在推測,部分社群成員質疑一個由會員資助的 FOSS 專案如何能負擔得起六位數的支出。