Anna's Archive Google Books Bounty

Anna's Archive Google Books Bounty

Anna's Archive 提供 200,000 美元奖励金以获取 Google Books 数据

Anna's Archive 正在为任何能够提供 Google Books 完整图书扫描集或规模相似的集合(特别是那些由捕捉稀有书籍的 AI 公司所持有的集合)的人提供 200,000 美元的奖励金。该奖励金针对的是目前只能通过搜索片段访问的数据,旨在将这些扫描作品移至公共、存档状态。

奖励金条款与层级

自设立以来,奖励金的规模和范围一直在不断演变,奖励金额在几个月内从 10,000 美元增加到了 200,000 美元。目前的条款包括:

  • Full Scans: $200,000 用于获取完整的扫描集合。
  • OCR Text Only: Anna's Archive 愿意为仅有的 OCR 文本支付奖励金的一半($100,000),而不附带图像。
  • Alternative Sources: 该奖励金适用于其他规模相似的大型集合,特别是那些包含稀有书籍的集合。

数据规模与技术挑战

奖励金项目在 issue tracker 中的技术讨论突显了所请求数据的庞大规模。一位贡献者指出,整个存档库,包括受版权保护的材料,大约为 1.5 petabytes(考虑到 IUPUI 站点的复制),而公有领域和作者发布的材料大约占 300 terabytes。

潜在的贡献者已建议了几种获取方法,包括:

  • Internal Access: 该奖励金明确邀请拥有数据访问权限的 Google 员工“偷偷带出”该集合。
  • Scalable Scraping: 该项目对可以借助其协助进行规模化扩展的抓取方法原型开放。
  • Third-Party Access: 建议包括利用大学合作伙伴或通过 Play Store 使用 Google Takeout 功能。

更广泛的存档奖励金项目

除了 Google Books 项目之外,Anna's Archive 还维持着其他几个活跃的奖励金项目以扩展其图书馆:

  • Internet Archive Digital Lending: 每 100 万个 PDF 文件奖励 5,000 美元。
  • Text version of full library: $20,000。
  • Library of Congress MARC datasets: $3,000。
  • English Wikipedia pages for relevant institutions: 每新增一个页面最高奖励 100 美元。

社区观点与伦理辩论

该公告在用户和观察者之间引发了关于数字盗版与 AI 训练伦理的重大辩论。

一些用户将该存档库视为获取资源的重要资源,一位用户表示:

I live in a country where the selection of available books, especially in English, is very limited... If it were not for Anna's Archive and Z-Library, I would've never been able to read the books that shaped who I am today.

其他人则认为,此类努力会破坏出版业和创作作品的作者:

Between all the piracy, and all the AI training... the practice of writing and publishing genuinely good work is being wiped out. We're killing the goose that lays the eggs, for selfish gain.

对于这些高额奖励金的资金来源也存在猜测,一些社区成员质疑一个由会员制资助的 FOSS 项目如何能负担得起六位数的支付金额。

Sources