Anna's Archive Google Books Bounty

Anna's Archive Google Books Bounty

Anna's Archive offers $200,000 for Google Books data

Anna's Archive는 Google Books의 전체 도서 스캔본 세트 또는 이와 유사한 규모의 컬렉션, 특히 희귀 서적을 보유한 AI 기업들이 보유한 데이터를 제공할 수 있는 모든 이에게 200,000달러의 현상금을 제공합니다. 이 현상금은 현재 검색 스니펫을 통해서만 접근 가능한 데이터를 대상으로 하며, 이러한 스캔된 저작물을 공공의 아카이브 상태로 전환하는 것을 목표로 합니다.

Bounty Terms and Tiers

현상금은 시작 이후 규모와 범위가 진화해 왔으며, 몇 달에 걸쳐 보상이 $10,000에서 $200,000로 증가했습니다. 현재 조건은 다음과 같습니다:

  • Full Scans: $200,000를 위한 전체 스캔 컬렉션.
  • OCR Text Only: Anna's Archive는 이미지를 제외한 OCR 처리된 텍스트만 제공할 경우 현상금의 절반($100,000)을 지급할 의사가 있습니다.
  • Alternative Sources: 현상금은 희귀 서적을 포함하는 유사한 규모의 다른 대규모 컬렉션에도 적용됩니다.

Data Scale and Technical Challenges

현상금 이슈 트래커 내의 기술적 논의는 요청된 데이터의 엄청난 규모를 강조합니다. 한 기여자는 저작권이 있는 자료를 포함한 전체 아카이브가 약 1.5 petabytes(IUPUI 사이트의 복제본을 고려할 때)이며, 퍼블릭 도메인 및 저자 출시 자료는 약 300 terabytes에 달한다고 언급했습니다.

잠재적 기여자는 다음과 같은 몇 가지 획득 방법론을 제안했습니다:

  • Internal Access: 현상금은 데이터에 접근할 수 있는 Google 직원을 대상으로 컬렉션을 "sneak out"하도록 명시적으로 권유합니다.
  • Scalable Scraping: 프로젝트는 지원을 통해 규모를 확장할 수 있는 스크래핑 방법론의 프로토타입을 환영합니다.
  • Third-Party Access: 제안된 방법에는 대학 파트너를 활용하거나 Play Store를 통한 Google Takeout 기능을 활용하는 것이 포함됩니다.

Broader Archival Bounties

Google Books 프로젝트 외에도, Anna's Archive는 라이브러리를 확장하기 위해 다음과 같은 다른 활성 현상금 프로그램을 운영하고 있습니다:

  • Internet Archive Digital Lending: PDF 파일 100만 개당 $5,000.
  • Text version of full library: $20,000.
  • Library of Congress MARC datasets: $3,000.
  • English Wikipedia pages for relevant institutions: 새로운 페이지당 최대 $100.

Community Perspectives and Ethical Debate

이 발표는 디지털 피라시(piracy)와 AI 학습 사이의 윤리적 논쟁을 불러일으켰습니다.

일부 사용자들은 아카이브를 접근성을 위한 필수적인 자원으로 보고 있으며, 한 사용자는 다음과 같이 말했습니다:

I live in a country where the selection of available books, especially in English, is very limited... If it were not for Anna's Archive and Z-Library, I would've never been able to read the books that shaped who I am today.

다른 이들은 이러한 노력이 출판 산업과 저작물을 만드는 저자들에게 해를 끼친다고 주장합니다:

Between all the piracy, and all the AI training... the practice of writing and publishing genuinely good work is being wiped out. We're killing the goose that lays the eggs, for selfish gain.

또한 이러한 고액 현상금의 자금 조달 방식에 대해서도 추측이 제기되고 있습니다. 일부 커뮤니티 구성원들은 멤버십 기반의 FOSS 프로젝트가 어떻게 6자리 숫자의 지급액을 감당할 수 있는지 의문을 제기하고 있습니다.

Sources