reader

reader: 무엇이며, 어떤 문제를 해결하고 왜 주목받고 있는가

해결하는 문제

Reader는 고품질의 깨끗하고 구조화된 데이터를 대형 언어 모델(LLM)에 공급하는 문제를 해결합니다. 대부분의 웹 콘텐츠는 HTML, CSS, JavaScript 로 가득 차 있어 불필요한 토큰을 소모하고 모델을 혼란스럽게 만들 수 있습니다. Reader는 복잡한 웹 페이지, PDF, 오피스 문서를 LLM 친화적인 Markdown 또는 텍스트로 변환하고, 단순 스니펫이 아닌 실제 상위 결과의 전체 내용을 검색하고 가져오는 방법을 제공합니다.

작동 방식

Reader는 두 가지 주요 엔드포인트를 통해 동작합니다:

  • Read (r.jina.ai): 제공된 URL을 깨끗한 형식으로 변환합니다. JavaScript‑무거운 싱글 페이지 애플리케이션(SPA)을 처리하기 위해 가벼운 curl 엔진과 헤드리스 Chrome 브라우저(Puppeteer)를 지능적으로 전환합니다. PDF는 PDF.js를, MS Office 문서는 LibreOffice를 통해 처리할 수 있습니다.
  • Search (s.jina.ai): 쿼리에 대해 웹 검색을 수행하고 상위 5개 결과를 가져온 뒤, 각각에 읽기 로직을 자동 적용해 해당 페이지의 전체 내용을 반환합니다.

또한 Vision‑Language Model(VLM)을 사용해 대체 텍스트가 없는 이미지에 캡션을 생성함으로써 텍스트 전용 LLM이 시각 요소에 대한 컨텍스트를 확보하도록 합니다.

대상 사용자

  • AI 에이전트 개발자: 브라우저 렌더링이나 봇 차단을 관리하지 않고도 에이전트가 웹을 탐색하고 의미 있는 콘텐츠를 추출하도록 필요로 하는 경우.
  • RAG 시스템 설계자: 다양한 웹 소스(URL, PDF, Office 문서)를 텍스트로 변환해 의미론적 인덱싱에 사용할 수 있는 깨끗하고 일관된 파이프라인이 필요한 경우.
  • LLM 애플리케이션 개발자: 간단한 API만으로 실시간 웹 지식을 모델에 쉽게 통합하고자 하는 경우.

주요 특징

  • 다중 포맷 지원: 웹 페이지, PDF, Word, Excel, PowerPoint 파일을 처리합니다.
  • VLM 이미지 캡셔닝: 텍스트 기반 LLM을 위해 이미지를 자동으로 설명합니다.
  • 광범위한 제어: 출력 형식(Markdown, HTML, JSON), 캐싱, 타임아웃, 의미론적 청킹 등을 제어할 수 있는 세밀한 요청 헤더를 제공합니다.
  • Search-to-Content: 일반 검색 API가 스니펫만 반환하는 반면, 상위 검색 결과의 전체 렌더링된 콘텐츠를 반환합니다.
  • 셀프 호스팅 가능: 무상태 또는 S3 캐시 배포를 위한 Docker 이미지 형태로 제공됩니다.

Sources