reader
reader: それが何であるか、どんな問題を解決するか、そしてなぜ注目を集めているのか
解決する課題
Reader は、Large Language Models(LLMs)に高品質でクリーン、かつ構造化されたデータを供給するという課題を解決します。ほとんどのウェブコンテンツは HTML、CSS、JavaScript が混在しており、不要なトークンを消費したりモデルを混乱させたりします。Reader は複雑なウェブページ、PDF、オフィス文書を LLM フレンドリーな Markdown またはテキストに変換し、スニペットだけでなく実際のコンテンツを取得できる検索機能も提供します。
仕組み
Reader は主に 2 つのエンドポイントで動作します。
- Read (
r.jina.ai): 指定された URL をクリーンな形式に変換します。軽量なcurlエンジンと、JavaScript が多用されたシングルページアプリケーション(SPA)を処理できるヘッドレス Chrome(Puppeteer 経由)を賢く切り替えます。PDF は PDF.js、Microsoft Office 文書は LibreOffice を使って処理できます。 - Search (
s.jina.ai): クエリに対してウェブ検索を実行し、上位 5 件の結果を取得し、各ページに対して自動的に読み取りロジックを適用して全文コンテンツを返します。
また、Vision‑Language Models(VLM)を利用して alt テキストがない画像にキャプションを生成し、テキストのみの LLM が視覚要素の文脈を把握できるようにします。
対象ユーザー
- AI エージェント開発者: ブラウザのレンダリングやボットブロックの管理なしに、エージェントがウェブを閲覧し有意義なコンテンツを抽出できるようにしたい方。
- RAG システムアーキテクト: URL、PDF、Office 文書など多様なウェブソースをテキストに変換し、セマンティックインデックス化のためのクリーンで一貫したパイプラインが必要な方。
- LLM アプリケーション開発者: シンプルな API でリアルタイムのウェブ知識をモデルに容易に統合したい方。
ハイライト
- マルチフォーマット対応: ウェブページ、PDF、Word、Excel、PowerPoint ファイルを処理。
- VLM 画像キャプショニング: テキストベースの LLM 用に画像を自動的に説明。
- 高度な制御: 出力形式(Markdown、HTML、JSON)、キャッシュ、タイムアウト、セマンティックチャンク化を細かく指定できるリクエストヘッダーを提供。
- Search-to-Content: 通常の検索 API がスニペットを返すのに対し、上位検索結果の完全にレンダリングされたコンテンツを返す。
- セルフホスト可能: ステートレスまたは S3 キャッシュ型デプロイ向けに Docker イメージとして提供。
Sources
- undefinedjina-ai/reader