reader
reader:它是什麼、解決了什麼問題以及為何受到關注
它解決了什麼
Reader 解決了將高品質、乾淨且結構化的資料餵入大型語言模型(LLM)的問題。大多數網頁內容充斥著 HTML、CSS 與 JavaScript,會消耗不必要的 token,甚至讓模型感到困惑。Reader 能將複雜的網頁、PDF 與 Office 文件轉換成適合 LLM 使用的 Markdown 或純文字,並提供搜尋網路的功能,直接取得前幾名結果的完整內容,而非僅僅是摘要片段。
工作原理
Reader 透過兩個主要端點運作:
- Read (
r.jina.ai):將提供的 URL 轉換為乾淨的格式。它會智慧地在輕量的curl引擎與無頭 Chrome 瀏覽器(透過 Puppeteer)之間切換,以處理大量 JavaScript 的單頁應用程式(SPA)。同時支援使用 PDF.js 解析 PDF,並透過 LibreOffice 處理 Microsoft Office 文件。 - Search (
s.jina.ai):對查詢執行網路搜尋,取得前 5 個結果,並自動對每個結果套用閱讀邏輯,回傳這些頁面的完整內容。
它也會使用視覺語言模型(VLM)為缺少 alt-text 的圖片產生說明文字,確保純文字 LLM 能取得視覺元素的上下文。
目標使用者
- AI 代理開發者:需要讓代理程式瀏覽網路並擷取有意義的內容,卻不想處理瀏覽器渲染或防機器人機制。
- RAG 系統架構師:需要一條乾淨且一致的管線,將多樣的網路來源(URL、PDF、Office 文件)轉換成文字,以供語意索引使用。
- LLM 應用開發者:想要透過簡單的 API,輕鬆將即時的網路知識整合到模型中。
重點特色
- 多格式支援:支援網頁、PDF、Word、Excel 與 PowerPoint 檔案。
- VLM 圖片說明:自動為文字型 LLM 描述圖片內容。
- 廣泛控制:提供細緻的請求標頭,可控制輸出格式(Markdown、HTML、JSON)、快取、逾時與語意分塊。
- 搜尋即內容:不同於一般只回傳摘要的搜尋 API,Reader 會回傳搜尋結果頁面的完整渲染內容。
- 可自行部署:提供 Docker 映像檔,可於無狀態或使用 S3 快取的環境中部署。
摘要: Reader 是一個將 URL、PDF 與 Office 文件轉換為適合 LLM 使用的 Markdown,並提供能回傳完整頁面內容而非僅摘要的網路搜尋功能的工具。
標題: reader:它是什麼、解決了什麼問題以及為何受到關注
Sources
- undefinedjina-ai/reader