reader

reader:它是什么、解决了什么问题以及为何受到关注

它解决了什么

Reader 解决了向大语言模型(LLM)输入高质量、干净且结构化数据的问题。大多数网页内容都混杂着 HTML、CSS 和 JavaScript,这会消耗不必要的 token 并可能让模型困惑。Reader 将复杂的网页、PDF 和 Office 文档转换为适合 LLM 使用的 Markdown 或纯文本,并提供一种方式来搜索网络,获取搜索结果的实际内容,而不仅仅是摘要。

工作原理

Reader 通过两个主要端点运行:

  • Read (r.jina.ai):将提供的 URL 转换为干净的格式。它会智能地在轻量级 curl 引擎和无头 Chrome 浏览器(通过 Puppeteer)之间切换,以处理 JavaScript 较重的单页应用(SPA)。它还能使用 PDF.js 处理 PDF,使用 LibreOffice 处理 MS Office 文档。
  • Search (s.jina.ai):对查询执行网络搜索,获取前 5 条结果,并自动对每个结果应用读取逻辑,返回这些页面的完整内容。

它还使用视觉语言模型(VLM)为缺少 alt 文本的图片生成标题,确保仅文本的 LLM 能获得视觉元素的上下文。

适用人群

  • AI 代理开发者:需要让代理浏览网页并提取有价值内容,而无需处理浏览器渲染或防机器人拦截。
  • RAG 系统架构师:需要一个干净、一致的管道,将多样的网络来源(URL、PDF、Office 文档)转换为文本,以便进行语义索引。
  • LLM 应用开发者:希望通过简单的 API 将实时网络知识轻松集成到模型中。

亮点

  • 多格式支持:处理网页、PDF、Word、Excel 和 PowerPoint 文件。
  • VLM 图像字幕:自动为基于文本的 LLM 描述图片。
  • 丰富的控制选项:提供细粒度的请求头,以控制输出格式(Markdown、HTML、JSON)、缓存、超时和语义分块。
  • 搜索即内容:不同于返回摘要的标准搜索 API,返回搜索结果页面的完整渲染内容。
  • 可自托管:提供 Docker 镜像,可用于无状态或 S3 缓存的部署。

Sources