paper-qa

paper-qa：它是什么、解决了什么问题以及为何受到关注

它解决了什么

PaperQA2 旨在为科学文献提供高精度的检索增强生成（RAG）。它解决了从 PDF、文本文件和 Office 文档等复杂文档中提取精确、基于事实的答案的难题，确保响应包含文中引用并基于提供来源的已验证证据。

工作原理

PaperQA2 使用一种代理式 RAG 工作流，能够迭代地细化查询和答案。该过程通常分为三个阶段：

论文搜索：系统生成关键词查询以寻找候选论文，然后对论文进行切块并嵌入搜索索引。
收集证据：它嵌入用户查询，对文档块进行排名，并在查询上下文中创建这些块的加权摘要。随后 LLM 重新打分并挑选最相关的摘要。
生成答案：将最佳摘要放入提示中，生成最终的、有依据的答案。

它与 Semantic Scholar 和 Crossref 等服务集成以获取元数据，并使用 LiteLLM 兼容多种 LLM 提供商。

适用人群

该工具面向研究人员、科学家以及所有需要处理大量科学论文的人群，帮助他们进行高精度、可验证引用的问题回答、摘要生成和矛盾检测。

亮点

代理式 RAG：使用语言代理迭代细化搜索和证据收集。
多模态支持：能够使用基于模型的阅读器（如 Docling 和 Nvidia nemotron-parse）解析 PDF 中的表格、图形和数学公式。
有依据的响应：提供带有精确文中引用的答案。
元数据感知：自动获取引用次数和期刊质量数据，以提升检索效果。
灵活配置：包含针对不同使用场景（如高质量、快速或矛盾检测）的预设配置，并通过 LiteLLM 支持多种 LLM 提供商。

Sources

undefinedFuture-House/paper-qa