Cross Canon: 将圣经实现为 RAG 数据库

Cross Canon: 将圣经实现为 RAG 数据库

Cross Canon 通过 RAG 实现语义经文搜索

Cross Canon 是一个技术实现,它将圣经视为检索增强生成 (RAG) 数据库,允许用户在圣经文本中进行语义搜索。与传统的关键词搜索不同,这种方法允许根据概念含义检索段落,例如寻找关于“政府”的引用,其中既包括罗马书 13 章中的神学讨论,也包括但以理书和以斯拉记中的历史法令。

核心功能与用户体验

Cross Canon 为查询索引的经文提供了一个专门的界面。该系统允许用户:

  • 按书卷过滤: 用户可以指定圣经中的特定书卷(例如,Genesis, Matthew, Revelation)以缩小搜索范围,或者将该字段留空以搜索整个索引语料库。
  • 语义检索: 引擎根据查询的含义而非精确的单词匹配来识别匹配项,用户指出这对于发现不太明显的引用非常有效,例如寻找除了著名的 Nephilim 和 Goliath 之外的各种“巨人”。

技术考量与社区反馈

围绕该项目的社区讨论突出了将 RAG 应用于宗教文本时固有的几个技术机遇和局限性:

正典范围与包容性

用户建议,为了实现全面的实施,数据库应包含圣经正典的各种版本。具体而言,建议包括添加次经 (Deuterocanonical books) 并扩展索引以包含埃塞俄比亚、天主教和东正教正典,以提供一个更完整的学术工具。

性能与实现

初步的用户反馈表明,虽然语义结果在概念上是准确的,但系统可能会很慢。社区中的技术贡献者建议了针对 RAG 流水的几种优化方案,包括:

  • Embedding Models: 使用 GTR-T5 来生成快速且免费的嵌入 (embeddings)。
  • Hybrid Retrieval: 实现混合模式以提高速度和准确性。
  • Entity Extraction: 使用小型本地模型来提取实体以进行基于图的检索。

比较宗教 RAG 项目

Cross Canon 是将 RAG 应用于神圣文本的更广泛趋势的一部分。社区提到的类似项目包括:

  • Reminder.dev: 一个针对古兰经的开源 RAG 实现,它还使用 OpenAI embeddings 索引了 Hadith 和 Allah 的名字。
  • Crazy.church: 一个使用 Cloudflare Vectorize 进行嵌入 (embeddings) 的项目,用于比较“三大”宗教的经文。

Sources