Cross Canon: 將聖經實作為 RAG 資料庫

Cross Canon: 將聖經實作為 RAG 資料庫

Cross Canon 透過 RAG 實現語義經文搜尋

Cross Canon 是一個技術實作,將聖經視為檢索增強生成 (Retrieval-Augmented Generation, RAG) 資料庫,允許使用者對聖經文本進行語義搜尋。與傳統的關鍵字搜尋不同,這種方法可以根據概念意義來檢索段落,例如尋找關於「政府」的引用,其中包含羅馬書 13 章的神學討論以及但以理書和以斯拉記中的歷史法令。

核心功能與使用者體驗

Cross Canon 為查詢索引過的經文提供了專用的介面。該系統允許使用者:

  • 按卷書篩選: 使用者可以指定聖經中的特定卷書(例如:創世記、馬太福音、啟示錄)以縮小搜尋範圍,或者將該欄位留空以搜尋整個索引過的語料庫。
  • 語義檢索: 引擎根據查詢的意義而非精確的字詞匹配來識別匹配項,使用者指出這對於發現較不明顯的引用非常有效,例如尋找除了著名的 Nephilim 和 Goliath 之外的各種「巨人」。

技術考量與社群回饋

圍繞該專案的社群討論突顯了將 RAG 應用於宗教文本時固有的幾項技術機會與限制:

正典範圍與包容性

使用者建議,為了實現全面的實作,資料庫應包含聖經正典的多個版本。具體建議包括增加次正典 (Deuterocanonical books) 並擴展索引以包含衣索比亞、天主教和東正教的正典,以提供更完整的學術工具。

效能與實作

初步的使用者回饋顯示,雖然語義結果在概念上是準確的,但系統可能會很慢。社群中的技術貢獻者建議了幾種 RAG 管線的優化方案,包括:

  • 嵌入模型 (Embedding Models): 使用 GTR-T5 來生成快速且免費的嵌入向量。
  • 混合檢索 (Hybrid Retrieval): 實作混合模式以提高速度與準確度。
  • 實體提取 (Entity Extraction): 使用小型本地模型來提取實體,以進行基於圖譜的檢索。

比較宗教 RAG 專案

Cross Canon 是將 RAG 應用於神聖文本的更廣泛趨勢的一部分。社群提到的類似專案包括:

  • Reminder.dev: 一個針對古蘭經的開源 RAG 實作,它也使用 OpenAI embeddings 索引了聖訓 (Hadith) 和真主 (Allah) 的名稱。
  • Crazy.church: 一個使用 Cloudflare Vectorize 進行嵌入向量化的專案,用於比較「三大宗教」之間的經文。

Sources