Cross Canon: 聖書をRAGデータベースとして実装する

Cross Canon: 聖書をRAGデータベースとして実装する

Cross CanonはRAGを介して聖書の意味論的検索を可能にする

Cross Canonは、聖書をRetrieval-Augmented Generation (RAG) データベースとして扱う技術的な実装であり、ユーザーが聖書のテキスト全体に対して意味論的な検索を行うことを可能にします。従来のキーワード検索とは異なり、このアプローチでは、ローマ人への手紙13章における神学的な議論と、ダニエル書やエズラ書における歴史的な布告の両方を含む「政府」への言及を見つけるといった、概念的な意味に基づいて節を検索することができます。

コア機能とユーザーエクスペリエンス

Cross Canonは、インデックス化された聖書を照会するための特化したインターフェースを提供します。このシステムにより、ユーザーは以下のことが可能になります:

  • 書物によるフィルタリング: ユーザーは、検索範囲を狭めるために特定の聖書の書物(例:創世記、マタイによる福音書、黙示録)を指定するか、フィールドを空欄にしてインデックス化されたコーパス全体を検索することができます。
  • 意味論的検索 (Semantic Retrieval): エンジンは、正確な単語の一致ではなく、クエリの意味に基づいて一致を特定します。これは、よく知られているネフィリムやゴリアテ以外の様々な「巨人」を見つけるといった、あまり明白ではない言及を見つけるのに効果的であるとユーザーから指摘されています。

技術的な検討事項とコミュニティのフィードバック

プロジェクトを巡るコミュニティの議論では、宗教的なテキストにRAGを適用することに固有の技術的な機会と限界がいくつか強調されています:

正典の範囲と包括性

ユーザーは、、包括的な実装にするためには、データベースに聖書の正典の様々なバージョンを含めるべきだと提案しています。具体的には、外典(Deuterocanonical books)を追加し、エチオピア、カトリック、正教会の正典をインデックスに含めることで、より完全な学術的ツールを提供することを推奨しています。

パフォーマンスと実装

初期のユーザーフィードバックによれば、意味論的な検索結果は概念的に正確であるものの、システムが遅い場合があります。コミュニティの技術的な貢献者は、RAGパイプラインの最適化のために、以下のようないくつかの最適化案を提案しています:

  • Embedding Models: GTR-T5を使用して、高速で無料の埋め込み(embeddings)を生成すること。
  • Hybrid Retrieval: 速度と精度を向上させるために、ハイブリッドモードを実装すること。
  • Entity Extraction: グラフベースの検索のために、小さなローカルモデルを使用してエンティティを抽出すること。

比較対象となる宗教的RAGプロジェクト

Cross Canonは、聖なるテキストにRAGを適用するという、より広範なトレンドの一部です。コミュニティによって言及された同様のプロジェクトには、以下が含まれます:

  • Reminder.dev: コーラン(クルアーン)のためのオープンソースのRAG実装であり、ハディース(Hadith)やアッラーの名前もOpenAI embeddingsを使用してインデックス化しています。
  • Crazy.church: Cloudflare Vectorizeを使用して埋め込みを行い、「主要な3つの宗教」にわたる節を比較するプロジェクトです。

Sources