hallucination-leaderboard: 要約タスクにおけるLLMのハルシネーション率を追跡する公開リーダーボード

hallucination-leaderboard: 要約タスクにおけるLLMのハルシネーション率を追跡する公開リーダーボード

何を解決するか

このプロジェクトは、さまざまな大規模言語モデル(LLM)のハルシネーション率を追跡・比較する公開リーダーボードを提供します。具体的には、要約における事実の不一致という問題に対処し、ユーザーがドキュメントを要約する際にどのモデルが誤った情報を導入する可能性が最も高いかを特定するのに役立ちます。

仕組み

このリーダーボードは、ハルシネーションを検出するためにトレーニングされた専門モデルであるVectaraのHallucination Evaluation Model (HHEM)を使用します。プロセスは以下の通りです:

  1. 要約タスク: 様々なドメイン(ニュース、科学、医学など)にわたる7,700以上の記事からなる厳選されたデータセットが、提供された情報のみを使用してテキストを要約するよう要求する厳格なプロンプトと共にLLMに提供されます。
  2. 評価: HHEMは、LLMによって生成された要約を評価して、「事実の整合性率」(ハルシネーションのない要約の割合)と「ハルシネーション率」(100から整合性率を引いたもの)を算出します。
  3. 指標: リーダーボードは、ハルシネーション率、事実の整合性率、回答率(モデルがどの程度回答したか)、および平均要約長を追跡します。

対象者

  • AI研究者および開発者: 異なるLLMの事実の整合性をベンチマークしたいと考えている方。
  • RAGおよびエージェント型システム構築者: これらのシステムは検索結果の要約としてLLMを頻繁に使用するため、このリーダーボードは、そのようなパイプラインで使用される際のモデルの正確性のプロキシとして機能します。

ハイライト

  • 専門的な評価モデル: HHEM-2.3 (commercial) を使用し、オープンソース版 (HHEM-2.1-Open) も提供しています。
  • 厳選されたデータセット: 過学習を防ぐために、様々な複雑さと長さ(50から24K単語)を持つ7,700以上の記事のプライベートデータセットを採用しています。
  • 詳細な指標: ハルシネーション率だけでなく、回答率を追跡することで、モデルが回答を拒否することで指標を操作することを防ぎます。
  • 幅広いモデルの網羅性: OpenAI、Google、Anthropic、およびMetaなどのプロバイダーからの幅広いモデルを評価しています。

Sources