hallucination-leaderboard: 一個追蹤 LLM 在摘要任務中幻覺率的公開排行榜

hallucination-leaderboard: 一個追蹤 LLM 在摘要任務中幻覺率的公開排行榜

它解決了什麼問題

這個專案提供了一個公開排行榜，用於追蹤並比較各種大型語言模型 (LLMs) 的幻覺率。它特別針對摘要中的事實不一致問題，幫助使用者識別哪些模型在摘要文件時最有可能引入錯誤資訊。

運作方式

該排行榜使用 Vectara 的 Hallucination Evaluation Model (HHEM)，這是一個專門訓練用於檢測幻覺的模型。其流程包括：

摘要任務：將一個包含超過 7,700 篇文章、涵蓋各種領域（新聞、科學、醫學等）的精選資料集提供給 LLMs，並使用嚴格的提示詞 (prompt) 要求它們僅使用提供的資訊來進行摘要。
評估：HHEM 會評估 LLMs 產生的摘要，以計算「事實一致性率」(factual consistency rate，即沒有幻覺的摘要百分比) 以及「幻覺率」(hallucination rate，即 100 減去一致性率)。
指標：排行榜會追蹤幻覺率、事實一致性率、回答率 (answer rate，即模型回應的頻率) 以及平均摘要長度。

對象是誰

AI 研究人員與開發者：尋求對不同 LLMs 的事實一致性進行基準測試的人員。
RAG 與 Agentic System 建立者：由於這些系統通常使用 LLMs 作為搜尋結果的摘要工具，因此此排行榜可作為這些模型在用於此類流程時準確度的代理指標。

重點亮點

專業化評估模型：使用 HHEM-2.3 (商業版) 並提供開源變體 (HHEM-2.1-Open)。
精選資料集：採用包含 7,700 多篇文章、具有不同複雜度與長度（50 到 24K 字）的私有資料集，以防止過度擬合 (overfitting)。
詳細指標：除了幻覺率之外，還會追蹤回答率，以確保模型不會透過拒絕回答來規避指標。
廣泛的模型覆蓋範圍：評估來自 OpenAI、Google、Anthropic 和 Meta 等供應商的廣泛模型系列。

Sources

undefinedvectara/hallucination-leaderboard