hallucination-leaderboard: 一個追蹤 LLM 在摘要任務中幻覺率的公開排行榜
hallucination-leaderboard: 一個追蹤 LLM 在摘要任務中幻覺率的公開排行榜
它解決了什麼問題
這個專案提供了一個公開排行榜,用於追蹤並比較各種大型語言模型 (LLMs) 的幻覺率。它特別針對摘要中的事實不一致問題,幫助使用者識別哪些模型在摘要文件時最有可能引入錯誤資訊。
運作方式
該排行榜使用 Vectara 的 Hallucination Evaluation Model (HHEM),這是一個專門訓練用於檢測幻覺的模型。其流程包括:
- 摘要任務:將一個包含超過 7,700 篇文章、涵蓋各種領域(新聞、科學、醫學等)的精選資料集提供給 LLMs,並使用嚴格的提示詞 (prompt) 要求它們僅使用提供的資訊來進行摘要。
- 評估:HHEM 會評估 LLMs 產生的摘要,以計算「事實一致性率」(factual consistency rate,即沒有幻覺的摘要百分比) 以及「幻覺率」(hallucination rate,即 100 減去一致性率)。
- 指標:排行榜會追蹤幻覺率、事實一致性率、回答率 (answer rate,即模型回應的頻率) 以及平均摘要長度。
對象是誰
- AI 研究人員與開發者:尋求對不同 LLMs 的事實一致性進行基準測試的人員。
- RAG 與 Agentic System 建立者:由於這些系統通常使用 LLMs 作為搜尋結果的摘要工具,因此此排行榜可作為這些模型在用於此類流程時準確度的代理指標。
重點亮點
- 專業化評估模型:使用 HHEM-2.3 (商業版) 並提供開源變體 (HHEM-2.1-Open)。
- 精選資料集:採用包含 7,700 多篇文章、具有不同複雜度與長度(50 到 24K 字)的私有資料集,以防止過度擬合 (overfitting)。
- 詳細指標:除了幻覺率之外,還會追蹤回答率,以確保模型不會透過拒絕回答來規避指標。
- 廣泛的模型覆蓋範圍:評估來自 OpenAI、Google、Anthropic 和 Meta 等供應商的廣泛模型系列。
Sources
- undefinedvectara/hallucination-leaderboard