hallucination-leaderboard: 一个追踪 LLM 在摘要任务中幻觉率的公开排行榜

hallucination-leaderboard: 一个追踪 LLM 在摘要任务中幻觉率的公开排行榜

它解决了什么问题

该项目提供了一个公开排行榜,用于追踪和比较各种大语言模型 (LLM) 的幻觉率。它专门解决了摘要中的事实不一致问题,帮助用户识别哪些模型在对文档进行摘要时最有可能引入虚假信息。

工作原理

该排行榜使用 Vectara 的 Hallucination Evaluation Model (HHEM),这是一种专门训练用于检测幻觉的模型。其过程包括:

  1. 摘要任务:将一个包含超过 7,700 篇文章的精选数据集(涵盖新闻、科学、医学等各个领域)输入到 LLM 中,并使用严格的提示词要求它们仅使用提供的信息进行摘要。
  2. 评估:HHEM 评估 LLM 生成的摘要,以计算“事实一致性率”(无幻觉摘要的百分比)和“幻觉率”(100 减去一致性率)。
  3. 指标:排行榜追踪幻觉率、事实一致性率、回答率(模型响应的频率)以及平均摘要长度。

适用对象

  • AI 研究人员和开发者:希望对不同 LLM 的事实一致性进行基准测试的人员。
  • RAG 和 Agentic System 构建者:由于这些系统通常使用 LLM 作为搜索结果的摘要器,因此该排行榜可以作为这些模型在用于此类流水线时准确性的代理指标。

亮点

  • 专门的评估模型:使用 HHEM-2.3 (商业版) 并提供开源变体 (HHEM-2.1-Open)。
  • 精选数据集:采用包含 7,700 多篇文章的私有数据集,文章复杂度与长度各异(50 到 24K 个单词),以防止过拟合。
  • 详细的指标:除了幻觉率,它还追踪回答率,以确保模型不会通过拒绝回答来规避指标。
  • 广泛的模型覆盖范围:评估来自 OpenAI、Google、Anthropic 和 Meta 等供应商的广泛模型系列。

Sources