evidently：一个用于评估、测试和监控机器学习和大语言模型系统的开源框架

evidently: 一个用于评估、测试和监控机器学习和大语言模型系统的开源框架

它解决了什么问题

Evidently 提供了一个统一的框架，用于评估、测试和监控机器学习（ML）和大语言模型（LLM）系统的质量。它解决了从实验阶段到生产阶段保持性能和可靠性的挑战，特别针对数据漂移、模型退化以及生成式 AI 输出质量等问题。

工作原理

该库通过三个主要组件运作：

报告（Reports）：使用内置或自定义指标计算并汇总质量评估。报告用于探索性分析和调试，并可导出为 JSON、HTML 或 Python 字典。
测试套件（Test Suites）：通过在报告中添加通过/失败条件，用户可以创建用于回归测试、CI/CD 检查和数据验证的自动化测试。
监控仪表盘（Monitoring Dashboard）：一个 UI 服务（可自行托管或使用托管云版本），可随时间可视化这些指标和测试结果，以跟踪系统健康状况。

适用人群

该框架面向需要确保其预测模型（分类、回归）或生成系统（RAG、LLM 应用）随时间保持准确和稳定的 ML 工程师、数据科学家和 AI 开发者。

亮点

广泛支持：兼容表格数据和文本数据。
丰富的指标库：包含 100 多个内置指标，覆盖数据漂移、LLM‑as‑a‑judge 以及传统 ML 性能。
多样化评估：支持预测任务（准确率、精确率）和生成任务（语义相似度、检索相关性）。
灵活部署：提供离线实验评估和生产系统实时监控两种方式。

Sources

undefinedevidentlyai/evidently