evidently: 機械学習および LLM 搭載システムの評価・テスト・モニタリングを行うオープンソースフレームワーク
evidently: 機械学習および LLM 搭載システムの評価・テスト・モニタリングを行うオープンソースフレームワーク
解決する課題
Evidently は、機械学習(ML)および大規模言語モデル(LLM)システムの品質を評価・テスト・モニタリングするための統一フレームワークを提供します。実験段階から本番環境までのパフォーマンスと信頼性の維持という課題に取り組み、データドリフト、モデル劣化、生成 AI の出力品質といった問題に特化しています。
仕組み
このライブラリは主に 3 つのコンポーネントで構成されています。
- レポート: 組み込みの指標またはカスタム指標を用いて品質評価を計算・要約します。探索的分析やデバッグに利用でき、JSON、HTML、または Python の辞書形式でエクスポート可能です。
- テストスイート: レポートに合格/不合格条件を付加することで、回帰テスト、CI/CD チェック、データ検証の自動テストを作成できます。
- モニタリングダッシュボード: UI サービス(セルフホストまたはマネージドクラウド版)で、これらの指標とテスト結果を時間経過とともに可視化し、システムの健全性を追跡します。
対象ユーザー
予測モデル(分類、回帰)や生成システム(RAG、LLM アプリケーション)の精度と安定性を長期にわたって確保したい、ML エンジニア、データサイエンティスト、AI 開発者向けに設計されています。
ハイライト
- 幅広いサポート: 表形式データとテキストデータの両方に対応。
- 豊富な指標ライブラリ: データドリフト、LLM‑as‑a‑judge、従来の ML パフォーマンス指標など、100 以上の組み込み指標を収録。
- 多様な評価: 予測タスク(正確度、適合率)と生成タスク(意味的類似度、検索関連性)をサポート。
- 柔軟なデプロイ: 実験用のオフライン評価と、本番システム向けのリアルタイムモニタリングの両方を提供。
Sources
- undefinedevidentlyai/evidently