giskard-oss: エージェントシステムと LLM アプリケーション向けのモジュラー テスト&レッドチーミング フレームワーク

giskard-oss: エージェントシステムと LLM アプリケーション向けのモジュラー テスト&レッドチーミング フレームワーク

解決する課題

Giskard はエージェントシステムのテストと評価を目的として設計されており、単一の入力から複数の有効な応答が生成され得る非決定的出力という課題に特化しています。回帰を検出し、RAG の品質を検証し、安全ルールを強制し、マルチターン会話を評価するためのツールを提供します。

仕組み

このプロジェクトは、任意の LLM、ブラックボックスエージェント、またはマルチステップパイプラインをラップできるモジュラーな Python パッケージ群として構成されています。主に以下の 3 つのコンポーネントから成ります。

  • Giskard Checks: シナリオ API を用いた評価(eval)作成用ライブラリで、文字列一致、正規表現、意味的類似度、そして「LLM-as-judge」評価(Groundedness や Conformity など)向けの組み込みチェックを備えています。
  • Giskard Scan: エージェントのプレーンランゲージ記述に基づき、プロンプトインジェクション、有害コンテンツ、誤情報といった脆弱性を検出するための敵対的テストスイートを自動生成するレッドチーミング層です。
  • Giskard RAG: (計画中)RAG の評価と合成データ生成を行うツールです。

対象ユーザー

LLM ベースのエージェントや RAG パイプラインを構築する開発者・AI エンジニアで、システムの安全性、根拠性、信頼性を自動テストとレッドチーミングで確保したい方。

ハイライト

  • Async-first アーキテクチャ: AI エージェントの動的かつマルチターンテスト向けに設計。
  • 自動レッドチーミング: OWASP LLM Top-10 の脅威カテゴリ全体にわたる敵対的入力を自動生成。
  • LLM-as-Judge: Groundedness や Conformity といった高度な評価指標をサポート。
  • モジュラー設計: 依存関係を最小限に抑えた軽量パッケージで、任意のパイプラインに容易に組み込めます。

Sources