opencompass: 多様なベンチマークにわたる公平で再現可能な大規模モデル評価のためのワンストッププラットフォーム

何を解決するか

OpenCompassは、大規模言語モデル（LLM）および大規模視覚言語モデルを評価するための、統一された、公平で再現可能なプラットフォームを提供します。膨大なデータセットライブラリを使用して、複数の次元でモデルの品質を評価するためのワンストップシステムを提供することで、さまざまなベンチマークを手動で管理する複雑さを排除します。

仕組み

このプラットフォームは、ユーザーがコマンドラインインターフェース（CLI）またはPythonスクリプトを介して評価を実行できるようにします。さまざまな推論バックエンド（HuggingFace、vLLM、LMDeployなど）と統合されており、モデルの実行を処理し、zero-shot、few-shot、およびchain-of-thoughtを含む複数の評価パラダイムをサポートしています。オープンソースモデルとAPIベースのモデル（GPT-4oなど）を相互に入れ替えて扱うことができます。複雑な評価には、カスタムエバリュエーターと逐次評価パイプライン（CascadeEvaluator）をサポートするモジュール式設計を使用しています。

対象者

NLPモデルの性能をベンチマークしたり、異なるLLMを標準化されたリーダーボードで比較したり、推論、知識、または長文コンテキストのタスクにおける特定のモデルの能力を検証したりする必要があるAI研究者やエンジニア向けに設計されています。

ハイライト

広範なライブラリ: 20以上のモデルと、約400,000問の問題を含む70以上のデータセットを事前にサポートしています。
分散評価: ワンクリックでの分散タスク分割をサポートしており、数十億規模のモデルを数時間で評価できます。
柔軟な推論: vLLMやLMDeployのような加速バックエンド間のワンクリック切り替えが可能です。
多様なパラダイム: カスタマイズ可能なプロンプトテンプレートを使用して、zero-shot、few-shot、およびCoT評価をサポートしています。
LLM-as-Judge: 他のモデルの出力をLLMで判定するためのGenericLLMEvaluatorのようなツールを含んでいます。

opencompass: 多様なベンチマークにわたる公平で再現可能な大規模モデル評価のためのワンストッププラットフォーム

opencompass: 多様なベンチマークにわたる公平で再現可能な大規模モデル評価のためのワンストッププラットフォーム

何を解決するか

仕組み

対象者

ハイライト

Sources