VLMEvalKit: 70以上のベンチマークをサポートする大規模視覚言語モデル向け統合評価ツールキット
VLMEvalKit: 70以上のベンチマークをサポートする大規模視覚言語モデル向け統合評価ツールキット
何を解決するか
VLMEvalKitは、大規模視覚言語モデル(LVLM)を評価するための、統一されたオープンソースのツールキットを提供します。これにより、研究者や開発者が複数の異なるベンチマークリポジトリにわたって手動でデータを準備する必要がなくなり、一つのコマンドで様々なベンチマークの評価が可能になります。
仕組み
このツールキットは、すべてのモデルに対して生成ベースの評価アプローチを採用しています。精度を判定するために、完全一致(exact matching)とLLMベースの回答抽出の両方をサポートしています。新しいモデルを追加する開発者の場合、単一の generate_inner() 関数を実装するだけで済み、データのダウンロード、前処理、推論、および指標の計算はツールキットが処理します。
対象者
再現可能な方法で標準的なベンチマークを用いてモデルを評価する必要があるAI研究者およびVLM開発者向けに設計されています。
ハイライト
- 広範なサポート: 200以上の大型マルチモーダルモデル(LMM)と70以上の画像およびビデオベンチマークをサポートしています。
- 分散推論: LMDeployおよびVLLMと統合されており、大規模または思考型モデルのより高速な評価を実現するために、マルチノード分散推論をサポートしています。
- 思考モードのサポート: 思考モードを持つモデルのための特別な処理(
<think>タグ内のコンテンツの解析)を含んでいます。 - 柔軟な出力: 非常に長い回答を生成するモデルによるデータの切り捨てを防ぐため、予測ファイルをTSV形式で保存することをサポートしています。
- 幅広い互換性: モデルの互換性を確保するために、
transformers、torchvision、およびflash-attnの詳細なバージョン推奨事項を提供しています。
Sources
- undefinedopen-compass/VLMEvalKit