VLMEvalKit: 70以上のベンチマークをサポートする大規模視覚言語モデル向け統合評価ツールキット

何を解決するか

VLMEvalKitは、大規模視覚言語モデル（LVLM）を評価するための、統一されたオープンソースのツールキットを提供します。これにより、研究者や開発者が複数の異なるベンチマークリポジトリにわたって手動でデータを準備する必要がなくなり、一つのコマンドで様々なベンチマークの評価が可能になります。

仕組み

このツールキットは、すべてのモデルに対して生成ベースの評価アプローチを採用しています。精度を判定するために、完全一致（exact matching）とLLMベースの回答抽出の両方をサポートしています。新しいモデルを追加する開発者の場合、単一の generate_inner() 関数を実装するだけで済み、データのダウンロード、前処理、推論、および指標の計算はツールキットが処理します。

対象者

再現可能な方法で標準的なベンチマークを用いてモデルを評価する必要があるAI研究者およびVLM開発者向けに設計されています。

ハイライト

広範なサポート: 200以上の大型マルチモーダルモデル（LMM）と70以上の画像およびビデオベンチマークをサポートしています。
分散推論: LMDeployおよびVLLMと統合されており、大規模または思考型モデルのより高速な評価を実現するために、マルチノード分散推論をサポートしています。
思考モードのサポート: 思考モードを持つモデルのための特別な処理（<think> タグ内のコンテンツの解析）を含んでいます。
柔軟な出力: 非常に長い回答を生成するモデルによるデータの切り捨てを防ぐため、予測ファイルをTSV形式で保存することをサポートしています。
幅広い互換性: モデルの互換性を確保するために、transformers、torchvision、および flash-attn の詳細なバージョン推奨事項を提供しています。

VLMEvalKit: 70以上のベンチマークをサポートする大規模視覚言語モデル向け統合評価ツールキット

VLMEvalKit: 70以上のベンチマークをサポートする大規模視覚言語モデル向け統合評価ツールキット

何を解決するか

仕組み

対象者

ハイライト

Sources