VLMEvalKit: 70以上のベンチマークをサポートする大規模視覚言語モデル向け統合評価ツールキット

VLMEvalKit: 70以上のベンチマークをサポートする大規模視覚言語モデル向け統合評価ツールキット

何を解決するか

VLMEvalKitは、大規模視覚言語モデル(LVLM)を評価するための、統一されたオープンソースのツールキットを提供します。これにより、研究者や開発者が複数の異なるベンチマークリポジトリにわたって手動でデータを準備する必要がなくなり、一つのコマンドで様々なベンチマークの評価が可能になります。

仕組み

このツールキットは、すべてのモデルに対して生成ベースの評価アプローチを採用しています。精度を判定するために、完全一致(exact matching)とLLMベースの回答抽出の両方をサポートしています。新しいモデルを追加する開発者の場合、単一の generate_inner() 関数を実装するだけで済み、データのダウンロード、前処理、推論、および指標の計算はツールキットが処理します。

対象者

再現可能な方法で標準的なベンチマークを用いてモデルを評価する必要があるAI研究者およびVLM開発者向けに設計されています。

ハイライト

  • 広範なサポート: 200以上の大型マルチモーダルモデル(LMM)と70以上の画像およびビデオベンチマークをサポートしています。
  • 分散推論: LMDeployおよびVLLMと統合されており、大規模または思考型モデルのより高速な評価を実現するために、マルチノード分散推論をサポートしています。
  • 思考モードのサポート: 思考モードを持つモデルのための特別な処理(<think> タグ内のコンテンツの解析)を含んでいます。
  • 柔軟な出力: 非常に長い回答を生成するモデルによるデータの切り捨てを防ぐため、予測ファイルをTSV形式で保存することをサポートしています。
  • 幅広い互換性: モデルの互換性を確保するために、transformerstorchvision、および flash-attn の詳細なバージョン推奨事項を提供しています。

Sources