VLMEvalKit: 一個支援 70+ 基準測試的大型視覺語言模型統一評估工具包

VLMEvalKit: 一個支援 70+ 基準測試的大型視覺語言模型統一評估工具包

它解決了什麼問題

VLMEvalKit 提供了一個統一且開源的工具包，用於評估大型視覺語言模型 (LVLMs)。它消除了研究人員和開發人員在多個不同的基準測試儲存庫中手動準備數據的需求，實現了跨各種基準測試的一鍵式評估。

運作方式

該工具包對所有模型採用基於生成的評估方法。它同時支援精確匹配和基於 LLM 的答案提取，以確定準確度。對於添加新模型的開發人員，流程已大幅簡化，僅需實現單個 generate_inner() 函數，而工具包會處理數據下載、預處理、推理和指標計算。

對象是誰

它是為需要以可重複的方式在標準基準測試上評估其模型的 AI 研究人員和 VLM 開發人員而設計的。

重點亮點

廣泛的支援：支援超過 200 個大型多模態模型 (LMMs) 和 70+ 個圖像與影片基準測試。
分散式推理：與 LMDeploy 和 VLLM 集成，以支援多節點分散式推理，從而更快地評估大規模或思考型模型。
思考模式支援：包含對具有思考模式模型的專門處理（解析 <think> 標籤內的內容）。
靈活的輸出：支援將預測文件保存為 TSV 格式，以防止生成極長回應的模型發生數據截斷。
廣泛的相容性：為 transformers、torchvision 和 flash-attn 提供詳細的版本建議，以確保模型相容性。

Sources

undefinedopen-compass/VLMEvalKit