VLMEvalKit: 一个支持 70+ 基准测试的大型视觉语言模型统一评估工具包

VLMEvalKit: 一个支持 70+ 基准测试的大型视觉语言模型统一评估工具包

它解决了什么问题

VLMEvalKit 为评估大型视觉语言模型 (LVLMs) 提供了一个统一的、开源的工具包。它消除了研究人员和开发人员在多个不同的基准测试仓库中手动准备数据的需求，从而实现了跨各种基准测试的一键式评估。

它是如何工作的

该工具包对所有模型采用基于生成的评估方法。它支持精确匹配和基于 LLM 的答案提取来确定准确率。对于添加新模型的开发人员，该过程被简化，仅需实现单个 generate_inner() 函数，而工具包将处理数据下载、预处理、推理和指标计算。

它是为谁设计的

它专为需要以可重复的方式在标准基准测试上评估其模型的 AI 研究人员和 VLM 开发人员设计。

亮点

广泛的支持: 支持超过 200 个大型多模态模型 (LMMs) 和 70+ 个图像和视频基准测试。
分布式推理: 集成了 LMDeploy 和 VLLM 以支持多节点分布式推理，从而更快地评估大规模或思考型模型。
思考模式支持: 包括对具有思考模式的模型进行专门处理（解析 <think> 标签内的内容）。
灵活的输出: 支持将预测文件保存为 TSV 格式，以防止生成非常长响应的模型出现数据截断。
广泛的兼容性: 为 transformers、torchvision 和 flash-attn 提供详细的版本建议，以确保模型兼容性。

Sources

undefinedopen-compass/VLMEvalKit