VLMEvalKit: 70개 이상의 벤치마크를 지원하는 대규모 시각-언어 모델을 위한 통합 평가 툴킷

해결하는 문제

VLMEvalKit은 대규모 시각-언어 모델(LVLMs)을 평가하기 위한 통합된 오픈 소스 툴킷을 제공합니다. 연구자와 개발자가 여러 다른 벤치마크 저장소에 걸쳐 데이터를 수동으로 준비해야 하는 번거로움을 없애고, 다양한 벤치마크에 대해 단 한 번의 명령어로 평가를 수행할 수 있게 해줍니다.

작동 방식

이 툴킷은 모든 모델에 대해 생성 기반 평가 방식을 채택합니다. 정확도를 결정하기 위해 완전 일치(exact matching) 방식과 LLM 기반 답변 추출 방식을 모두 지원합니다. 새로운 모델을 추가하려는 개발자의 경우, 단 하나의 generate_inner() 함수만 구현하면 되므로 프로세스가 단순화되며, 툴킷이 데이터 다운로드, 전처리, 추론 및 지표 계산을 처리합니다.

대상 사용자

재현 가능한 방식으로 표준 벤치마크에서 모델을 평가해야 하는 AI 연구자와 VLM 개발자를 위해 설계되었습니다.

주요 특징

광범위한 지원: 200개 이상의 대규모 멀티모달 모델(LMMs)과 70개 이상의 이미지 및 비디오 벤치마크를 지원합니다.
분산 추론: LMDeploy 및 VLLM과 통합되어 대규모 또는 사고 모델(thinking models)의 더 빠른 평가를 위해 멀티 노드 분산 추론을 지원합니다.
사고 모드 지원: 사고 모드(thinking mode)가 있는 모델을 위한 특수 처리( <think> 태그 내의 콘텐츠 파싱)를 포함합니다.
유연한 출력: 매우 긴 응답을 생성하는 모델의 데이터 절단을 방지하기 위해 예측 파일을 TSV 형식으로 저장하는 것을 지원합니다.
폭넓은 호환성: 모델 호환성을 보장하기 위해 transformers, torchvision, 및 flash-attn에 대한 상세한 버전 권장 사항을 제공합니다.

VLMEvalKit: 70개 이상의 벤치마크를 지원하는 대규모 시각-언어 모델을 위한 통합 평가 툴킷

VLMEvalKit: 70개 이상의 벤치마크를 지원하는 대규모 시각-언어 모델을 위한 통합 평가 툴킷

해결하는 문제

작동 방식

대상 사용자

주요 특징

Sources