opencompass: 다양한 벤치마크에 걸쳐 공정하고 재현 가능한 대규모 모델 평가를 위한 원스톱 플랫폼

해결하는 문제

OpenCompass는 대규모 언어 모델(LLM) 및 대규모 시각-언어 모델을 평가하기 위한 통합되고 공정하며 재현 가능한 플랫폼을 제공합니다. 방대한 데이터셋 라이브러리를 사용하여 여러 차원에서 모델 품질을 평가할 수 있는 원스톱 시스템을 제공함으로써 다양한 벤치마크를 수동으로 관리하는 복잡성을 제거합니다.

작동 방식

이 플랫폼은 사용자가 명령줄 인터페이스(CLI) 또는 Python 스크립트를 통해 평가를 실행할 수 있도록 합니다. HuggingFace, vLLM, LMDeploy와 같은 다양한 추론 백엔드와 통합되어 모델 실행을 처리하며, zero-shot, few-shot, chain-of-thought를 포함한 다양한 평가 패러다임을 지원합니다. 오픈 소스 모델과 API 기반 모델(예: GPT-4o)을 상호 교체하여 사용할 수 있습니다. 복잡한 평가를 위해 사용자 정의 평가기(evaluator)와 순차적 평가 파이프라인(CascadeEvaluator)을 지원하는 모듈식 설계를 사용합니다.

대상 사용자

NLP 모델의 성능을 벤치마크하거나, 표준화된 리더보드에서 서로 다른 LLM을 비교하거나, 추론, 지식 또는 긴 문맥(long-context) 작업에 대한 특정 모델의 능력을 검증해야 하는 AI 연구원 및 엔지니어를 위해 설계되었습니다.

주요 특징

방대한 라이브러리: 약 400,000개의 질문을 포함하는 20개 이상의 모델과 70개 이상의 데이터셋을 사전 지원합니다.
분산 평가: 수십억 규모의 모델을 몇 시간 내에 평가할 수 있도록 원클릭 분산 작업 분할을 지원합니다.
유연한 추론: vLLM 및 LMDeploy와 같은 가속 백엔드 간의 원클릭 전환을 지원합니다.
다양한 패러다임: 사용자 정의 가능한 프롬프트 템플릿과 함께 zero-shot, few-shot, CoT 평가를 지원합니다.
LLM-as-Judge: 다른 모델의 출력을 판단하기 위해 LLM을 사용하는 GenericLLMEvaluator와 같은 도구를 포함합니다.

opencompass: 다양한 벤치마크에 걸쳐 공정하고 재현 가능한 대규모 모델 평가를 위한 원스톱 플랫폼

opencompass: 다양한 벤치마크에 걸쳐 공정하고 재현 가능한 대규모 모델 평가를 위한 원스톱 플랫폼

해결하는 문제

작동 방식

대상 사용자

주요 특징

Sources