opencompass: 一个面向多种基准测试的公平且可复现的大模型评估一站式平台
opencompass: 一个面向多种基准测试的公平且可复现的大模型评估一站式平台
它解决了什么问题
OpenCompass 提供了一个统一、公平且可复现的平台,用于评估大语言模型 (LLMs) 和大型视觉语言模型。它通过提供一个一站式系统,利用庞大的数据集库在多个维度上评估模型质量,从而消除了手动管理各种基准测试的复杂性。
工作原理
该平台允许用户通过命令行界面 (CLI) 或 Python 脚本运行评估。它集成了各种推理后端 (例如 HuggingFace, vLLM, 和 LMDeploy) 以处理模型执行,并支持多种评估范式,包括 zero-shot, few-shot, 和 chain-of-thought。它可以交替处理开源模型和基于 API 的模型 (例如 GPT-4o)。对于复杂的评估,它使用模块化设计,支持自定义评估器 (evaluators) 和顺序评估流水线 (CascadeEvaluator)。
适用人群
它专为 AI 研究人员和工程师设计,这些人员需要对他们的 NLP 模型进行基准测试,在标准化的排行榜上比较不同的 LLMs,或者验证特定模型在推理、知识或长文本任务上的能力。
亮点
- 广泛的库: 预支持超过 20 种模型和 70 多个数据集,包含约 400,000 个问题。
- 分布式评估: 支持一键式分布式任务划分,可在几小时内评估十亿级规模的模型。
- 灵活的推理: 支持在 vLLM 和 LMDeploy 等加速后端之间一键切换。
- 多样化的范式: 支持带有可定制提示词模板 (prompt templates) 的 zero-shot, few-shot, 和 CoT 评估。
- LLM-as-Judge: 包括像
GenericLLMEvaluator这样的工具,用于使用 LLMs 来评判其他模型的输出。
Sources
- undefinedopen-compass/opencompass