opencompass: 一個跨越多樣化基準測試、公平且可重複的大型模型評估一站式平台

opencompass: 一個跨越多樣化基準測試、公平且可重複的大型模型評估一站式平台

它解決了什麼問題

OpenCompass 提供了一個統一、公平且可重複的平台,用於評估大型語言模型 (LLMs) 和大型視覺語言模型。它透過提供一個一站式系統,利用龐大的數據集庫來從多個維度評估模型品質,從而消除了手動管理各種基準測試的複雜性。

運作方式

該平台允許使用者透過命令列介面 (CLI) 或 Python 腳本進行評估。它整合了各種推理後端(例如 HuggingFace、vLLM 和 LMDeploy)來處理模型執行,並支援多種評估範式,包括 zero-shot、few-shot 和 chain-of-thought。它可以交替處理開源模型和基於 API 的模型(例如 GPT-4o)。對於複雜的評估,它使用模組化設計,支援自定義評估器和序列評估流水線 (CascadeEvaluator)。

對象是誰

它專為 AI 研究人員和工程師設計,這些研究人員需要對其 NLP 模型進行基準測試,在標準化的排行榜上比較不同的 LLMs,或者驗證特定模型在推理、知識或長文本任務上的能力。

重點亮點

  • 廣泛的函式庫:預先支援超過 20 個模型和 70 多個數據集,包含大約 400,000 個問題。
  • 分散式評估:支援一鍵式分散式任務劃分,可在幾小時內評估十億級規模的模型。
  • 靈活的推理:可在 vLLM 和 LMDeploy 等加速後端之間一鍵切換。
  • 多樣化的範式:支援具有可自定義提示詞模板的 zero-shot、few-shot 和 CoT 評估。
  • LLM-as-Judge:包含如 GenericLLMEvaluator 等工具,用於使用 LLMs 來評估其他模型的輸出。

Sources