whichllm: 시스템 사양 및 실제 벤치마크를 기반으로 최적의 로컬 LLM을 순위 매기는 하드웨어 인식 추천 엔진

whichllm: 시스템 사양 및 실제 벤치마크를 기반으로 최적의 로컬 LLM을 순위 매기는 하드웨어 인식 추천 엔진

해결하는 문제

특정 하드웨어에 가장 적합한 로컬 대규모 언어 모델(LLM)을 찾는 것은 종종 어렵습니다. 단순히 모델을 VRAM에 맞추는 것만으로는 최고 품질이나 가장 빠른 옵션을 보장할 수 없기 때문입니다. whichllm은 시스템 하드웨어를 자동으로 감지하고, 단순히 크기만이 아니라 실제 벤치마크 성능, 예상 속도 및 하드웨어 호환성을 기반으로 HuggingFace의 모델들을 순위 매김으로써 이 문제를 해결합니다.

작동 방식

이 도구는 사용자의 GPU, CPU, 및 RAM을 분석하여 VRAM 요구 사항(가중치, KV 캐시 및 오버헤드 포함)과 메모리 대역폭에 따른 생성 속도를 추정합니다. HuggingFace API에서 실시간 모델 데이터를 가져와 여러 벤치마크 소스(LiveBench, Chatbot Arena, Open LLM Leaderboard 등)와 결합합니다. 그런 다음 스코어링 엔진이 벤치마크 품질, 모델 크기, 양자화 페널티 및 런타임 적합성(예: 전체 GPU vs 부분 오프로드)을 결합하여 모델의 순위를 매깁니다.

대상 사용자

하드웨어 사용을 최적화하고자 하는 로컬 LLM 사용자뿐만 아니라, 특정 GPU를 시뮬레이션하여 어떤 모델을 실행할 수 있는지 확인하려는 하드웨어 구매 계획자에게도 설계되었습니다.

주요 특징

  • 하드웨어 자동 감지: NVIDIA, AMD, Intel, 및 Apple Silicon을 지원합니다.
  • 근거 기반 순위 매기기: 단순한 크기 휴리스틱 대신 신뢰도 기반 감쇠를 적용한 실제 벤치마크 점수를 사용합니다.
  • 명령어 실행: whichllm run을 포함하여 추천된 모델을 즉시 다운로드하고 채팅할 수 있으며, whichllm snippet을 통해 바로 사용할 수 있는 Python 코드를 생성할 수 있습니다.
  • 하드웨어 계획: 특정 모델에 필요한 GPU를 결정하거나 현재 하드웨어를 잠재적 업그레이드와 비교할 수 있는 planupgrade 명령어를 제공합니다.
  • 실시간 데이터: 최신 모델 추천을 위해 HuggingFace API와 직접 통합됩니다.

Sources