PowerInfer: 무엇인지, 어떤 문제를 해결하는지 & 왜 인기를 얻고 있는지

해결하는 문제

PowerInfer는 단일 소비자용 GPU를 사용하여 개인용 컴퓨터에서 고속 대규모 언어 모델(LLM) 추론을 가능적으로 하도록 설계되었습니다. GPU 메모리 요구 사항을 줄이고 CPU와 GPU 간의 데이터 전송을 최소화하여 소비자용 하드웨어의 메모리 제한 문제를 해결하며, 이를 통해 대규모 모델을 llama.cpp와 같은 기존 엔진보다 더 빠르게 실행할 수 있습니다.

작동 방식

PowerInfer는 다양한 입력에 대해 'hot neurons'의 작은 하위 집합이 지속적으로 활성화되는 반면, 'cold neurons'는 덜 빈번하게 활성화된다는 'activation locality' 개념을 활용합니다. 이 엔진은 하이브리드 CPU/GPU 방식을 사용합니다:

Hot neurons는 빠른 액세스를 위해 GPU에 미리 로드됩니다.
Cold neurons는 CPU에서 계산됩니다.

또한 적응형 예측기(adaptive predictors)와 뉴런 인식 희소 연산자(neuron-aware sparse operators)를 사용하여 이 프로세스를 더욱 최적화하여 계산 효율성을 높입니다.

대상 사용자

서버급 GPU(예: A100)를 필요로 하지 않으면서 소비자용 하드웨어(Windows, Linux, 또는 macOS)에서 LLM을 로컬로 배포하고 낮은 지연 시간의 추론이 필요한 사용자들을 위한 것입니다.

주요 특징

Hybrid Execution: 메모리와 계산의 균형을 맞추기 위해 CPU와 GPU 간의 워크로드를 원활하게 분할합니다.
C-grade GPU Support: 단일 GPU 설정에 최적화되어 llama.cpp 대비 상당한 속도 향상을 달성합니다(특정 모델에서 최대 11배).
Broad Compatibility: Llama 2 제품군, Falcon-40B, Bamboo-7B를 포함한 ReLU-sparse 모델을 지원합니다.
Flexible Deployment: 리소스 요구 사항을 더욱 줄이기 위해 VRAM 예산 책정 및 INT4 양자화 옵션을 제공합니다.

PowerInfer: 무엇인지, 어떤 문제를 해결하는지 & 왜 인기를 얻고 있는지

PowerInfer: 무엇인지, 어떤 문제를 해결하는지 & 왜 인기를 얻고 있는지

해결하는 문제

작동 방식

대상 사용자

주요 특징

Sources