GenieX: Qualcomm Snapdragon 하드웨어에서 로컬로 LLM 및 VLM을 실행하기 위한 온‑디바이스 추론 런타임

해결하는 문제

GenieX는 Qualcomm Snapdragon 디바이스에서 대형 언어 모델(LLM)과 비전‑언어 모델(VLM)을 로컬로 실행하는 간소화된 방법을 제공합니다. 하드웨어 가속의 복잡성을 없애고, 개발자가 칩별 최적화에 대한 깊은 전문 지식 없이도 Hexagon NPU, Adreno GPU 또는 CPU를 활용할 수 있게 합니다.

작동 방식

GenieX는 온‑디바이스 추론 런타임으로서 두 가지 주요 실행 경로를 지원합니다:

llama.cpp runtime: Hugging Face의 거의 모든 GGUF 모델을 NPU, GPU 또는 CPU에서 실행할 수 있게 합니다.
Qualcomm AI Engine Direct runtime: Qualcomm AI Hub에서 사전 컴파일된 모델 번들을 NPU 전용으로 실행하여 최대 성능을 제공합니다.

통합 C SDK를 제공하며, CLI, Python 라이브러리(Hugging Face transformers API와 동일), OpenAI 호환 서버, Docker 컨테이너, Android용 Kotlin/Java SDK 등 다양한 인터페이스를 통해 노출됩니다.

대상 사용자

Qualcomm Snapdragon 프로세서 기반 Windows ARM64, Android, Linux ARM64 디바이스용 AI 애플리케이션을 개발하는 개발자.

주요 특징

광범위한 모델 지원: Hugging Face의 GGUF 모델 및 Qualcomm AI Hub의 최적화 번들과 호환.
멀티 컴퓨트 지원: 워크로드를 NPU, GPU 또는 CPU에 할당할 수 있음.
OpenAI 호환성: 기존 OpenAI 클라이언트가 코드 변경 없이 작동하도록 하는 로컬 서버 포함.
크로스 플랫폼: Windows ARM64, Android, Linux ARM64 지원.

SUMMARY: Qualcomm Snapdragon 디바이스용 온‑디바이스 생성 AI 추론 런타임으로, Hexagon NPU, Adreno GPU 또는 CPU를 통해 LLM 및 VLM을 로컬에서 실행할 수 있습니다.

TITLE: GenieX: Qualcomm Snapdragon 하드웨어에서 로컬로 LLM 및 VLM을 실행하기 위한 온‑디바이스 추론 런타임

GenieX: Qualcomm Snapdragon 하드웨어에서 로컬로 LLM 및 VLM을 실행하기 위한 온‑디바이스 추론 런타임

GenieX: Qualcomm Snapdragon 하드웨어에서 로컬로 LLM 및 VLM을 실행하기 위한 온‑디바이스 추론 런타임

해결하는 문제

작동 방식

대상 사용자

주요 특징

Sources