GenieX：在 Qualcomm Snapdragon 硬體上本地執行 LLM 與 VLM 的裝置端推論執行環境

GenieX：在 Qualcomm Snapdragon 硬體上本地執行 LLM 與 VLM 的裝置端推論執行環境

它解決了什麼問題

GenieX 提供了一種簡化的方式，讓大型語言模型（LLMs）與視覺語言模型（VLMs）能在 Qualcomm Snapdragon 裝置上本地執行。它消除了硬體加速的複雜性，使開發者能利用 Hexagon NPU、Adreno GPU 或 CPU，而不需要深入的晶片優化專業知識。

它如何運作

GenieX 作為一個裝置端推論執行環境，支援兩條主要的執行路徑：

llama.cpp runtime：允許使用者在 NPU、GPU 或 CPU 上執行幾乎任何來自 Hugging Face 的 GGUF 模型。
Qualcomm AI Engine Direct runtime：執行來自 Qualcomm AI Hub、針對 NPU 預先編譯的模型套件，以達到最高效能。

它提供統一的 C SDK，並透過多種介面公開，包括 CLI、Python 函式庫（鏡像 Hugging Face transformers API）、相容 OpenAI 的伺服器、Docker 容器，以及 Android 用的 Kotlin/Java SDK。

目標對象

為使用 Qualcomm Snapdragon 處理器的 Windows ARM64、Android 與 Linux ARM64 裝置開發 AI 應用的開發者。

重點特色

廣泛的模型支援：相容來自 Hugging Face 的 GGUF 模型與 Qualcomm AI Hub 的最佳化套件。
多運算單元支援：能將工作負載分派至 NPU、GPU 或 CPU。
OpenAI 相容性：內建本地伺服器，讓現有的 OpenAI 客戶端無需程式碼變更即可使用。
跨平台：支援 Windows ARM64、Android 與 Linux ARM64。

Sources

undefinedqualcomm/GenieX