GenieX:在 Qualcomm Snapdragon 硬體上本地執行 LLM 與 VLM 的裝置端推論執行環境
GenieX:在 Qualcomm Snapdragon 硬體上本地執行 LLM 與 VLM 的裝置端推論執行環境
它解決了什麼問題
GenieX 提供了一種簡化的方式,讓大型語言模型(LLMs)與視覺語言模型(VLMs)能在 Qualcomm Snapdragon 裝置上本地執行。它消除了硬體加速的複雜性,使開發者能利用 Hexagon NPU、Adreno GPU 或 CPU,而不需要深入的晶片優化專業知識。
它如何運作
GenieX 作為一個裝置端推論執行環境,支援兩條主要的執行路徑:
- llama.cpp runtime:允許使用者在 NPU、GPU 或 CPU 上執行幾乎任何來自 Hugging Face 的 GGUF 模型。
- Qualcomm AI Engine Direct runtime:執行來自 Qualcomm AI Hub、針對 NPU 預先編譯的模型套件,以達到最高效能。
它提供統一的 C SDK,並透過多種介面公開,包括 CLI、Python 函式庫(鏡像 Hugging Face transformers API)、相容 OpenAI 的伺服器、Docker 容器,以及 Android 用的 Kotlin/Java SDK。
目標對象
為使用 Qualcomm Snapdragon 處理器的 Windows ARM64、Android 與 Linux ARM64 裝置開發 AI 應用的開發者。
重點特色
- 廣泛的模型支援:相容來自 Hugging Face 的 GGUF 模型與 Qualcomm AI Hub 的最佳化套件。
- 多運算單元支援:能將工作負載分派至 NPU、GPU 或 CPU。
- OpenAI 相容性:內建本地伺服器,讓現有的 OpenAI 客戶端無需程式碼變更即可使用。
- 跨平台:支援 Windows ARM64、Android 與 Linux ARM64。
Sources
- undefinedqualcomm/GenieX