GenieX：在 Qualcomm Snapdragon 硬件上本地运行 LLM 和 VLM 的设备端推理运行时

GenieX：在 Qualcomm Snapdragon 硬件上本地运行 LLM 和 VLM 的设备端推理运行时

它解决了什么问题

GenieX 提供了一种简化的方式，在 Qualcomm Snapdragon 设备上本地运行大型语言模型（LLMs）和视觉语言模型（VLMs）。它消除了硬件加速的复杂性，使开发者能够利用 Hexagon NPU、Adreno GPU 或 CPU，而无需深入了解芯片特定的优化。

工作原理

GenieX 充当设备端推理运行时，支持两条主要执行路径：

llama.cpp runtime：允许用户在 NPU、GPU 或 CPU 上运行几乎所有来自 Hugging Face 的 GGUF 模型。
Qualcomm AI Engine Direct runtime：执行来自 Qualcomm AI Hub 的预编译模型包，专为 NPU 设计，以实现最高性能。

它提供了统一的 C SDK，并通过多种接口公开，包括 CLI、Python 库（镜像 Hugging Face transformers API）、兼容 OpenAI 的服务器、Docker 容器以及 Android 的 Kotlin/Java SDK。

适用人群

为基于 Qualcomm Snapdragon 处理器的 Windows ARM64、Android 和 Linux ARM64 设备构建 AI 应用的开发者。

亮点

广泛的模型支持：兼容来自 Hugging Face 的 GGUF 模型和 Qualcomm AI Hub 的优化模型包。
多计算单元支持：能够将工作负载分配到 NPU、GPU 或 CPU。
OpenAI 兼容性：包含本地服务器，使现有 OpenAI 客户端无需代码更改即可工作。
跨平台：支持 Windows ARM64、Android 和 Linux ARM64。

Sources

undefinedqualcomm/GenieX