GenieX:在 Qualcomm Snapdragon 硬件上本地运行 LLM 和 VLM 的设备端推理运行时
GenieX:在 Qualcomm Snapdragon 硬件上本地运行 LLM 和 VLM 的设备端推理运行时
它解决了什么问题
GenieX 提供了一种简化的方式,在 Qualcomm Snapdragon 设备上本地运行大型语言模型(LLMs)和视觉语言模型(VLMs)。它消除了硬件加速的复杂性,使开发者能够利用 Hexagon NPU、Adreno GPU 或 CPU,而无需深入了解芯片特定的优化。
工作原理
GenieX 充当设备端推理运行时,支持两条主要执行路径:
- llama.cpp runtime:允许用户在 NPU、GPU 或 CPU 上运行几乎所有来自 Hugging Face 的 GGUF 模型。
- Qualcomm AI Engine Direct runtime:执行来自 Qualcomm AI Hub 的预编译模型包,专为 NPU 设计,以实现最高性能。
它提供了统一的 C SDK,并通过多种接口公开,包括 CLI、Python 库(镜像 Hugging Face transformers API)、兼容 OpenAI 的服务器、Docker 容器以及 Android 的 Kotlin/Java SDK。
适用人群
为基于 Qualcomm Snapdragon 处理器的 Windows ARM64、Android 和 Linux ARM64 设备构建 AI 应用的开发者。
亮点
- 广泛的模型支持:兼容来自 Hugging Face 的 GGUF 模型和 Qualcomm AI Hub 的优化模型包。
- 多计算单元支持:能够将工作负载分配到 NPU、GPU 或 CPU。
- OpenAI 兼容性:包含本地服务器,使现有 OpenAI 客户端无需代码更改即可工作。
- 跨平台:支持 Windows ARM64、Android 和 Linux ARM64。
Sources
- undefinedqualcomm/GenieX