GenieX:在 Qualcomm Snapdragon 硬件上本地运行 LLM 和 VLM 的设备端推理运行时

GenieX:在 Qualcomm Snapdragon 硬件上本地运行 LLM 和 VLM 的设备端推理运行时

它解决了什么问题

GenieX 提供了一种简化的方式,在 Qualcomm Snapdragon 设备上本地运行大型语言模型(LLMs)和视觉语言模型(VLMs)。它消除了硬件加速的复杂性,使开发者能够利用 Hexagon NPU、Adreno GPU 或 CPU,而无需深入了解芯片特定的优化。

工作原理

GenieX 充当设备端推理运行时,支持两条主要执行路径:

  1. llama.cpp runtime:允许用户在 NPU、GPU 或 CPU 上运行几乎所有来自 Hugging Face 的 GGUF 模型。
  2. Qualcomm AI Engine Direct runtime:执行来自 Qualcomm AI Hub 的预编译模型包,专为 NPU 设计,以实现最高性能。

它提供了统一的 C SDK,并通过多种接口公开,包括 CLI、Python 库(镜像 Hugging Face transformers API)、兼容 OpenAI 的服务器、Docker 容器以及 Android 的 Kotlin/Java SDK。

适用人群

为基于 Qualcomm Snapdragon 处理器的 Windows ARM64、Android 和 Linux ARM64 设备构建 AI 应用的开发者。

亮点

  • 广泛的模型支持:兼容来自 Hugging Face 的 GGUF 模型和 Qualcomm AI Hub 的优化模型包。
  • 多计算单元支持:能够将工作负载分配到 NPU、GPU 或 CPU。
  • OpenAI 兼容性:包含本地服务器,使现有 OpenAI 客户端无需代码更改即可工作。
  • 跨平台:支持 Windows ARM64、Android 和 Linux ARM64。

Sources