GenieX: Qualcomm Snapdragon ハードウェア上で LLM と VLM をローカルに実行するオンデバイス推論ランタイム

GenieX: Qualcomm Snapdragon ハードウェア上で LLM と VLM をローカルに実行するオンデバイス推論ランタイム

解決する課題

GenieX は、Qualcomm Snapdragon デバイス上で大規模言語モデル(LLM)やビジョン・言語モデル(VLM)をローカルに実行するためのシンプルな方法を提供します。ハードウェアアクセラレーションの複雑さを取り除き、開発者は Hexagon NPU、Adreno GPU、または CPU を、チップ固有の最適化に関する深い専門知識がなくても活用できます。

仕組み

GenieX はオンデバイス推論ランタイムとして機能し、主に 2 つの実行パスをサポートします。

  1. llama.cpp runtime: Hugging Face のほぼすべての GGUF モデルを NPU、GPU、または CPU 上で実行できます。
  2. Qualcomm AI Engine Direct runtime: Qualcomm AI Hub から事前にコンパイルされたモデルバンドルを NPU で実行し、最大のパフォーマンスを実現します。

統一された C SDK を提供し、CLI、Python ライブラリ(Hugging Face の transformers API を鏡像化)、OpenAI 互換サーバー、Docker コンテナ、Android 用 Kotlin/Java SDK など、複数のインターフェースから利用できます。

対象ユーザー

Qualcomm Snapdragon プロセッサ搭載の Windows ARM64、Android、Linux ARM64 デバイス向けに AI アプリケーションを構築する開発者。

ハイライト

  • 幅広いモデルサポート: Hugging Face の GGUF モデルと Qualcomm AI Hub の最適化バンドルに対応。
  • マルチコンピュートサポート: ワークロードを NPU、GPU、または CPU にディスパッチできる。
  • OpenAI 互換性: 既存の OpenAI クライアントがコード変更なしで動作するローカルサーバーを含む。
  • クロスプラットフォーム: Windows ARM64、Android、Linux ARM64 をサポート。

要約: Qualcomm Snapdragon デバイス向けのオンデバイスジェネレーティブ AI 推論ランタイムで、Hexagon NPU、Adreno GPU、または CPU を通じて LLM と VLM のローカル実行を可能にします。

タイトル: GenieX: Qualcomm Snapdragon ハードウェア上で LLM と VLM をローカルに実行するオンデバイス推論ランタイム

Sources