web-llm:它是什麼、解決了什麼問題以及為何受到關注

web-llm:它是什麼、解決了什麼問題以及為何受到關注

它解決了什麼

WebLLM 是一個高效能推論引擎,讓大型語言模型(LLM)能直接在網頁瀏覽器中執行。這消除了伺服器端處理的需求,透過 WebGPU 使用使用者自己的硬體加速,提升使用者隱私並降低伺服器成本。

它如何運作

WebLLM 使用 WebGPU 進行硬體加速,並以 WebAssembly(WASM)提供最佳效能。它被設計為模組化的 npm 套件,可整合至網頁應用程式中。它支援多種快取後端(如 Cache API、IndexedDB 與 OPFS),將模型權重儲存在瀏覽器本地,避免每次都重新下載。為防止 UI 卡頓,推論工作可委派給 Dedicated Web Workers 或 Service Workers。

目標對象

想在瀏覽器本地部署 LLM、且不想管理後端基礎設施的 AI 助手、聊天機器人或 Chrome 擴充功能的網頁開發者。

重點特色

  • 完整相容 OpenAI API:使用與 OpenAI 相同的串流、JSON 模式與 seed API 方式。
  • WebGPU 加速:在客戶端完整執行的高效能推論。
  • 廣泛模型支援:原生支援 Llama 3、Phi 3、Gemma、Mistral 與 Qwen。
  • 結構化 JSON 產生:最先進的 JSON 模式,保證輸出結構化。
  • 彈性部署:支援透過 NPM、Yarn 或 CDN 整合,亦可在 Web Workers 或 Service Workers 中執行以提升效能。

Sources