web-llm:它是什麼、解決了什麼問題以及為何受到關注
web-llm:它是什麼、解決了什麼問題以及為何受到關注
它解決了什麼
WebLLM 是一個高效能推論引擎,讓大型語言模型(LLM)能直接在網頁瀏覽器中執行。這消除了伺服器端處理的需求,透過 WebGPU 使用使用者自己的硬體加速,提升使用者隱私並降低伺服器成本。
它如何運作
WebLLM 使用 WebGPU 進行硬體加速,並以 WebAssembly(WASM)提供最佳效能。它被設計為模組化的 npm 套件,可整合至網頁應用程式中。它支援多種快取後端(如 Cache API、IndexedDB 與 OPFS),將模型權重儲存在瀏覽器本地,避免每次都重新下載。為防止 UI 卡頓,推論工作可委派給 Dedicated Web Workers 或 Service Workers。
目標對象
想在瀏覽器本地部署 LLM、且不想管理後端基礎設施的 AI 助手、聊天機器人或 Chrome 擴充功能的網頁開發者。
重點特色
- 完整相容 OpenAI API:使用與 OpenAI 相同的串流、JSON 模式與 seed API 方式。
- WebGPU 加速:在客戶端完整執行的高效能推論。
- 廣泛模型支援:原生支援 Llama 3、Phi 3、Gemma、Mistral 與 Qwen。
- 結構化 JSON 產生:最先進的 JSON 模式,保證輸出結構化。
- 彈性部署:支援透過 NPM、Yarn 或 CDN 整合,亦可在 Web Workers 或 Service Workers 中執行以提升效能。
Sources
- undefinedmlc-ai/web-llm