web-llm：它是什麼、解決了什麼問題以及為何受到關注

它解決了什麼

WebLLM 是一個高效能推論引擎，讓大型語言模型（LLM）能直接在網頁瀏覽器中執行。這消除了伺服器端處理的需求，透過 WebGPU 使用使用者自己的硬體加速，提升使用者隱私並降低伺服器成本。

它如何運作

WebLLM 使用 WebGPU 進行硬體加速，並以 WebAssembly（WASM）提供最佳效能。它被設計為模組化的 npm 套件，可整合至網頁應用程式中。它支援多種快取後端（如 Cache API、IndexedDB 與 OPFS），將模型權重儲存在瀏覽器本地，避免每次都重新下載。為防止 UI 卡頓，推論工作可委派給 Dedicated Web Workers 或 Service Workers。

目標對象

想在瀏覽器本地部署 LLM、且不想管理後端基礎設施的 AI 助手、聊天機器人或 Chrome 擴充功能的網頁開發者。

重點特色

完整相容 OpenAI API：使用與 OpenAI 相同的串流、JSON 模式與 seed API 方式。
WebGPU 加速：在客戶端完整執行的高效能推論。
廣泛模型支援：原生支援 Llama 3、Phi 3、Gemma、Mistral 與 Qwen。
結構化 JSON 產生：最先進的 JSON 模式，保證輸出結構化。
彈性部署：支援透過 NPM、Yarn 或 CDN 整合，亦可在 Web Workers 或 Service Workers 中執行以提升效能。

web-llm：它是什麼、解決了什麼問題以及為何受到關注

web-llm：它是什麼、解決了什麼問題以及為何受到關注

它解決了什麼

它如何運作

目標對象

重點特色

Sources