forge: 它是什么、解決什麼問題以及為什麼它正受到關注

解決什麼問題

Forge 為自託管的大型語言模型 (LLMs) 在執行工具調用 (tool-calling) 時提供了一個可靠性層。它解決了常見的問題，即較小的本地模型往往無法遵循工具調用格式、調用未知工具，或者在生成文本與調用工具之間猶豫不決，這通常會導致代理工作流 (agentic workflows) 中的崩潰或錯誤行為。

如何運作

Forge 作為一個位於 LLM 與應用程式之間的護欄系統 (guardrail system)。它採用了幾種技術來確保可靠性：

回應驗證 (Response Validation): 檢查工具調用是否符合定義的可用工具列表，並驗證其參數。
救援解析 (Rescue Parsing): 從格式錯誤的回應中提取結構化的工具調用（例如，程式碼區塊中的 JSON 或 Mistral 或 Qwen 等特定模型的格式），並將其轉換為標準格式。
重試迴圈 (Retry Loops): 如果工具調用無效，Forge 會自動使用對模型的糾正性「提示」(nudge) 重新進行推理。
合成回應工具 (Synthetic Respond Tool): 注入一個隱藏的 respond 工具，強制模型即使在想要提供文本回應時也使用工具調用，從而防止模型錯誤地混合文本與工具調用。
工作流約束 (Workflow Constraints): 允許開發者定義必要的步驟、先決條件和終止工具，以約束模型執行任務的路徑。

對象是誰

它是為使用本地 LLM（透過 Ollama, vLLM, llama.cpp 等）或使用 Anthropic 的混合設置的開發者而設計的。對於那些想要在不重寫現有編排邏輯的情況下，提高 8B 級別模型的工具調用準確度的人來說，特別有用。

重點

代理模式 (Proxy Mode): 一個即插即用的代理伺服器，透過透明地應用護欄，讓任何與 OpenAI 相容的客戶端（如 aider 或 Continue）認為它正在與一個更強大的模型對話。
高性能提升 (High Performance Lift): 聲稱在其評估套件中，將 8B 本地模型的可靠性從個位數提高到 84%。
後端無關 (Backend Agnostic): 支援廣泛的後端，包括 Ollama, llama-server, Llamafile, vLLM, 和 Anthropic。
靈活的整合 (Flexible Integration): 可以作為完整的 WorkflowRunner、透明代理，或作為現有迴圈的獨立中間件使用。

forge: 它是什么、解決什麼問題以及為什麼它正受到關注

forge: 它是什么、解決什麼問題以及為什麼它正受到關注

解決什麼問題

如何運作

對象是誰

重點

Sources