forge: 它是什么、解決什麼問題以及為什麼它正受到關注

forge: 它是什么、解決什麼問題以及為什麼它正受到關注

解決什麼問題

Forge 為自託管的大型語言模型 (LLMs) 在執行工具調用 (tool-calling) 時提供了一個可靠性層。它解決了常見的問題,即較小的本地模型往往無法遵循工具調用格式、調用未知工具,或者在生成文本與調用工具之間猶豫不決,這通常會導致代理工作流 (agentic workflows) 中的崩潰或錯誤行為。

如何運作

Forge 作為一個位於 LLM 與應用程式之間的護欄系統 (guardrail system)。它採用了幾種技術來確保可靠性:

  • 回應驗證 (Response Validation): 檢查工具調用是否符合定義的可用工具列表,並驗證其參數。
  • 救援解析 (Rescue Parsing): 從格式錯誤的回應中提取結構化的工具調用(例如,程式碼區塊中的 JSON 或 Mistral 或 Qwen 等特定模型的格式),並將其轉換為標準格式。
  • 重試迴圈 (Retry Loops): 如果工具調用無效,Forge 會自動使用對模型的糾正性「提示」(nudge) 重新進行推理。
  • 合成回應工具 (Synthetic Respond Tool): 注入一個隱藏的 respond 工具,強制模型即使在想要提供文本回應時也使用工具調用,從而防止模型錯誤地混合文本與工具調用。
  • 工作流約束 (Workflow Constraints): 允許開發者定義必要的步驟、先決條件和終止工具,以約束模型執行任務的路徑。

對象是誰

它是為使用本地 LLM(透過 Ollama, vLLM, llama.cpp 等)或使用 Anthropic 的混合設置的開發者而設計的。對於那些想要在不重寫現有編排邏輯的情況下,提高 8B 級別模型的工具調用準確度的人來說,特別有用。

重點

  • 代理模式 (Proxy Mode): 一個即插即用的代理伺服器,透過透明地應用護欄,讓任何與 OpenAI 相容的客戶端(如 aider 或 Continue)認為它正在與一個更強大的模型對話。
  • 高性能提升 (High Performance Lift): 聲稱在其評估套件中,將 8B 本地模型的可靠性從個位數提高到 84%。
  • 後端無關 (Backend Agnostic): 支援廣泛的後端,包括 Ollama, llama-server, Llamafile, vLLM, 和 Anthropic。
  • 靈活的整合 (Flexible Integration): 可以作為完整的 WorkflowRunner、透明代理,或作為現有迴圈的獨立中間件使用。

Sources