forge: 它是什么，解决了什么问题以及为什么它正受到关注

它解决了什么问题

Forge 为自托管的大语言模型 (LLMs) 在执行工具调用 (tool-calling) 时提供了一个可靠性层。它解决了常见的问题，即较小的本地模型往往无法遵循工具调用格式、调用未知工具，或者在生成文本与调用工具之间难以抉择，这通常会导致智能体工作流 (agentic workflows) 中的崩溃或错误行为。

它是如何工作的

Forge 作为一个护栏系统 (guardrail system) 位于 LLM 和应用程序之间。它采用了几种技术来确保可靠性：

响应验证 (Response Validation): 检查工具调用是否符合定义的可用工具列表并验证其参数。
救援解析 (Rescue Parsing): 从格式错误的响应中提取结构化的工具调用（例如，代码块中的 JSON 或 Mistral 或 Qwen 等特定模型的格式），并将其转换为规范格式。
重试循环 (Retry Loops): 如果工具调用无效，Forge 会自动通过向模型提供纠正性的“提示” (nudge) 来重试推理。
合成响应工具 (Synthetic Respond Tool): 注入一个隐藏的 respond 工具，强制模型即使在想要提供文本响应时也使用工具调用，从而防止模型错误地混合文本和工具调用。
工作流约束 (Workflow Constraints): 允许开发者定义必要的步骤、先决条件和终止工具，以约束模型完成任务的路径。

它是为谁设计的

它专为使用本地 LLM（通过 Ollama, vLLM, llama.cpp 等）或使用 Anthropic 的混合设置构建智能体应用的开发者而设计。对于那些希望在不重写现有编排逻辑的情况下提高 8B 级模型的工具调用准确性的人来说，它特别有用。

亮点

代理模式 (Proxy Mode): 一个即插即用的代理服务器，通过透明地应用护栏，让任何 OpenAI 兼容的客户端（如 aider 或 Continue）认为它正在与一个更强大的模型进行对话。
高性能提升: 声称在其评估套件上将 8B 本地模型的可靠性从个位数提高到了 84%。
后端无关性 (Backend Agnostic): 支持广泛的后端，包括 Ollama, llama-server, Llamafile, vLLM, 和 Anthropic。
灵活的集成方式: 可以用作完整的 WorkflowRunner，一个透明代理，或者作为现有循环的独立中间件。

forge: 它是什么，解决了什么问题以及为什么它正受到关注

forge: 它是什么，解决了什么问题以及为什么它正受到关注

它解决了什么问题

它是如何工作的

它是为谁设计的

亮点

Sources