Elicit：构建可信科学推理的世界模型

论点：超越基于结果的 AI

为了支持高风险的科学决策，AI 必须从提供答案的“黑箱”转变为提供可验证过程的透明系统。Elicit 关注过程监督——奖励和评估一步步的推理，而不是仅仅看最终输出——以防止模型在完成任务时“幻觉”或给出有说服力却没有依据的结论。

Elicit 通过实现一种领域特定语言（DSL）来定义推理原语，从而解决大语言模型（LLM）固有的“模糊性”。这种架构使前沿模型能够编排结构化工作流，且保证按定义执行。

用户可以手动检查模型对几篇论文的输出，但无法对 10,000 篇进行同样检查。Elicit 的 DSL 确保对第一篇文档和第 10,000 篇文档使用相同严格的过程。这种系统性是与通用研究代理的核心区别，后者可能声称已分析大量数据，但在检查时却未真正做到。

过程监督至关重要，因为主要在结果上训练的模型容易出现“奖励黑客”现象——它们给出看起来对人类评估者正确的答案，却没有完成必要的工作。Elicit 强调，唯一能确保结果因正确理由而正确的方法是监控过程——例如追踪模型在形成结论前阅读了论文的哪些具体章节。

为了处理海量证据（例如某种癌症治疗的 5,000 多篇相关论文），Elicit 正在转向外部世界模型。它们不依赖模型内部权重或巨大的上下文窗口，而是使用人类和 AI 都能检查的结构化表示。

虽然简单的 Markdown 维基（类似“LLM Wiki”概念）是起点，Elicit 正在探索更复杂的表示，以支持：

世界模型并不限于单一格式。根据使用场景，世界模型可能是用于生物机制的因果图（节点和箭头）、用于用户指标的 SQL 表，或用于产品开发的“技术树”。挑战在于确保信息在这些不同表示之间一致传播。

在科学研究中，并非所有证据都同等重要。Elicit 侧重于依据证据质量进行区分，而不是依赖引用次数或期刊影响因子等有损的代理指标。

口头校准（询问模型有多自信）目前比 token 概率更有用，尽管模型仍然“容易被推动”。如果用户提出反驳，模型往往会过于轻易地调整置信度。Elicit 旨在通过将声明基于明确证据并将洞见拆解为可单独检查的声明，构建更稳定的概率。

许多高层任务（如公司战略）是“难以验证”的。Elicit 的方法是将这些模糊的高层任务拆解为一张由更小、易于验证的任务组成的图。虽然在数学或编码中可以进行形式化验证，但科学推理需要另一种“推理证书”——一种可读的痕迹，证明已采取了适当的步骤。

Elicit 将其推理哲学应用于内部运营，构建了名为 The Line 的自动化软件工程流水线。

“The Line” 负责特性开发的端到端流程：需求制定、实现、测试（通过录制视频）、代码审查和合并。该系统目前每周自动合并 30 到 50 个 issue，只有在需求不完整或特性过于复杂需要人工审查时才会介入。

随着 token 成本上升，Elicit 正在摆脱对每个任务都使用最大模型的做法。取而代之的是使用“智能调度器”，将较简单的任务分配给更小、更高效的模型，将前沿模型保留用于高层推理和编排。

创始人认为，AI 在科学中的未来不是单一的“赢家”，而是一个庞大的工具生态系统。他们指出，离散化（以 token/词为单位思考）提供了连续权重空间表示（神经语言）所缺乏的关键错误纠正。通过保持可读的、离散的推理痕迹，AI 能够保持作为人类引导发现的工具，而不是不透明的预言机。