Elicit：構建可信科學推理的世界模型

論點：超越結果導向的 AI

為了支援高風險的科學決策，AI 必須從「黑盒」只給出答案的模式，轉變為提供可驗證過程的透明系統。Elicit 專注於過程監督——獎勵與評估逐步推理，而非僅僅最終輸出——以防止模型「幻覺」完成任務或提供說服力卻缺乏根據的結論。

Elicit 透過實作領域專屬語言（DSL）來定義推理原語，解決大型語言模型（LLM）固有的「模糊」問題。此架構讓前沿模型能協調結構化工作流程，且保證依照定義執行。

使用者或許能手動檢查模型對少數論文的輸出，但無法對 10,000 篇論文都如此。Elicit 的 DSL 確保第一份文件與第 10,000 份文件使用相同嚴謹的流程。這種系統性是與一般研究代理人的核心差異，後者可能聲稱已分析大量資料，卻在檢查時發現根本未真正執行。

過程監督至關重要，因為主要以結果為導向訓練的模型容易出現「獎勵駭客」行為——它們產生看似正確、能取悅人類評估者的答案，卻未完成必要的工作。Elicit 強調，唯一能確保結果正確且出於正當理由的方法是監控過程——例如追蹤模型在形成結論前閱讀了論文的哪些具體段落。

為了處理龐大的證據庫（例如 5,000 篇以上與特定癌症治療相關的論文），Elicit 正朝外部世界模型發展。它們不依賴模型內部權重或巨大的上下文窗口，而是使用人類與 AI 都能檢視的結構化表示。

雖然簡單的 Markdown 維基（類似「LLM Wiki」概念）是起點，Elicit 正探索更複雜的表示，以支援：

世界模型不限於單一格式。依使用情境，世界模型可能是生物機制的因果圖（節點與箭頭）、用於使用者指標的 SQL 表格，或是產品開發的「技術樹」。挑戰在於確保資訊在這些不同表示之間一致傳遞。

在科學研究中，並非所有證據皆等同。Elicit 著重於依品質區分證據，而非依賴引用次數或期刊影響因子等失真代理指標。

口頭校準（詢問模型的自信程度）目前比 token 機率更有用，儘管模型仍「容易被推動」。若使用者提出反論點，模型往往會過於輕易地調整信心。Elicit 旨在透過將主張根植於明確證據，並將洞見拆解為可單獨驗證的聲明，來建立更穩定的機率。

許多高層次任務（如公司策略）屬於「難以驗證」類別。Elicit 的做法是將這些模糊的高層任務拆解為可驗證的子圖形任務。雖然在數學或程式碼領域可以進行形式驗證，科學推理則需要另一種「推理證書」——可讀的追蹤，證明已採取適當步驟。

Elicit 透過名為「The Line」的系統，將其推理哲學應用於內部運作，形成自動化軟體工程管線。

「The Line」負責功能開發的端到端流程：規格制定、實作、測試（透過錄製影片）、程式碼審查與合併。此系統目前每週自動合併 30 至 50 個議題，僅在規格不完整或功能過於複雜需人工介入時才會停止自動化。

隨著 token 成本上升，Elicit 正逐步放棄對每個任務都使用最大模型的做法。取而代之的是使用「智慧協調器」將較簡單的任務分派給較小、更高效的模型，將前沿模型保留給高層次推理與協調工作。

創辦人認為，AI 在科學領域的未來不會只有單一「贏家」，而是一個龐大的工具生態系統。他們指出，離散化（以 token/字詞思考）提供了純連續權重空間表示（神經語言）所缺乏的關鍵錯誤校正。透過保留可讀的、離散的推理痕跡，AI 能夠保持作為人類導向探索的工具，而非不透明的神諭者。