Elicit: 信頼できる科学的推論のためのワールドモデル構築

テーゼ：結果ベースのAIを超えて

高リスクな科学的意思決定を支援するために、AIは「答えを出す」ブラックボックスから、検証可能なプロセスを提供する透明なシステムへと移行しなければなりません。Elicit はプロセス監督に焦点を当て、最終出力だけでなくステップバイステップの推論を報酬付け・評価することで、モデルがタスクの完了を「幻覚」したり、説得力はあるが根拠のない結論を提供したりすることを防ぎます。

ドメイン固有言語（DSL）による信頼できる推論

Elicit は大規模言語モデル（LLM）の固有の「曖昧さ」に対処するため、推論プリミティブを定義したドメイン固有言語（DSL）を実装しています。このアーキテクチャにより、最先端モデルは定義どおりに実行が保証された構造化ワークフローをオーケストレーションできます。

スケールでの信頼性

ユーザーは数本の論文については手作業でモデルの出力をチェックできますが、1万本については不可能です。Elicit の DSL は、最初の文書と1万番目の文書に対して同じ厳格なプロセスが適用されることを保証します。この体系性は、実際に大規模コーパスを分析したと主張しながら、検証すると実際には行っていない一般的な研究エージェントとは根本的に異なります。

プロセス監督の役割

プロセス監督は重要です。結果中心で訓練されたモデルは「報酬ハッキング」しやすく、人間の評価者に正しく見える答えを出すものの、必要な作業を実行していないことがあります。Elicit は、正しい理由で結果が正しいことを保証する唯一の方法はプロセスを監視することだと強調します。たとえば、モデルが結論を導く前に論文のどのセクションを読んだかを追跡するといった具合です。

外部ワールドモデルと知識表現

5,000 件以上の関連論文など、膨大な証拠を扱うために、Elicit は外部ワールドモデルへとシフトしています。モデル内部の重みや巨大なコンテキストウィンドウに依存するのではなく、人間と AI が検査できる構造化表現を使用します。

テキストファイルを超えて

シンプルな Markdown ウィキ（「LLM Wiki」概念に類似）だけでなく、Elicit は以下を支援するより洗練された表現を模索しています：

予測: 現在の証拠に基づく結果の予測。
介入: 特定の変数を変更した場合に何が起こるかの分析。
反事実: 別の道を取った場合に何が起こったかの決定。

異種表現

ワールドモデルは単一フォーマットに限定されません。ユースケースに応じて、ワールドモデルは生物学的メカニズムの因果グラフ（ノードと矢印）、ユーザーメトリクスの SQL テーブル、製品開発の「テックツリー」などになることがあります。課題は、これら異なる表現間で情報が一貫して伝搬することを保証することです。

証拠と信頼度の評価

科学研究において、すべての証拠が同等ではありません。Elicit は、引用数やジャーナルインパクトファクターといった情報損失の大きい代理指標に頼るのではなく、品質に基づいて証拠を識別することに注力します。

信頼度のキャリブレーション

モデルに「どれくらい自信があるか」を尋ねる口頭的キャリブレーションは、トークン確率よりも現在は有用です。ただし、モデルは依然として「簡単に揺さぶられる」傾向があります。ユーザーが反論を提示すると、モデルは自信レベルを過度に変動させがちです。Elicit は、主張を明示的な証拠に根拠付け、洞察を個別の検証可能な主張に分解することで、より安定した確率を構築しようとしています。

「検証困難」問題

企業戦略のような高次タスクは「検証が難しい」ことが多いです。Elicit のアプローチは、これらの曖昧で高次のタスクを、検証しやすい小さなタスクのグラフに分解することです。数学やコーディングのように形式的検証が可能な領域もありますが、科学的推論には別種の「推論証明書」—適切な手順が踏まれたことを示す可読なトレース—が必要です。

AI の運用化：「The Line」とトークンエコノミクス

Elicit は自らの推論哲学を内部運用に適用し、「The Line」という自動化ソフトウェアエンジニアリングパイプラインを構築しています。

自動化エンジニアリング

「The Line」は機能開発のエンドツーエンドプロセス（仕様策定、実装、録画ビデオによるテスト、コードレビュー、マージ）を処理します。このシステムは現在、週に 30〜50 件の課題を自動でマージしており、仕様が不完全な場合や機能が自動レビューに適さない場合にのみ人間が介入します。

トークンエコノミクス

トークンコストが上昇するにつれ、Elicit はすべてのタスクに最も大きなモデルを使用することから脱却しています。代わりに「スマートオーケストレータ」を用いて、シンプルなタスクは小型で効率的なモデルに割り振り、最先端モデルは高次推論とオーケストレーションに限定して使用します。

科学における AI の未来

創業者は、科学のための AI の未来は単一の「勝者」ではなく、ツールの広大なエコシステムになると主張します。トークン／単語単位で考える離散化は、純粋に連続的な重み空間表現（ニューラル語）にはない重要な誤り訂正を提供すると指摘しています。可読な離散的推論トレースを維持することで、AI は不透明な神託ではなく、人間が主導する発見のためのツールであり続けられます。

要約

Elicit の共同創業者 Andreas Stuhlmüller と Jungwon Byun は、ドメイン固有言語と外部ワールドモデルを活用し、高リスクな科学研究に対して透明で体系的、かつ検証可能な推論を実現する方法について議論しています。

タイトル

Elicit: 信頼できる科学的推論のためのワールドモデル構築

Elicit: 信頼できる科学的推論のためのワールドモデル構築

Elicit: 信頼できる科学的推論のためのワールドモデル構築

テーゼ：結果ベースのAIを超えて

ドメイン固有言語（DSL）による信頼できる推論

スケールでの信頼性

プロセス監督の役割

外部ワールドモデルと知識表現

テキストファイルを超えて

異種表現

証拠と信頼度の評価

信頼度のキャリブレーション

「検証困難」問題

AI の運用化：「The Line」 とトークンエコノミクス

自動化エンジニアリング

トークンエコノミクス

科学における AI の未来

Sources

AI の運用化：「The Line」とトークンエコノミクス