脳は単に専門化されたエージェント同士が会話しているだけ — ジェフ・ベック博士
脳は単に専門化されたエージェント同士が会話しているだけ — ジェフ・ベック博士
エージェンシーとしてのポリシーの洗練度
エージェンシーは二元的な状態ではなく、システムが入力を出力にマッピングするために使用するポリシーの洗練度によって決まります。数学的観点から見ると、岩のような物体とエージェントの間に構造的な違いはなく、どちらもポリシーを実行します。違いは内部計算の複雑さ、特にシステムが計画や反事実的推論に関与しているかどうかに現れます。
エージェンシーのブラックボックス問題
システムが本当に「計画」しているのか、あるいは高度に洗練された事前計算された応答を単に実行しているだけなのかを外部から判別することはほぼ不可能です。観測者は結果としての行動(ポリシー)しか見えないため、内部でロールアウトやモンテカルロ木探索風のシミュレーションが行われたことを決定的に証明できません。
ベック博士はこの問題に対し実用的なモデルベースのアプローチを提案します。システムの挙動を説明する最も単純な計算モデルが計画と反事実的推論を含むものであるなら、そのシステムをエージェントとして扱うのが妥当だというものです。これはダニエル・デネットの「意図的姿勢」に合致しており、システムを目標を持つものとして扱うことは、実際に微視的な因果真実でなくても有用な説明手段となります。
物理性とエージェンシー
ベック博士は真のエージェンシーには物理的具現が必要だと主張します。高忠実度のコンピュータシミュレーションはエージェンシーをモデル化し、エージェントの行動を 100% 正確に予測できても、シミュレーション自体はエージェントではありません。エージェンシーは環境との物理的相互作用に結びついており、エージェンシーのモデルはエージェントの存在とは別物であることを示唆します。
エネルギーベースモデル(EBM)とベイズ推論
エネルギーベースモデルは、従来のフィードフォワードニューラルネットワークと主にコスト関数の適用場所が異なります。標準的なネットワークではコスト関数は入力と出力に対して作用し、重みを最適化します。一方、EBM ではコスト関数が重みだけでなくモデル内部の状態(隠れノード)にも作用します。
EBMs のメカニズム
予測を得るために、EBM は二つの最小化を行います:
- 内部状態に関連するエネルギー最小点を見つける。
- 予測誤差を最小化する。
変分オートエンコーダ(VAE)は、内部表現を制約する項(例:潜在空間をガウス分布に強制する)をコスト関数に含むため、EBM の典型例として引用されます。これは入力と出力の再構成誤差だけに焦点を当てる従来の手法とは対照的です。
EBMs とテスト時トレーニングの比較
「テスト時トレーニング」では一部の重みを潜在変数として推論時に最適化しますが、ベック博士は重要な欠陥を指摘します。ほとんどのモデルはまず純粋に教師ありで訓練されており、真に EBM のような振る舞いを実現するには、潜在最適化を訓練全体を通して有効にした状態でネットワークを学習させる必要があると述べています。
JEPA と潜在空間学習
ヤン・ルカンが提唱する Joint Embedding Prediction Architecture(JEPA)は、ピクセルごとの予測(生成モデル)から、圧縮された潜在空間の埋め込み同士の予測へと学習目的をシフトさせます。
潜在予測の利点
すべてのピクセルを予測しようとすると、モデルは無関係なディテールに囚われがちです。入力と出力を埋め込みに圧縮し、その間の予測を学習することで、モデルは世界の「全体像」や概念的理解を捉えることができます。このアプローチは、科学を予測とデータ圧縮のプロセスとみなします。
モデル崩壊の回避
共同埋め込みの主な課題は「モデル崩壊」で、ネットワークが全ての埋め込みをゼロにするなどの自明な解を見つけて完璧な予測を達成してしまうことです。これを防ぐために、Barlow Twins のような非対照的学習手法は、従来の対照的手法で必要とされる高価な負例サンプリングを行わずに、表現の豊かさと忠実性を正則化で維持します。
知能のモジュラー進化
知能は単一の汎用能力(AGI)としてではなく、相互に連携する専門化された知能の集合として捉えられます。ベック博士は、脳は単純で専門化されたモジュールを組み合わせ、相互に通信できるように学習させることで、創発的な計算能力を獲得したと提案します。
嗅覚起源説
ベック博士は、嗅覚系が連合皮質の進化の主要な駆動力だった可能性を示唆します。視覚空間が滑らかで平行移動不変であるのに対し、嗅覚空間は組み合わせ的で極めて複雑です。非平滑問題を解くために進化した神経機構が、前頭皮質や高度な計画機能の基盤を提供したと考えられます。
継続学習とメタプログラミング
真の知能は継続学習能力を必要とします。すなわち、新たな状況に遭遇した際に、その場で新しいモデルや潜在変数を生成し説明できることです。これは GFlowNets によって例示され、生成モデルの生成モデルとして機能し、システムが自己の内部構造を拡張して新規性に対処できるようにします。
AI 安全性と未来の仕事
「スカイネット」のような暴走する超知能を恐れるよりも、ベック博士は人間の「弱体化」— 人間が AI の出力を単に承認・拒否するだけの「報酬関数選択者」になること— を懸念しています。
逆強化学習による安全な目標設定
「逆説的実装」問題(例:AI が飢餓を根絶するために人類を排除する)を回避するため、ベック博士は最大エントロピー逆強化学習の使用を提案します。目標を手動で指定する代わりに、AI は人間の行動を観察し、現在の人間の行動と結果の定常分布に基づく経験的に推定された報酬関数を導出します。
安全に世界を改善するには、人間はこの推定分布に対して小さく制御された摂動を加え、その結果を評価すべきであり、広範で単純な指示を出すべきではありません。