OpenAI 研究策略：規模法則、推理與評估危機

核心論點：規模化與推理

AI 的進步持續遵循著由規模法則（scaling laws）驅動的指數級軌跡，但前沿領域已從簡單的預訓練轉向世界知識獲取與推理能力的複雜結合。雖然有人認為預訓練已遇到瓶頸，但 OpenAI 堅持認為，更好的工程技術與數據策劃能持續解鎖新的規模化邊界，將目標推向 AGI。

Mark Chen 堅決不同意預訓練已死或規模法則已進入平台期的觀點。他認為，在大型語言模型（LLMs）的歷史中，瓶頸經常被視為不可逾越，但最終都會透過研究洞察或工程改進而被克服。

推理已成為 OpenAI 最重要的研究押注之一，以 o1 模型的發布為代表。這一轉變代表了超越傳統「預訓練加後訓練」範式的轉向。

克服慣性： 實施推理能力需要來自 Jakub Pachocki 和 Ilia Sutskever 等領導者的重大內部引導與信念，因為現有的預訓練範式已經非常成功。
客觀 vs. 主觀任務： 強化學習（RL）在具有「硬實力真理」的領域（如數學與電腦科學）中最為有效，因為其正確性是二元的。RL 在面對創意寫作等主觀領域時則較為吃力，因為專家之間的評分標準並不一致。

AI 評估領域正出現日益嚴重的危機，標準基準測試（如 SAT）已趨於飽和或發生洩漏，導致了所謂的「基準測試極大化」（benchmaxing）現象。

Benchmaxing： 當模型對特定基準測試的分布進行過擬合，或是在類似的實例上進行訓練時，就會發生這種情況，導致高分並不代表真實的泛化能力。
對抗性評估： 為了應對這一點，OpenAI 將建立評估的團隊與優化模型的團隊分開。評估團隊的目標是建立模型「無法」解決的測試，透過這種對抗性過程來確保能力測量的誠實性。
外部合作夥伴： OpenAI 與外部組織合作，在硬科學與數學領域打造金標準基準測試，以避免內部偏見。

「研究品味」（research taste）——即識別哪些方向具有前景的直覺——是頂尖研究人員的關鍵差異點。雖然有人認為這需要博士學位，但 Chen 建議這可以透過對現有論文進行嚴謹的複製實驗來培養。

「氛圍研究員」的崛起： 該領域正向著「編排」（orchestration）轉型。隨著模型變得能夠處理實作與執行，人類研究員的主要價值將轉向構思與高層次的引導。
端到端 AI 研究： OpenAI 的長期目標是讓模型執行端到端的研究，包括具備開發自身「品味」並能獨立發現通用基準測試中新穎解決方案的能力。
處理失敗： OpenAI 的「alpha」特質之一是承擔高風險押注。Chen 指出，許多研究員在取得「超級大作」之前，可能會經歷一連串的失敗，只要他們的想法保持合理且具備雄心。

實現 AGI 需要模型處理長程、現實世界的任務，這涉及的不僅僅是增加上下文窗口（context windows）。

鋸齒狀智能 (Jagged Intelligence)： 模型經常表現出「鋸齒狀」的能力，在處理複雜任務（如 IMO 數學問題）時表現出色，但在人類覺得簡單的平凡任務上卻可能失敗。這通常是due to 缺乏現實世界的上下文。
上下文管理： 除了原生的長上下文窗口外，Chen 強調「壓縮」（compaction）——即壓縮洞察或工作狀態——是管理長程學習的重要工程捷徑，能在不付出極端成本的情況下，處理長程任務。