資料黑洞：了解 AI 中的樣本效率差距

AI 進步是由資料量驅動，而非樣本效率

現代 AI 的進步主要來自於擴大與改進資料分佈以及提升運算規模，而不是模型在資料上學習的根本效率提升。智慧可以被定義為「樣本效率」——在特定領域中流暢運作所需的資料量。雖然 AI 能力持續擴展，但學習過程的底層效率並未顯著改善。

強化學習（RL）作為合成資料生成的機制。透過將運算資源對準驗證者或評分標準（通常是一個充當裁判的 LLM），模型能找出高品質資料，並被訓練去預測正確的 rollout。然而，這個過程需要模型先具備一定的先驗機率以預測正確解答，因而必須在每個目標技能上投入大量客製化的人類專家資料。

為了在特定領域達到熟練，AI 實驗室會聘請數百位專家產生完成內容、撰寫評分標準，並說明思考鏈。這催生了一個價值數十億美元的資料產業，專注於高度具體的任務，例如：

人類學習一項技能所需的資料量與前沿 AI 模型所需的資料量之間存在巨大的落差。這種差距被形容為支撐 AI 可見能力的「資料黑洞」。

語言習得：一位成年人大約在成長過程中接觸了約 2 億個 token（假設每小時 2,000 個字）。相較之下，前沿模型的訓練資料達到數十至數百兆 token——相差百萬倍。
機器人：人類可以在數小時內學會遠端操作機械手臂。AI 模型則需要數百萬小時的示範，且仍在複雜、開放式任務上掙扎。
駕駛：青少年大約只需 20 小時的練習即可學會駕駛。Waymo、Tesla 等公司的自駕模型所使用的資料量是人類的三至四個數量級。

演化預訓練：有人認為數十億年的演化「預訓練」了人類。然而，人類基因組只有三 GB，且僅有 1‑2% 為蛋白質編碼，遠不足以儲存一個預訓練網路的參數。演化可能優化了超參數與損失函數，但連結組（即權重與參數）仍須在一生中從頭建立。
多模態資料：有人說人類透過視覺與聽覺攝取更多資料，但盲人或聾人仍具備一般智慧，顯示大量感官 token 流並非人類智慧的主要驅動力。
模型擴容：擴容律指出較大的模型在樣本效率上更佳，但效果有限。根據 Chinchilla 擴容律，即使將參數無限增加，也只能將所需資料減少至原本的十分之一，仍無法彌合百萬倍的差距。

儘管樣本效率低下，AI 仍在經濟上可行於自動化白領工作，因為將龐大資料「灌」入模型的成本可以在數十億次使用者會話中攤銷。

對於軟體工程師、會計師或分析師等常見工作，相關資料已相當容易取得並納入訓練分佈。雖然 AI 在學習這些任務上不如人類高效，但能將產出規模化至數百萬實例，使效率低下對底線影響不大。

某些職位需要「分佈外」思考——處理遠離任何現有訓練資料的問題。軟體工程被視為需要此能力的主要例子。因而在 2028 年，對人類軟體工程師的需求可能會比現在更高，因為 AI 充當的是輔助工具，而非完全取代。

AI 實驗室的目標是先自動化 AI 研究，期望自動化的 AI 研究者能解決樣本效率問題。這將使模型不再僅是「弗蘭肯斯坦怪物」般的拼湊範例，而是具備以最小資料學習新邊際技能的類人能力。

摘要：目前的 AI 進步是由巨量資料擴張驅動，而非樣本效率的提升，導致人類與 AI 在學習方式上存在百萬倍的差距。

標題：資料黑洞：了解 AI 中的樣本效率差距