資料黑洞:了解 AI 中的樣本效率差距

資料黑洞:了解 AI 中的樣本效率差距

AI 進步是由資料量驅動,而非樣本效率

現代 AI 的進步主要來自於擴大與改進資料分佈以及提升運算規模,而不是模型在資料上學習的根本效率提升。智慧可以被定義為「樣本效率」——在特定領域中流暢運作所需的資料量。雖然 AI 能力持續擴展,但學習過程的底層效率並未顯著改善。

強化學習(RL)作為合成資料生成的機制。透過將運算資源對準驗證者或評分標準(通常是一個充當裁判的 LLM),模型能找出高品質資料,並被訓練去預測正確的 rollout。然而,這個過程需要模型先具備一定的先驗機率以預測正確解答,因而必須在每個目標技能上投入大量客製化的人類專家資料。

人類專家資料的角色

為了在特定領域達到熟練,AI 實驗室會聘請數百位專家產生完成內容、撰寫評分標準,並說明思考鏈。這催生了一個價值數十億美元的資料產業,專注於高度具體的任務,例如:

  • 將舊有文件轉換成精緻的 Word 檔案。
  • 撰寫真實的併購盡職調查報告或證券申報文件。
  • 製作範本市場研究。

樣本效率差距:人類 vs. AI

人類學習一項技能所需的資料量與前沿 AI 模型所需的資料量之間存在巨大的落差。這種差距被形容為支撐 AI 可見能力的「資料黑洞」。

數量化比較

  • 語言習得:一位成年人大約在成長過程中接觸了約 2 億個 token(假設每小時 2,000 個字)。相較之下,前沿模型的訓練資料達到數十至數百兆 token——相差百萬倍。
  • 機器人:人類可以在數小時內學會遠端操作機械手臂。AI 模型則需要數百萬小時的示範,且仍在複雜、開放式任務上掙扎。
  • 駕駛:青少年大約只需 20 小時的練習即可學會駕駛。Waymo、Tesla 等公司的自駕模型所使用的資料量是人類的三至四個數量級。

回應常見反論

  • 演化預訓練:有人認為數十億年的演化「預訓練」了人類。然而,人類基因組只有三 GB,且僅有 1‑2% 為蛋白質編碼,遠不足以儲存一個預訓練網路的參數。演化可能優化了超參數與損失函數,但連結組(即權重與參數)仍須在一生中從頭建立。
  • 多模態資料:有人說人類透過視覺與聽覺攝取更多資料,但盲人或聾人仍具備一般智慧,顯示大量感官 token 流並非人類智慧的主要驅動力。
  • 模型擴容:擴容律指出較大的模型在樣本效率上更佳,但效果有限。根據 Chinchilla 擴容律,即使將參數無限增加,也只能將所需資料減少至原本的十分之一,仍無法彌合百萬倍的差距。

對自動化與 AI 研究的影響

儘管樣本效率低下,AI 仍在經濟上可行於自動化白領工作,因為將龐大資料「灌」入模型的成本可以在數十億次使用者會話中攤銷。

白領自動化

對於軟體工程師、會計師或分析師等常見工作,相關資料已相當容易取得並納入訓練分佈。雖然 AI 在學習這些任務上不如人類高效,但能將產出規模化至數百萬實例,使效率低下對底線影響不大。

基於分佈的學習的極限

某些職位需要「分佈外」思考——處理遠離任何現有訓練資料的問題。軟體工程被視為需要此能力的主要例子。因而在 2028 年,對人類軟體工程師的需求可能會比現在更高,因為 AI 充當的是輔助工具,而非完全取代。

通往類人智慧的道路

AI 實驗室的目標是先自動化 AI 研究,期望自動化的 AI 研究者能解決樣本效率問題。這將使模型不再僅是「弗蘭肯斯坦怪物」般的拼湊範例,而是具備以最小資料學習新邊際技能的類人能力。


摘要:目前的 AI 進步是由巨量資料擴張驅動,而非樣本效率的提升,導致人類與 AI 在學習方式上存在百萬倍的差距。

標題:資料黑洞:了解 AI 中的樣本效率差距

Sources