数据黑洞：理解 AI 中的样本效率差距

AI 进步是由数据量驱动，而非样本效率

现代 AI 的进步主要来源于数据分布的扩展与改进以及计算规模的提升，而不是模型从数据中学习的效率的根本提升。智能可以定义为“样本效率”——在特定领域中流畅运作所需的数据量。虽然 AI 能力在不断扩展，但学习过程的底层效率并未显著提升。

强化学习（RL）充当合成数据生成的机制。通过将计算资源用于验证器或评分标准（通常是充当评审的 LLM），模型识别高质量数据并被训练以预测正确的 rollout。然而，这一过程需要模型对正确解答有一个基线先验概率，这就需要在每个目标技能上投入大量定制的人类专家数据。

为了在特定领域达到熟练水平，AI 实验室会雇佣数百名专家来生成完成内容、编写评分标准并解释思考链。这催生了一个价值数十亿美元的高度细分任务数据产业，例如：

人类学习一项技能所需的数据量与前沿 AI 模型所需的数据量之间存在巨大的差异。这一差距被描述为支撑 AI 可见能力的“数据黑洞”。

语言习得：一个成年人大约在成长过程中接触了约 2 亿个 token（假设每小时 2,000 个词）。相比之下，前沿模型的训练数据量达到了数十至数百万亿个 token，差距高达百万倍。
机器人技术：人类可以在数小时内学会遥控机械臂。AI 模型则需要数百万小时的示范数据，且在复杂、开放式任务上仍显吃力。
驾驶：青少年大约需要 20 小时的练习即可学会驾驶。Waymo、Tesla 等公司的自动驾驶模型使用的数据量比人类所用的多出三到四个数量级。

进化预训练：有人认为数十亿年的进化为人类提供了“预训练”。然而，人类基因组只有约 3 GB，且仅有 1‑2% 为蛋白质编码，这不足以存储一个预训练网络的参数。进化可能优化了超参数和损失函数，但连接组（即权重和参数）仍需在一生中从零构建。
多模态数据：有人指出人类通过视觉和听觉摄入更多数据，但盲人或聋人仍具备一般智能，这表明海量感官 token 流并非人类智能的主要驱动因素。
模型扩容：扩容定律表明更大的模型在样本效率上略有提升，但效果有限。根据 Chinchilla 定律，即使将参数无限增加，也只能将保持相同损失所需的数据量降低十倍，这远不足以弥合百万倍的差距。

尽管样本效率低下，AI 仍在经济上可行用于自动化白领工作，因为将海量数据“灌输”到模型中的成本可以在数十亿次用户会话中摊销。

对于软件工程师、会计师或分析师等常见任务，相关数据易于获取并纳入训练分布。虽然 AI 在学习这些任务上不如人类高效，但其能够在数百万实例上规模化输出的能力，使得低效率对底线影响不大。

某些岗位需要“分布外”思考——处理远离任何现有训练数据的问题。软件工程被视为需要此能力的典型职业。因此，到了 2028 年，对人类软件工程师的需求可能会比现在更高，因为 AI 更像是补充工具，而非完全替代。

AI 实验室的首要目标是自动化 AI 研究，旨在让自动化的 AI 研究员解决样本效率问题。这将使模型能够超越仅仅是“拼凑示例的弗兰肯斯坦怪物”，向能够以极少数据学习新边际技能的类人能力迈进。