Anthropic 指控阿里巴巴进行非法模型蒸馏

Anthropic 指控阿里巴巴进行大规模模型蒸馏

Anthropic 正式指控阿里巴巴及其 AI 实验室 Alibaba Qwen 非法从 Claude AI 模型中提取能力。在致美国参议院银行委员会的一封信中，Anthropic 将此次行动描述为针对该公司已知的此类攻击中规模最大的一次，旨在加速中国达到 Anthropic 先进的 "Mythos Preview" 模型的能力。

攻击的规模与执行方式

根据 Anthropic 的说法，该行动发生在 2026 年 4 月 22 日至 6 月 5 日之间。该行动涉及：

规模： 与 Claude 进行超过 2880 万次交互。
基础设施： 使用了近 25,000 个欺诈账户以绕过限制。
方法： 模型蒸馏，即通过在更强大模型的输出上训练一个较小、能力较弱的模型，以模仿其性能。

这继受 Anthropic 在 2026 年 2 月提出的先前指控之后，当时它识别出其他中国实验室进行的类似蒸馏行动，包括 DeepSeek（超过 150,000 次交互）、Moonshot AI（超过 340 万次）和 MiniMax（超过 1300 万次）。

地缘政治与监管影响

这些指控是在美中两国关于 AI 知识产权和国家安全紧张局势加剧的背景下提出的。2026 年 4 月，白宫指控中国在工业规模上窃取美国的 AI 知识产权。

政府回应与限制

阿里巴巴的地位： 阿里巴巴在 2026 年 6 月被列入五角大楼的中国军事企业名单，该公司目前正在对此项认定提出挑战。
贸易黑名单： 虽然一个跨部门政府委员会认为 DeepSeek 构成了国家安全风险，但据报道，美国商务部已暂缓将该公司列入贸易黑名单，以避免与北京升级紧张局势。
模型限制： 2026 年 6 月 12 日，由于担心 Mythos 和 Fable 模型可能被中国军事情报部门使用，美国商务部对 Anthropic 最新的 Mythos 和 Fable 模型实施了限制。因此，Anthropic 在全球范围内禁用了这些模型的访问权限。

技术与行业视角

行业观察人士和技术评论员就蒸馏的性质以及 AI 训练数据的伦理问题提出了几点看法。

蒸馏的机制

一些技术分析师将蒸馏分为两种主要类型：

黑盒蒸馏： 一种“庞大且笨拙”的方法，即使用更强模型生成的简单问答对来训练一个模型。
RLAIF (Reinforcement Learning from AI Feedback)： 一种更具针对性的方法，其中一个模型直接指导另一个模型的训练，这在许多商业微调工作流中很常见。

“Token 转售”经济

报告显示，存在一个复杂的中国转售商生态系统，这些转售商以 70-90% 的折扣提供 Claude tokens。这些转售商据称使用池化账户和支付欺诈来提供访问，通过以用户日志和推理轨迹为代价来补贴成本，然后将这些数据作为训练数据出售给中国 AI 实验室。

伦理与法律辩论

鉴于大语言模型 (LLM) 训练的性质，技术社区中的许多人认为 Anthropic 的投诉是虚伪的。

"抓取整个互联网来构建一个庞大的 LLM，然后抱怨你被复制了..."

批评者认为，由于 LLM 是在没有明确同意或补偿的情况下，使用海量的人类生成内容数据集进行训练的，因此蒸馏一个模型输出的行为在根本上与原始训练过程相似。其他人则认为，Anthropic 的公开抗议是一种战略举措，旨在寻求政府保护并进一步加强对芯片的出口管制，以维护竞争优势。

Anthropic 指控阿里巴巴进行非法模型蒸馏

Anthropic 指控阿里巴巴进行非法模型蒸馏

Anthropic 指控阿里巴巴进行大规模模型蒸馏

攻击的规模与执行方式

地缘政治与监管影响

政府回应与限制

技术与行业视角

蒸馏的机制

“Token 转售”经济

伦理与法律辩论

Sources