Anthropic 指控阿里巴巴进行非法模型蒸馏
Anthropic 指控阿里巴巴进行非法模型蒸馏
Anthropic 指控阿里巴巴进行大规模模型蒸馏
Anthropic 正式指控阿里巴巴及其 AI 实验室 Alibaba Qwen 非法从 Claude AI 模型中提取能力。在致美国参议院银行委员会的一封信中,Anthropic 将此次行动描述为针对该公司已知的此类攻击中规模最大的一次,旨在加速中国达到 Anthropic 先进的 "Mythos Preview" 模型的能力。
攻击的规模与执行方式
根据 Anthropic 的说法,该行动发生在 2026 年 4 月 22 日至 6 月 5 日之间。该行动涉及:
- 规模: 与 Claude 进行超过 2880 万次交互。
- 基础设施: 使用了近 25,000 个欺诈账户以绕过限制。
- 方法: 模型蒸馏,即通过在更强大模型的输出上训练一个较小、能力较弱的模型,以模仿其性能。
这继受 Anthropic 在 2026 年 2 月提出的先前指控之后,当时它识别出其他中国实验室进行的类似蒸馏行动,包括 DeepSeek(超过 150,000 次交互)、Moonshot AI(超过 340 万次)和 MiniMax(超过 1300 万次)。
地缘政治与监管影响
这些指控是在美中两国关于 AI 知识产权和国家安全紧张局势加剧的背景下提出的。2026 年 4 月,白宫指控中国在工业规模上窃取美国的 AI 知识产权。
政府回应与限制
- 阿里巴巴的地位: 阿里巴巴在 2026 年 6 月被列入五角大楼的中国军事企业名单,该公司目前正在对此项认定提出挑战。
- 贸易黑名单: 虽然一个跨部门政府委员会认为 DeepSeek 构成了国家安全风险,但据报道,美国商务部已暂缓将该公司列入贸易黑名单,以避免与北京升级紧张局势。
- 模型限制: 2026 年 6 月 12 日,由于担心 Mythos 和 Fable 模型可能被中国军事情报部门使用,美国商务部对 Anthropic 最新的 Mythos 和 Fable 模型实施了限制。因此,Anthropic 在全球范围内禁用了这些模型的访问权限。
技术与行业视角
行业观察人士和技术评论员就蒸馏的性质以及 AI 训练数据的伦理问题提出了几点看法。
蒸馏的机制
一些技术分析师将蒸馏分为两种主要类型:
- 黑盒蒸馏: 一种“庞大且笨拙”的方法,即使用更强模型生成的简单问答对来训练一个模型。
- RLAIF (Reinforcement Learning from AI Feedback): 一种更具针对性的方法,其中一个模型直接指导另一个模型的训练,这在许多商业微调工作流中很常见。
“Token 转售”经济
报告显示,存在一个复杂的中国转售商生态系统,这些转售商以 70-90% 的折扣提供 Claude tokens。这些转售商据称使用池化账户和支付欺诈来提供访问,通过以用户日志和推理轨迹为代价来补贴成本,然后将这些数据作为训练数据出售给中国 AI 实验室。
伦理与法律辩论
鉴于大语言模型 (LLM) 训练的性质,技术社区中的许多人认为 Anthropic 的投诉是虚伪的。
"抓取整个互联网来构建一个庞大的 LLM,然后抱怨你被复制了..."
批评者认为,由于 LLM 是在没有明确同意或补偿的情况下,使用海量的人类生成内容数据集进行训练的,因此蒸馏一个模型输出的行为在根本上与原始训练过程相似。其他人则认为,Anthropic 的公开抗议是一种战略举措,旨在寻求政府保护并进一步加强对芯片的出口管制,以维护竞争优势。