最近看到了一则新闻,说Anthropic在今年2月23日发过一篇技术报告,名字叫《Detecting and preventing distillation attacks》,提到了3家中国公司deepseek、minimax、kimi,创建了24000个假账号,和claude模型进行了1600万次交互,用于数据硬蒸馏。
因为这些假账号都是匿名注册的,Anthropic在报告里说了这不是“法律意义上的归属”,而是通过技术层面的多个维度进行归因,多证据交叉锁定,置信度高。
报告中说这24000个假账号从不正常聊天,只进行结构化提问,要求claude模型输出思维链、解题逻辑、代码思路。就好像你新开了一家饭店,来了几批客人,不点菜不吃饭,喜欢问厨师资历、菜肴配料、进货渠道,你大概也会觉得不对劲。
1600万次交互里minimax占了大头,1300万次,喜欢问agent、代码生成、工具调用。
kimi交互了340万次,喜欢问长文本生成、多轮对话,逻辑推理。
deepseek交互了15万次,要求claude输出推理逻辑,还要求claude理解内容审查安全,要求学习怎么在不触发审查的情况下输出答案。
Anthropic吐槽说每次claude发布新版本,这24000个账号就会迎来蒸馏的高峰,之后三家公司的模型也会相应升级。当然以上都是Anthropic公司的单方声明,三家模型公司没有承认,没有回应,至今悬而未决。
什么是"蒸馏"?
我们用通俗的语言讲解下。
大模型蒸馏,可以理解成 “让一个聪明的老师,将一个复杂知识,提炼成精华,教给一个学生”。
想象一下:
蒸馏怎么教呢?
普通教法(直接用数据训练小模型):给“学生”一本标注了标准答案的练习册(比如图片对应“猫”或“狗”)。学生学完,考试时看到一只猫,答对“猫”没问题。但如果看到一只从没见过、长得有点像狗的猫,它可能就懵了。
蒸馏教法(老师教“思路”):
简单总结:
为什么要蒸馏?
一个生活的例子:
核心要点: 蒸馏不是简单复制答案,而是模仿思考和判断的方式,从而将大模型的“智慧”浓缩进一个小得多的“容器”。
因此,关于蒸馏问题的争议焦点在于,开源生态中共享知识的行为,究竟在何时会越过界线,变成对闭源商业模型知识产权的侵犯。目前,这场争论已经远远超出了技术范畴:
需要明确指出的是,这种“学习”应该是双向的,并非单向“窃取”。
此外,斯坦福大学2026年4月发布的《AI指数报告》显示,中美顶尖AI模型的性能差距已从2023年的“三位数”差距缩小至约2.7%。具体来说,全球顶尖模型Elo得分已接近或超过1500分,而中国头部模型(如Dola-seed-2.0-preview)得分也达到了1464分。回顾历史,在2025年2月,DeepSeek-R1曾以1400分的成绩一度追平美国o1模型的1405分,差距仅0.4%。
虽然在底层硬件等核心领域仍有差距,但凭借强大的工程化能力、活跃的开源生态、丰富的应用场景和国家战略的大力支持,中国已稳固了自己在全球AI版图中的关键位置。其实,关于蒸馏的各种争议,本身可能就存在着争议,但中国大模型产业正以前所未有的速度向前奔跑,中国大模型已经成为了“竞争者”,在很多关键的领域已跻身全球第一梯队,这是毋庸置疑的。
如果您认为这篇文章有些帮助,还请不吝点下文章末尾的"点赞",或者直接转发朋友圈,