本文探讨了AI行业的最新争议。
2月23日,美国人工智能公司Anthropic在官网发布了一份调查报告,指责三家中国头部企业——深度求索(DeepSeek)、月之暗面(Moonshot)和稀宇科技(MiniMax),对他们的模型Claude实施大规模的蒸馏攻击。
这不是中国企业首次卷入此类争议。两周前,OpenAI向美国国会提交了一份内部备忘录,指控DeepSeek未经授权访问并利用GPT系列的技术成果进行商业运作。
此次Anthropic提供了详实的数据证明:约2.4万个虚假账户、超过1600万次的互动,以及“九头蛇集群”这样的分布式架构,被用来伪装成正常流量,系统性地从Claude中提取推理能力及编程数据。
然而,这份指控并未得到行业广泛支持。xAI创始人埃隆·马斯克在X平台上讽刺道:“他们怎么敢窃取人类程序员辛苦创造出来的成果?”
这一反驳直接触及了Anthropic的痛点:仅仅一年前,该公司才因为盗版书籍侵权诉讼支付了15亿美元的巨额赔偿。
硅谷评论家格尔盖伊·奥罗斯质疑:“Anthropic自己也未遵守版权法,却指责他人违反道德规范。”
当行业惯例遭遇政治叙事时,“偷”与“被偷”的争论便不可避免地发酵起来。最终谁会败下阵来?
为理解这场争议的本质,首先必须明白蒸馏技术的含义。
一、蒸馏指控事件
知识蒸馏是机器学习领域的一项成熟且广泛应用的技术,其核心理念在于通过强大的教师模型输出训练较小的学生模型,在参数规模更小、运行成本更低的情况下重现老师的性能。
Anthropic在其博客中承认:“前沿实验室会定期使用自己的模型进行知识蒸馏,以提供更加紧凑和经济的版本。”
争议的核心并不在于技术本身,而是在于“谁蒸馏谁”,以及“如何实施蒸馏”。
根据商业合同条款,三家公司确实在未经授权的情况下大规模提取了Claude的数据用于训练自己的模型,这显然违反了Anthropic的服务协议。
但从法律角度看,“偷窃”的说法并不准确。根据美国版权局的规定,AI输出本身不受版权保护,因此蒸馏行为更像是一种合同违约问题而非知识产权盗窃。
行业内对此存在不同的看法,多位开发者指出,用竞争对手的API数据训练自家模型已经成为一种普遍现象。
Anthropic通过一篇博文中巧妙地将技术争议转化为政治叙事,将其包装成“国家安全”威胁和“出口管制”问题。
有分析人士认为:“Anthropic正在从一个单纯的技术事件中提炼出一套服务于自身利益的政治话语。”
此外,这一指控的时机值得注意:在与美国国防部合作谈判受阻、面临失去2亿美元国防合同风险之际发布此类指责,可以看作是其向政府展示忠诚度的战略动作。
DeepSeek并不是第一次面对这样的挑战。此前,OpenAI已经就其通过混淆手段获取GPT模型数据的行为提出过警告,但DeepSeek坚称自己的成功在于技术创新而非窃取成果。
在更广泛的市场竞争格局中观察,DeepSeek的定位尤其独特:它专注于底层模型的研发,而不是直接面向消费者市场或者特定垂直领域。这种选择让它在开发者社区获得了强大的影响力,但也带来了商业模式上的挑战。
深度求索代表了一种不同的发展路径——用算法创新来应对算力限制,这种方法在全球范围内赢得了众多追随者和赞誉。
然而,DeepSeek专注于文本和编程领域的策略也可能导致它错过其他新兴技术趋势的发展机遇。
另一方面,“无商业模式”的现状既为团队提供了专注技术研发的自由空间,又构成了长期可持续发展的障碍。一旦其背后的母公司幻方量化面临业绩波动或外部环境变化时,这种状况将受到考验。
通过回顾整个事件,可以发现所谓的“偷窃”行为实际上反映了商业竞争中的策略选择问题。
在算力资源受限的背景下,DeepSeek所代表的发展路径为中国AI企业开辟了一条独特的发展道路。这条道路上既有技术上的较量也有规则层面的博弈。
对中国公司而言,不仅需要在技术创新上“并跑”,更要在规则制定和国际对话中寻求可持续发展之道。它们既值得被肯定也需接受审视,在不断改写游戏规则的同时面对相应的挑战与考验。
但细看数据会发现一个有趣的细节:三家公司中, MiniMax 的交互次数超过 1300 万,月之暗面超过 340 万,而 DeepSeek 只有约 15 万,占比不到 1% 。
Anthropic 之所以把 DeepSeek 放在标题第一位,很大程度上是因为这个名字在华盛顿的“知名度”。自 2025 年初以来,它已成为美国 AI 政策辩论中最具标志性的中国符号。
这种知名度,源于 DeepSeek 身上挥之不去的两面性。
一面是“技术突围”的叙事。
在高端芯片出口受限、算力资源紧张的背景下, DeepSeek 确实做出了一些让人印象深刻的成果。
2025 年初发布的 R1 模型,训练成本据称只有约 560 万美元,却在多项推理测试中比肩 OpenAI 的 o1 。这种“少花钱办大事”的能力,让它在全球开发者社区赢得了不少口碑。
一位国内智能体开发者这样评价:“ DeepSeek 对社区最大的贡献,就是把 Token 的成本打下来,让更多开发者能接触 AI 开发。如果都学海外巨头烧算力,这种低成本时代将一去不复返。”
Hugging Face 在“ DeepSeek 时刻一周年”的文章中也承认, R1 降低了三重壁垒:技术壁垒(将高级推理能力转化为可复用的工程资产)、采用壁垒(开源许可让部署变得简单)、心理壁垒(证明中国团队也能定义技术范式)。
另一面是“路径依赖”的质疑。
围绕 DeepSeek 的争议从未停歇。就在本月初, OpenAI 刚向美国国会提交备忘录,指控 DeepSeek 绕过安全防护对 GPT 系列实施蒸馏。
尽管 DeepSeek 方面反问“如果真是偷的,上哪儿偷去?”,并强调自身优势源于 GRPO 强化学习和 MoE 稀疏专家系统等架构创新,但这种自辩在舆论场上的说服力有限。
原因很简单: DeepSeek 没有公开其训练数据集。
在开源社区,它虽然开放了模型权重和各种工具库,但最关键的数据来源始终处于黑箱状态。 Artificial Analysis 的数据显示,目前全球开放程度排名前三的模型分别来自英伟达、 Allen Institute 和阿联酋的 MBZUAI , DeepSeek 并未上榜。
这种“半开放”状态,让它始终无法摆脱外界的质疑:如果真的是靠架构创新做到的,为什么不公开数据自证清白?
微妙的一点还在于, DeepSeek 的“低成本神话”本身也在被重新审视。
虽然 R1 的训练成本号称 560 万美元,但这只是单次训练的费用。背后的研发投入、试错成本、算力采购,都由其母公司幻方量化承担——而幻方是国内顶尖的量化基金, 2025 年以 53% 的回报率赚了超 7 亿美元利润。
换句话说, DeepSeek 的“低成本”,是建立在母公司“高投入”基础上的。如果没有这座“印钞机”持续输血,所谓的“性价比优势”还能维持多久?
三、效率革命与规模信仰的碰撞
如果将 DeepSeek 放在更广阔的竞争格局中观察,它的特殊性会变得更加清晰。
过去一年,中国 AI 头部企业逐渐走出了差异化的路线。智谱选择的是“智能体工程化”方向,更关注模型在实际任务中的可靠性和落地能力;月之暗面则走“ C 端投流”路线,用重金换用户心智; MiniMax 押注“轻量级效率”,用小参数模型切入编程赛道。
这三家虽然策略各异,但方向都很明确:尽快找到商业化的切口,在应用层建立壁垒。
相比之下, DeepSeek 的定位最为特殊。它既不做投流抢 C 端——创始人梁文锋曾表示, C 端应用更像是“技术展示厅”和“数据采集器”;也不做垂直场景深耕——团队始终将重心放在底层模型的迭代上。
DeepSeek 选择把自己定位为“开源基建的提供者”。根据 OpenRouter 统计, DeepSeek-V3 和 R1 的 Token 吞吐量一度占所有开源模型的一半以上。当全球开发者在做蒸馏、微调、魔改时,都将 DeepSeek 作为第一梯队选择。
这种开发者心智的占领,形成了隐性的技术定价权。
但这种“基建”定位,也意味着它离钱最远。当同行们已经开始通过 API 服务变现、探索付费订阅时, DeepSeek 至今没有清晰的商业模式。而在算力资源普遍紧张的行业背景下,这种状态能持续多久,是一个需要回答的问题。
将视野拉至全球, DeepSeek 代表的路线与西方巨头形成鲜明对照。
OpenAI 、 Google 、 Anthropic 信奉的是“规模信仰”: GPT-5.2 的训练成本约 5 亿美元, OpenAI 未来数年的 AI 基础设施支出预计超过 1.4 万亿美元。
它们相信,更大的模型、更多的数据、更长的训练时间,最终会带来质的飞跃。这是一种“力大砖飞”的逻辑,只要算力堆得足够多,总能砸出突破。
DeepSeek 代表的则是“效率革命”:用算法创新对冲算力封锁,用系统优化替代硬件堆砌。
即将发布的V4据称在编程能力上可以比肩 Claude ,而成本只有后者的几十分之一。摩根士丹利的报告中有句话被反复引用:“ DeepSeek 正在证明, AI 能力的下一次飞跃可能不是来自更多的 GPU ,而是来自学会如何在约束条件下思考。”
这种路径让 DeepSeek 在全球开发者社区赢得了不少拥趸,英伟达 CEO 黄仁勋也评价其为“让整个世界惊讶的开源模型代表”。
显而易见的是, DeepSeek 的“效率优先”存在固有局限。
在多模态领域,它的布局明显滞后——当智谱、阿里、腾讯纷纷发力视觉语言联合理解,当视频生成、语音合成赛道争夺“下一个 DeepSeek 时刻”, DeepSeek 仍将重心聚焦在纯文本和代码能力上。
这种专注或许是资源有限的主动取舍,但也可能使其错失下一波技术红利。
更值得警惕的是, DeepSeek 的“无商业模式”本身就是一把双刃剑。
一方面,它让团队可以不被资本裹挟、专注于技术理想;另一方面,没有自我造血能力意味着持续的研发投入必须依赖母公司幻方量化的输血。
2025 年,幻方以 53% 的回报率赚了超过 7 亿美元利润,这为 DeepSeek 提供了充足的弹药。可一旦幻方业绩波动,或外部环境变化,这种“自由人”状态将面临严峻考验。
在 DeepSeek 走红一周年之际,这些问题或许比“蒸馏是否算偷”更值得追问。
四、结语:蒸馏之外
回看 Anthropic 的蒸馏指控,一个悖论浮出水面: DeepSeek 被指控的“罪”,恰恰是西方巨头最擅长的“术”。
当 Anthropic 一边用盗版书籍蒸馏 Claude ,一边指责他人蒸馏自己的输出;当 OpenAI 一边靠每月 20 美元订阅费构筑商业模式,一边警惕开源模型侵蚀市场份额。
所谓的“偷”,更像是一场精心包装的商业竞争叙事。
剥离舆论迷雾, DeepSeek 的真正启示在于:在算力封锁的硬约束下,中国 AI 走出了一条独特的突围路径。
在这个由 DeepSeek 定义下限、由巨头定义上限的折叠空间里,真正的战争才刚刚开始。
比蒸馏争议更重要的,或许是找到一条既能在技术上“并跑”、又能在规则上“对话”的可持续发展之路。
DeepSeek 等中国企业值得被赞赏,也值得被审视;它们正在改写规则,也必须面对规则的拷问。
