

新版本更实惠、更快,进一步推动Agent和国产替代的发展。
作者|卫琳聪 周悦
深度探索(DeepSeek)终于发布了它的V4版本。
自上一个版本发布至今已过去了大约五个月时间,在这期间虽然有各种关于新版本的消息传出,但最终都是空欢喜一场。直到今天,人们才得以见证这一期待已久的更新。
今年四月二十四日,DeepSeek-V4 的预览版正式上线,并同步开源了源代码,官方宣称将进入“百万上下文普惠时代”。
此次发布的版本包括两款MoE语言模型:DeepSeek-V4-Pro和DeepSeek-V4-Flash。
前者总参数量为1.6万亿、激活参数为490亿;后者则拥有2840亿的总参数,以及130亿的激活参数。这两款产品都支持一百万token以上的上下文处理能力。
若仅从百万级上下文的能力来看,在V4发布之前市场已有多个模型能够实现此功能,比如谷歌的Gemini和阿里的Qwen等。
DeepSeek-V4 最令人瞩目的特点在于效率上的突破,不仅性能得到了提升,同时成本也有所下降,特别是让Agent变得更便宜成为了可能。
更重要的是,V4在打破算力限制方面提供了更大的可能性,标志着大模型的计算平台从英伟达向华为迈出了坚实的一步。
1.转向Agent
根据DeepSeek官方的说法,在Agent能力、世界知识和推理性能等方面,V4均达到了国内与开源领域的领先地位。
其中,DeepSeek-V4-Pro 的表现可以媲美顶级的闭源模型。
在世界知识评测方面,DeepSeek-V4-Pro 显著领先于其他开源模型,并且仅稍逊色于Gemini-Pro-3.1。在推理性能上,它也超过了所有已公开测试过的开源模型,并且达到了顶尖闭源模型的水平。
不过,在最大推理强度模式下,DeepSeek-V4-Pro-Max 与 GPT-5.4 和 Gemini 3.1-Pro 相比仍然稍有差距。这表明其发展速度大约落后于最前沿的技术约三到六个月的时间。

DeepSeek-V4-Pro-Max 的基准性能对比
需要特别指出的是,DeepSeek-V4-Pro 在Agent 能力上有了显著提高。
对于技术报告的深入分析显示,从V3.1到V3.2版本再到现在的V4,DeepSeek正在更加注重工具调用和Agent能力的发展。在V4中,这一发展趋势更为明显。
技术文档里涵盖了各种真实的任务测试结果,包括工具调用格式、推理内容管理等细节。这些评估主要关注模型能否以低成本完成多步任务中的工具调用、保持状态并继续执行。
随着Agent能力的提升,V4提供的价格也更加亲民。Flash版本在缓存命中的情况下输入成本低至每百万Token仅0.2元人民币。这对需要进行大量且多轮次交互的应用来说无疑是一个好消息。
性能增强和费用降低使DeepSeek V4 在推动Agent的发展方面更具竞争力,并有望进一步促进其普及化应用。
2.更便宜、更快
此次V4系列的最大亮点在于在长上下文场景中的卓越效率表现。
在百万Token的设置下,V4-Pro 的单token推理FLOPs仅占V3.2版本的27%,所需的KV缓存空间也仅为原来的十分之一。
而参数激活数较少的DeepSeek-V4-Flash进一步提升了效率:在处理百万上下文时,其单Token推理FLOPs为V3.2的10%,所需KV缓存容量只有原版本的7%。

DeepSeek-V4系列与DeepSeek-V3.2 的推理FLOPs计算量及KV缓存容量对比
据此,DeepSeek官方宣布“从现在开始,所有官方服务都将标配1M(百万)上下文”。
这一变动意味着成本的显著降低。
处理每个Token所需的总计算量大幅减少,使得在云端处理每条请求时消耗的电力、硬件磨损及运营费用都大幅度下降。这正是DeepSeek敢于将API定价降至行业最低的原因所在。
DeepSeek V4-Flash的价格为每百万Token 2元人民币,仅为同日发布的GPT-5.5 Pro价格(180美元)的大约千分之二。

更低的成本也意味着更快的速度。由于KV缓存占用的减少,这也有助于提升并发处理能力和长上下文请求响应效率。
这样一来,许多以前被认为是昂贵的应用场景将变得更为经济可行。例如,在整个代码库中进行跨文件“智能体编程”、让AI执行长时间自主规划与反思等任务都将变得更加现实。
效率的提升源于工程技术上的创新。
专家认为,在延续底层工程哲学的基础上,V4主要关注两个问题:一是如何以低成本支持百万token以上的上下文处理;二是如何使更复杂的模型结构和后训练流程稳定运行。
其中一个核心的技术革新是混合注意力机制(HybridAttention),这使得V4的长上下文效率大幅提升。
当大模型生成内容时,需要不断回溯之前的上下文信息。上下文越长,保存并调用KV缓存所需的空间也就越大,每次生成新Token时推理开销也会随之增加。DeepSeek-V4 的方法是将长上下文分层处理,并结合压缩稀疏注意力(CSA)和重度压缩注意力(HCA)。
具体而言,V4采用了这种混合策略:通过CSA 压缩KV信息并筛选出与当前query最相关的部分参与计算;同时利用 HCA 以更高的压缩率保留远距离上下文的粗粒度信息。此外,滑动窗口注意力(SWA)则负责处理近处上下文中的细节问题。
这种机制可以形象地理解为:传统方法像是把整本书逐页摊开然后每次答题都重新翻一遍;而V4 则更像是一个智能索引器,将近处内容保留原文并把远处内容压缩成章节摘要的形式进行快速检索。
另一项重要的架构创新是流形约束超连接(mHC),用于增强模型内部的信息传输稳定性。混合注意力机制解决了“怎样看长文本”的问题,而 mHC 则处理了信息如何稳定地在模型内部传递的问题。
技术报告指出,通过重计算、融合算子等工程优化手段,mHC 带来的额外训练时间开销被控制在一个大约6.7%的范围内。这表明它不仅是一个理论构想,而且是适合大规模生产训练的实际设计。
DeepSeek 对V4 的架构充满信心,并表示其性能可与GPT-5.2 和 Gemini-3.0-Pro 相媲美,确立了在处理复杂推理任务方面的高性价比地位。

深度探索 V4 系列的整体架构展示
3.加速国产替代
另一个值得注意的地方是,这次发布的V4版本与华为的关系更为密切。
技术报告中提到的一个细节是:DeepSeek的细粒度专家并行优化方案已经在英伟达GPU和华为昇腾NPU上得到了验证。
这种方案在通用推理负载下带来了大约10%到30%的速度提升,在某些场景下的性能增幅甚至超过了50%。这进一步证明了其潜在的应用价值。
即使是在现有的硬件条件下,DeepSeek-V4系列所采用的FP4精度也使得运算效率有了显著提高。虽然目前FP4×FP8 运算与FP8 × FP8 运算在峰值FLOPs性能上相同,但未来硬件成熟后,其效率预计可提升三分之一。
从V3版本开始,DeepSeek 就不再单纯依赖于参数规模的增加来改善模型性能,而是持续优化训练效率、显存占用和硬件利用率。在训练工程方面,V4引入了Muon优化器,并进一步使用FP4/FP8低精度训练技术以降低显存、带宽和推理成本。
这种设计思路预示着:虽然当前硬件选择的是成熟的 FP8×FP8 路线,但架构上已经为未来的FP4×FP8混合精度运算做好了准备。一旦硬件成熟,效率将会有显著提升。
也就是说,未来V4有望在单卡上运行更大的模型,并且推理成本也会进一步下降。
同时,基于DeepSeek的高效架构设计,即使国产AI芯片单卡算力绝对值不如英伟达等顶级产品,也能凭借其高吞吐、低显存占用的优势有效运行大模型。
这无疑为打破算力束缚、加快国产替代的步伐提供了强有力的支持。
同时,基于DeepSeek的高效架构,即使国产AI芯片单卡算力绝对值不如英伟达等顶级产品,也能凭借其高吞吐、低显存占用的优势运行大模型。
这无疑进一步打破了算力束缚,国产替代的步伐加快了。
(封面图由AI生成,文中配图来自:DeepSeek)


