今日上午,DeepSeek-V4 模型的预览版已正式推出并同步开放了源代码。

华为官方紧接着宣布,通过双方在芯片和模型技术上的紧密合作,昇腾超节点全系列产品现已支持 DeepSeek V4 系列模型。
公司指出,利用融合内核技术和多流并行处理策略,昇腾 950 设备能够显著减少 Attention 计算的内存访问成本,并提高了推理性能。结合了多种量化技术后,DeepSeek V4 实现了高效且低延迟的表现。此外,昇腾 A3 超节点系列产品也已全面兼容。
升腾 950 超节点在处理 8K 输入时,基于 DeepSeek V4-Pro 模型可以达到约 20ms 的单卡解码吞吐量为每秒 4700TPS。而在相同条件下,DeepSeek V4-Flash 模型可实现约 10ms 内的单卡解码吞吐量为每秒 1600TPS(以上性能数据均是在离线推理模式下采集)。
当使用昇腾 A3 64 卡超节点结合大 EP 模式部署时,DeepSeek V4-Flash 模型在处理 8K 和 1K 的输入输出场景中,基于 vLLM 推理引擎可以达到单卡解码吞吐量超过 2000TPS。此外,昇腾 A3 同步支持 DeepSeek V4-Pro 模型的推理部署,并将持续优化性能。
