近日,摩尔线程的旗舰级AI训推一体智算卡MTT S5000,借助自主研发的MUSA软件栈和SGLang开源推理框架,在DeepSeek-V4模型上完成了完整的运行验证。
目前,公司已建立起一套涵盖硬件架构核心计算引擎、热点算子支持以及端到端部署验证的系统化适配链路,展示了国产GPU在前沿大模型“框架级兼容、开箱即落地”方面的能力。
随着大模型架构的发展,DeepSeek-V4等高级别模型对底层精度能力、算子覆盖度、编译优化以及并行通信和推理效率提出了更高的要求。
摩尔线程凭借S5000的原生FP8运算性能、MUSA与CUDA的高度兼容性,以及TileLang MUSA编译器对于TileLang生态的支持,结合TileKernels开源库的应用,快速实现了DeepSeek-V4推理适配链路的贯通。
值得一提的是,TileLang-MUSA现已正式纳入TileLang官方主线,并为最新发布的TileKernels算子库提供了无缝支持。
这表明MUSA平台已经具备了承载前沿LLM算子生态的基础能力,从而简化未来先进开源模型的适配过程。
▼ TileKernels算子库地址:
https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels
▼ TileLang-MUSA地址:
https://github.com/tile-ai/tilelang-musa

三层技术路径助力DeepSeek-V4工程化适配
此次验证确立了一条新模型快速推理部署的系统化途径,通过MUSA对CUDA的全栈兼容性实现核心主流AI框架迅速适应,并利用TileKernels算子替代标准融合模式。此外,基于TileLang快捷开发自定义算子也发挥了重要作用。
首先,MUSA软件栈提供了DeepSeek开源仓库内关键计算和通信算子在S5000上的快速适配功能,如Attention、FP8 GEMM等。
其次,对于SwiGLU + FP8 quant这类标准融合模式,S5000可以直接复用DeepSeek TileKernels的原生算子,并通过摩尔线程MATE开源算子库在layout、dtype及接口层面与DeepGEMM实现深度兼容。
由于MUSA对AI软件生态的良好支持,使得DeepSeek-V4能够在MUSA平台上快速完成从核心算子适配到端到端性能优化的全过程加速。
最后,针对DeepSeek-V4特有的计算负载,摩尔线程通过AI Agent实现了TileLang Kernel自动生成及调试,并围绕多个关键自定义算子如RMSNorm、RoPE等完成了快速开发和集成。
该方法在确保计算语义零偏差的同时,显著缩短了Kernel级开发与适配的周期,并进一步提升了关键算子的性能表现。
原生FP8支持推动混合精度推理
上述三层路径的成功打通得益于摩尔线程S5000在原生FP8算力方面的强大支撑,全面承接了前沿混合精度模型推理需求,并通过高效利用显存带宽和低显存占用实现了高吞吐量。
该能力与DeepSeek V4等先进MoE模型的精度演进范式高度契合,确保核心算子如DeepGEMM、FlashMLA、DeepEP在MUSA平台上的快速适配。
围绕原生FP8的能力,摩尔线程完成了包括激活量化(SwiGLU FP8 quant)、MoE路由(routing)、注意力预处理、缓存管理及解码压缩在内的关键模块适配,并通过多层次回归测试验证了其正确性和稳定性。
FlashMLA DSA优化,提升长上下文推理性能
在完成完整模型链路适配后,摩尔线程在S5000上对FlashMLA DSA的Prefill(预填充)与Decode场景进行了专项优化。通过一致的底层逻辑优化,消除了额外的缓存重排开销,并支持Original + Extra双路KV Cache机制及动态Top-k长度。
该方案显著提升了长上下文和稀疏注意力场景下的计算效率,最终DSA Prefill及Decode算子BF16 Tensor算力利用率可达50%,未来还将持续优化。
四层验证体系保障生产级稳定性和确定性
摩尔线程围绕完整推理链路建立了一套包含MUSA Kernel验证、算子级精度对齐、优化路径选择以及端到端场景回归的四层验证体系,确保关键算子在实际运行中的正确性和稳定性。
目前,摩尔线程基于DeepSeek-V4的工作已进入性能调优、长上下文能力完善与生产级稳定性的测试阶段。
▼ DeepSeek-V4推理服务部署指南:
https://blog.mthreads.com/blog/AI/2026-04-30-DeepSeek-V4%20%E6%8E%A8%E7%90%86%E6%9C%8D%E5%8A%A1%E9%83%A8%E7%BD%B2%E6%8C%87%E5%8D%97/
https://blog.mthreads.com/blog/AI/2026-04-30-DeepSeek-V4%20%E6%8E%A8%E7%90%86%E6%9C%8D%E5%8A%A1%E9%83%A8%E7%BD%B2%E6%8C%87%E5%8D%97/
【本文结束】如需转载请务必注明出处:快科技
