
崔奔雷(阿里巴巴)和何少轩(浙江大学实习生),他们的研究集中在多模态理解和生成领域。文章的通讯作者为洪海文(阿里巴巴)与赵洲(浙江大学),他们分别专注于多模态大语言模型和语音理解生成。
近几年,扩散模型成为了图像、音频及视频等多模式数据生成的关键技术,并在实际生产中获得了广泛应用。然而,在落地过程中仍然存在一些瓶颈:工业级别的推理预算通常限制为 20 至 30 步,即便如此,许多加速方法依旧会遇到纹理错乱、颜色漂移和路径偏差等问题,进而影响到最终的输出质量和稳定性。
这一问题也在生成技术的大规模应用中造成了阻碍。特别是在需要补充高风险样本或构造对抗性变异样本的安全场景下尤为明显。由于这些图片及视频具有传播速度快且危害大的特点,但其样本数量有限,因此借助生成技术来大量合成相关数据对提升审核模型的识别能力显得尤为重要。
此外,在AI时代用户生成变异内容的成本大幅降低,导致了更高的对抗压力。为了应对这种情况,在管理侧引入生成技术以构造对抗训练样本、增强审核模型鲁棒性的策略变得必要起来。不过,扩散模型在大规模工业应用中的推理延迟问题仍然难以接受。因此如何在有限的步数预算内同时保证生成质量和提高计算效率成为了当前亟待解决的问题。
为了解决上述挑战,阿里巴巴安全 AGI 实验室与浙江大学合作提出了一种全新的加速方法——TC-Padé(轨迹一致帕德逼近),该技术基于帕德近似构建残差预测框架,在无需额外训练的情况下实现了对扩散采样过程的高效加速,并在低步数设置下仍保持了稳定且高质量的结果。实验结果显示,这项新技术在图像生成、视频生成以及类别条件下的图像生成任务中均表现出色。
此研究成果已被 CVPR 2026 收录。

- 论文标题:TC-Padé: 轨迹一致帕德逼近用于扩散加速
- 针对现有扩散模型在实际应用中的核心限制,即推理效率低下问题,研究人员探讨了多种缓解策略。扩散采样过程需要进行多次迭代去噪操作,导致每个样本的生成成本较高。
- 为了解决这个问题,近年来开发了许多加速方案,其中包括一类重要的特征缓存技术。这类方法通过减少重复计算来实现 “免训练、可插拔”的推理效率提升,并主要分为直接复用中间特征和根据历史趋势预测未来特征两种策略。
一、研究背景
尽管这些方法在较高的采样步数(如50 步)中显示出一定的加速效果,但在实际工业场景更常见的 20 至 30 步低步数采样下,其局限性变得尤为突出。具体来说,在这种情况下,特征变化不再平滑,缓存复用方法可能会因为缓存信息与当前状态不匹配而产生偏差,多项式外推类方法则可能因误差积累导致轨迹漂移。
实验表明,TC-Padé 方法在 20 步采样下依然能够保持更高的视觉质量和生成效果。相比之下,其他加速技术在这种低步数设置中往往会导致明显的画质下降。
为何现有方法在低步数条件下表现不佳?这主要是因为时间间隔增大导致特征变化更加复杂和不可预测,使得直接缓存或外推预测变得困难且容易产生误差。
图表分析显示,在相同采样步骤下,TC-Padé 方法能够更好地保持与原始轨迹的一致性,显示出更强的稳定性优势。
二、研究方法:TC-Padé 的关键创新点
针对上述挑战,本文提出了 TC-Padé 技术,从预测对象选择、预测形式设计及采样阶段策略三个维度重新构建扩散模型加速框架,主要包含以下两方面:
(一)基于帕德逼近的残差预测:该方法通过分析和预测特征变化中的关键部分来实现高效的计算节省。
(二)步感知预测策略与轨迹稳定性自适应判别机制:结合了对不同阶段计算需求的理解,以及动态调整预测精度以优化效率和质量之间的平衡。

三、实验亮点:低步数条件下依然保持高质量生成
在图像生成任务中,TC-Padé 方法在 FLUX.1-dev 数据集上显示了其卓越的加速效果。具体来说:
(一)实现了高达2.88倍的速度提升。

(二)在 FID、CLIP Score 等指标上的性能与原模型接近,而在 PSNR、SSIM 和 LPIPS 等保真度评价上则明显优于其他缓存类方法。
在视频生成任务中,TC-Padé 方法同样表现优异。尽管视频生成对一致性的要求更高,但该技术在 Wan2.1-1.3B 视频模型上的实验结果表明:
(一)实现了大约 1.72 倍的加速比,并减少了 1.74 倍的计算量。
(二)VBench-2.0 总评分仅略低于原始 20 步基线值。
在类别条件图像生成任务中,TC-Padé 方法同样展示了其稳健性能。具体而言:
残差定义如下:
![]()
(一)实现了约1.46倍的时间加速。
(二)在 FID 上优于对比的缓存加速方法。

(三)Precision 和 Recall 维持了较好的平衡。

TC-Padé 方法针对扩散模型低步数采样中“加速容易、稳定难”的核心问题,提供了一套兼顾理论与实践的新方案。通过基于帕德逼近的残差预测、步感知预测策略以及轨迹稳定性自适应判别机制,在无需训练的情况下显著提升了扩散推理效率,并在多个任务上保持了高质量生成效果。对于追求低延迟、高吞吐量和可落地部署的应用场景,TC-Padé 提供了一种具有现实价值的技术路线,并为未来扩散模型的进一步优化开拓了新方向。
![]()
这一设计避免了直接在高维原始特征空间进行预测,使模型能够更聚焦于结构更稳定的残差动态,从而有效降低低步数采样中的误差累积问题。
2、创新二:面向去噪阶段差异的步感知预测策略
扩散模型在不同采样阶段的动态特性并不相同:早期阶段,噪声高,结构变化剧烈;中期阶段,整体结构逐渐稳定,适合进行轨迹预测;后期阶段,主要进行细节修复与纹理优化。现有方法通常采用统一策略处理整个去噪过程,难以适应不同阶段的变化特点。为此,TC-Padé 提出了一种去噪步感知(step-aware)预测策略,针对不同阶段采用不同的残差更新方式:

其中,T 为总去噪步数。这一策略使 TC-Padé 能够在采样早期避免过度外推,在中期充分发挥 Padé 逼近的优势,并在后期捕捉更细粒度的变化趋势,从而提升整体加速过程的稳定性与生成质量。
3、创新三:自适应轨迹稳定性判别机制
除了预测方式的设计外,TC-Padé 还引入了一个轨迹稳定性指标(Trajectory Stableness Indicator, TSI),用于判断当前时间段是否适合跳过计算、直接使用预测结果。其定义为:

当轨迹变化平稳时,模型可安全地跳过部分计算并采用预测;当轨迹不稳定时,则恢复完整计算,以保证生成质量。这样就实现了在稳定区间尽可能加速,在关键变化区间保留精细计算的自适应推理机制。

图 3 在每个缓存区间内,系统通过轨迹稳定性指标动态判断是执行完整计算还是进行残差预测
三、实验亮点:低步数下依然保持高质量与高速度
(一)图像生成任务:更快的同时保持更高保真度
在文本到图像生成任务中,TC-Padé 在 FLUX.1-dev 上展现出非常突出的效率 — 质量平衡能力。实验结果表明:
(1)TC-Padé(fast)实现 2.88× 加速
(2)在 FID、CLIP Score 等指标上保持与原始模型接近的性能
(3)在 PSNR、SSIM、LPIPS 等保真度指标上明显优于其他缓存类方法
相比之下,已有方法虽然在部分设置下可以进一步压缩 FLOPs,但往往伴随显著的画质下降,甚至出现无法接受的图像退化。TC-Padé 则在较高加速比下依然能够保持良好的纹理、结构与语义一致性。

表 1 方法在实现高达 2.88× 加速的同时,依然保持高质量图像生成效果
(二)视频生成任务:在时序生成中同样有效
视频生成对一致性要求更高,任何预测偏差都可能在时间维度被进一步放大。即便如此,TC-Padé 仍在 Wan2.1-1.3B 视频生成模型上取得了优异结果:
(1)1.72× 推理加速,1.74× FLOPs 降低
(2)VBench-2.0 总分仅较原始 20 步基线小幅下降
(3)在 PSNR、SSIM、LPIPS 等指标上显著优于泰勒预测类方法
这说明 TC-Padé 不仅适用于静态图像生成,也能够较好适配视频场景中的复杂时空动态。

表 2 在视频生成任务中的效果对比。相较于其他方法,TC-Padé 在保证视频内容稳定性的同时实现了更高效率
(三)类别条件图像生成:兼顾样本保真度与多样性
在 DiT-XL/2 的 ImageNet 256×256 类别条件图像生成任务中,TC-Padé 同样表现稳定:
(1)1.46× 时延加速,1.64× FLOPs 降低
(2)FID 优于对比的缓存加速方法
(3)Precision 与 Recall 保持更好平衡
这表明 TC-Padé 不仅适用于文本条件生成任务,也能在标准视觉生成基准上保持较强竞争力。

表 3 TC-Padé 在 DiT-XL/2 上的定量结果,展示了其在类别条件图像生成任务中的稳定泛化能力
(四)消融实验:关键设计带来稳定收益
论文进一步通过消融实验验证了 TC-Padé 各组成模块的有效性。
1、残差缓存粒度分析:实验比较了不同缓存粒度,包括 double-stream、single-stream 和 entire block。结果显示,在整个 block 粒度上进行残差缓存与预测时效果最佳,能够在速度和质量之间取得更优平衡。
2、稳定性阈值分析:通过调整轨迹稳定性阈值 θ,可以灵活控制加速比与质量之间的权衡。实验显示,θ=0.7 时可获得最高 2.88× 加速,而 θ=1.0 则在质量和效率之间表现出更均衡的综合效果。
3、与量化技术兼容:TC-Padé 还具有良好的工程兼容性,可与量化等其他推理优化技术叠加使用。实验显示,在结合量化后,其整体时延下降可进一步扩大,体现出良好的实际部署潜力。
四、总结
TC-Padé 针对扩散模型低步数采样中 “加速容易、稳定很难” 的核心问题,提出了一套兼顾理论与实践的新方案。通过基于 Padé 逼近的残差预测、步感知预测策略以及轨迹稳定性自适应判别机制,该方法在无需训练的条件下显著提升了扩散推理效率,并在多个任务上保持了高质量生成效果。对于追求低延迟、高吞吐、可落地部署的扩散模型应用而言,TC-Padé 提供了一种具有现实价值的高效加速思路,也为未来扩散模型推理优化打开了新的方向。
