搜索: "扩散模型"

共找到 8 篇相关文章

Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

本文第一作者李淳誉为复旦大学博士生，主要研究方向为视频生成扩散模型；复旦大学硕士生李佳烨为共同一作。复旦大学教授，上海创智学院全时导师朱思语为通讯作者。文本驱动的音视频数字人，正在从 “能生成” 走向 “能实时交互”。但这条路并不好走。一方面，视频和语音的联合生成本身就是高维、重计算任务；另一方面，一旦为了速度做激进加速，嘴型同步、语音自然度和人物细节往往会一起下滑。最近，来自上海创智学院、复旦大

科技2026/5/251 阅读

告别云端依赖！字节开源新作DreamLite让手机秒变 AI 画板

近日，字节跳动智能创作部门（Intelligent Creation Lab）提出新作 DreamLite，一个主干网络仅有 0.39B 参数的轻量级统一扩散模型，在单一网络内同时支持文生图（Text-to-Image）和图像编辑（Text-guided Image Editing）两个任务，是目前已知首个实现这一能力的端侧模型。DreamLite 在 iPhone 17 Pro 上实现了约 3

科技2026/5/136 阅读

揭秘GPT Image 2：或已融合GPT-4能力，OpenAI未将其定位为纯粹的图像生成模型

作者｜樊雅婷提供的电子邮箱地址似乎不完整或有误，请确认后重试。GPT Image 2 的出现标志着图像生成技术的一个重大转折点，它不仅仅是一个优化后的扩散模型或是更高效的架构迭代，而是将语义理解和推理能力直接引入了图像生成过程中的关键环节。这样的革新不仅解决了图像质量与一致性的问题，还大大提升了用户交互体验。根据最近的观察和分析，GPT Image 2 的成功在很大程度上归功于其独特的混合架构——

科技2026/5/33 阅读

CVPR 2026：新扩散加速技术确保低步骤下的高质量图像稳定生成

崔奔雷（阿里巴巴）和何少轩（浙江大学实习生），他们的研究集中在多模态理解和生成领域。文章的通讯作者为洪海文（阿里巴巴）与赵洲（浙江大学），他们分别专注于多模态大语言模型和语音理解生成。近几年，扩散模型成为了图像、音频及视频等多模式数据生成的关键技术，并在实际生产中获得了广泛应用。然而，在落地过程中仍然存在一些瓶颈：工业级别的推理预算通常限制为 20 至 30 步，即便如此，许多加速方法依旧会遇到纹

科技2026/4/1112 阅读

TDM-R1模型强势崛起，性能超越GPT-4，GenEval评分飙升至92%

TDM-R1 是一项针对少步扩散模型的创新后训练方法，它显著提升了这些模型在组合式生成任务上的表现能力。研究团队利用 GenEval 基准测试验证了这项工作的有效性，并取得了令人瞩目的结果。该研究以4步基线模型（TDM-SD3.5-M）作为起点，在此基础上通过引入 TDM-R1 方法，将GenEval得分从61%大幅提升到92%，展示出了在组合式生成任务上的巨大进步。与此同时，与标准80步的SD3

科技2026/4/102 阅读

华为诺亚研究团队教授扩散模型精准聚焦关键技术点

机器之心编辑部近年来，扩散语言模型（Diffusion LLM）一直是讨论的热点。相较于传统的自回归模型，扩散模型在生成文本时更为灵活，更能支持并行处理。然而，尽管这条路充满潜力，但要真正提升效果却并非易事。最近，华为诺亚方舟实验室发布了一项关于扩散模型训练中“默认设置”的研究。这项研究的标题为《Mask Is What DLLM Needs: A Masked Data Training Par

科技2026/3/234 阅读

扩散模型引领快速深度学习新潮流英伟达与微软联手突破每秒千个令牌限制

全球首个深度思考的扩散模型诞生！它摒弃了传统的自回归模式，成为世界上生成速度最快的模型。对比之下，传统自回归的“打字机式”输出方式（逐个token按顺序生成）就像乌龟一样慢：实际测试结果显示，在英伟达GPU上运行的Mercury 2扩散推理大语言模型可实现每秒1009个tokens的速度。这一速度比GPT-5（mini版）和Claude-4.5（haiku版本）等传统模型快了五倍之多

AI2026/2/2613 阅读

QVGen使「超低比特率视频生成与量化」成为现实

视频生成扩散模型体积日益增大：从 2B 到 5B 再到 14B 等，效果显著提升的同时，训练和推理的成本也急剧上升。社区希望利用量化技术缩小模型规模，降低显存及计算成本，使其能在更多设备上运行并实现低成本部署。然而实际情况并不乐观：一旦使用 3/4 比特，视频生成的量化感知训练（QAT）相比图像更加难以处理且稳定性较差，画质下降幅度更大——不是轻微减少质量，而是变得无法接受。图表展示了 CogVi

科技2026/2/269 阅读