
Hallo-Live 让文本驱动音视频数字人迈入实时流式生成
本文第一作者李淳誉为复旦大学博士生,主要研究方向为视频生成扩散模型;复旦大学硕士生李佳烨为共同一作。复旦大学教授,上海创智学院全时导师朱思语为通讯作者。文本驱动的音视频数字人,正在从 “能生成” 走向 “能实时交互”。但这条路并不好走。一方面,视频和语音的联合生成本身就是高维、重计算任务;另一方面,一旦为了速度做激进加速,嘴型同步、语音自然度和人物细节往往会一起下滑。最近,来自上海创智学院、复旦大
共找到 8 篇相关文章

本文第一作者李淳誉为复旦大学博士生,主要研究方向为视频生成扩散模型;复旦大学硕士生李佳烨为共同一作。复旦大学教授,上海创智学院全时导师朱思语为通讯作者。文本驱动的音视频数字人,正在从 “能生成” 走向 “能实时交互”。但这条路并不好走。一方面,视频和语音的联合生成本身就是高维、重计算任务;另一方面,一旦为了速度做激进加速,嘴型同步、语音自然度和人物细节往往会一起下滑。最近,来自上海创智学院、复旦大

近日,字节跳动智能创作部门(Intelligent Creation Lab)提出新作 DreamLite,一个主干网络仅有 0.39B 参数的轻量级统一扩散模型,在单一网络内同时支持文生图(Text-to-Image) 和图像编辑(Text-guided Image Editing)两个任务,是目前已知首个实现这一能力的端侧模型。DreamLite 在 iPhone 17 Pro 上实现了约 3

作者|樊雅婷提供的电子邮箱地址似乎不完整或有误,请确认后重试。GPT Image 2 的出现标志着图像生成技术的一个重大转折点,它不仅仅是一个优化后的扩散模型或是更高效的架构迭代,而是将语义理解和推理能力直接引入了图像生成过程中的关键环节。这样的革新不仅解决了图像质量与一致性的问题,还大大提升了用户交互体验。根据最近的观察和分析,GPT Image 2 的成功在很大程度上归功于其独特的混合架构——

崔奔雷(阿里巴巴)和何少轩(浙江大学实习生),他们的研究集中在多模态理解和生成领域。文章的通讯作者为洪海文(阿里巴巴)与赵洲(浙江大学),他们分别专注于多模态大语言模型和语音理解生成。近几年,扩散模型成为了图像、音频及视频等多模式数据生成的关键技术,并在实际生产中获得了广泛应用。然而,在落地过程中仍然存在一些瓶颈:工业级别的推理预算通常限制为 20 至 30 步,即便如此,许多加速方法依旧会遇到纹

TDM-R1 是一项针对少步扩散模型的创新后训练方法,它显著提升了这些模型在组合式生成任务上的表现能力。研究团队利用 GenEval 基准测试验证了这项工作的有效性,并取得了令人瞩目的结果。该研究以4步基线模型(TDM-SD3.5-M)作为起点,在此基础上通过引入 TDM-R1 方法,将GenEval得分从61%大幅提升到92%,展示出了在组合式生成任务上的巨大进步。与此同时,与标准80步的SD3

机器之心编辑部近年来,扩散语言模型(Diffusion LLM)一直是讨论的热点。相较于传统的自回归模型,扩散模型在生成文本时更为灵活,更能支持并行处理。然而,尽管这条路充满潜力,但要真正提升效果却并非易事。最近,华为诺亚方舟实验室发布了一项关于扩散模型训练中“默认设置”的研究。这项研究的标题为《Mask Is What DLLM Needs: A Masked Data Training Par

全球首个深度思考的扩散模型诞生! 它摒弃了传统的自回归模式,成为世界上生成速度最快的模型。 对比之下,传统自回归的“打字机式”输出方式(逐个token按顺序生成)就像乌龟一样慢: 实际测试结果显示,在英伟达GPU上运行的Mercury 2扩散推理大语言模型可实现每秒1009个tokens的速度。 这一速度比GPT-5(mini版)和Claude-4.5(haiku版本)等传统模型快了五倍之多

视频生成扩散模型体积日益增大:从 2B 到 5B 再到 14B 等,效果显著提升的同时,训练和推理的成本也急剧上升。社区希望利用量化技术缩小模型规模,降低显存及计算成本,使其能在更多设备上运行并实现低成本部署。然而实际情况并不乐观:一旦使用 3/4 比特,视频生成的量化感知训练(QAT)相比图像更加难以处理且稳定性较差,画质下降幅度更大——不是轻微减少质量,而是变得无法接受。图表展示了 CogVi