
Hallo-Live 让文本驱动音视频数字人迈入实时流式生成
本文第一作者李淳誉为复旦大学博士生,主要研究方向为视频生成扩散模型;复旦大学硕士生李佳烨为共同一作。复旦大学教授,上海创智学院全时导师朱思语为通讯作者。文本驱动的音视频数字人,正在从 “能生成” 走向 “能实时交互”。但这条路并不好走。一方面,视频和语音的联合生成本身就是高维、重计算任务;另一方面,一旦为了速度做激进加速,嘴型同步、语音自然度和人物细节往往会一起下滑。最近,来自上海创智学院、复旦大
共找到 9 篇相关文章

本文第一作者李淳誉为复旦大学博士生,主要研究方向为视频生成扩散模型;复旦大学硕士生李佳烨为共同一作。复旦大学教授,上海创智学院全时导师朱思语为通讯作者。文本驱动的音视频数字人,正在从 “能生成” 走向 “能实时交互”。但这条路并不好走。一方面,视频和语音的联合生成本身就是高维、重计算任务;另一方面,一旦为了速度做激进加速,嘴型同步、语音自然度和人物细节往往会一起下滑。最近,来自上海创智学院、复旦大

梦瑶 发自 凹非寺量子位 | 公众号 QbitAI传统视频制作N个产品来回横跳的工作流模式,这次可能真的要Game Over了?因为嘛——现在你只用跟Codex说一句话,它就能把剪辑、PS、视频生成等一箩筐子的活儿全包了!!就在刚刚,Codex把AI视频生成平台HeyGen接入了自家产品里。数字人、画面、字幕、外观改变、剪辑、导出全能一锅出,完全不用离开Codex的内种。最重要支持一键调用,啥sk

「我即将离开麻省理工学院,不再继续攻读博士学位。人工智能的发展速度太快,人类已然难以跟上。但或许还有一条出路:我发现数字人类的实现可能性,远比大多数人想象的要大。倘若能有顶尖的人工智能研究者助力,或许投入 100 亿美元、用上 5 万台 H100,在不到 10 年的时间里,就能实现这一目标。」写下这两段话的是 Isaak Freeman,麻省理工学院的一名博士生。他认为,人工智能发展太快,人类已然

最近,“千问”应用为自身增添了一个数字人形象。上周,阿里巴巴发布了“千问小酒窝”,这款虚拟形象不仅会出现在“千问”的App中,还将扩展到阿里系的多个应用程序内,并承担起任务入口的角色,负责处理规划、解决问题、订餐、购票和打车等事务。这意味着阿里不只是为“千问”打造一个单独的形象标识,而是致力于在阿里巴巴AI生态系统中塑造统一的人格化界面。从市场角度分析,“千问”的竞争对手豆包自诞生起便选择了大众熟

近日,千问APP宣布其AI PPT功能升级为“PPT Agent”。据悉,“PPT Agent”基于智能体架构设计,能够自主完成从构思到排版的全过程,用户只需输入简短的需求或上传文档即可快速获取完整的PPT文件,并可直接下载使用。目前,该功能已在千问PC端和网页版(qianwen.com)上免费提供,移动端版本正在开发中。同时,阿里巴巴还推出了一个数字人形象“小酒窝”,作为生态级AI助手来帮助用户
中央日报于4月22日发布消息称,在GTC 2026大会上,英伟达推出了一款基于Omniverse的物理人工智能技术,这标志着人工智能开始从虚拟环境向现实世界过渡。该技术能够实现感知、决策和自主操作,并在工业机器人、自动驾驶汽车、医疗设备和个人智能装置等多个领域得到广泛应用。它通过视觉识别与强化学习来适应动态变化,不同于传统的编程方式。分析机构预测,在未来几年内,物理人工智能产生的数据量将超过数字人

SentiPulse与中国人民大学高瓴人工智能学院合作推出开源的SentiAvatar交互式3D数字人框架,引领行业发展潮流。 量子位的朋友们 2026-04-08 16:30:38 量子位

最近,互联网上又出现了一项新奇的现象:员工离职后仍可通过AI数字人继续工作。据悉,在GitHub平台上有人发布了一个名为“colleague-skill”的开源项目,该项目旨在让已离开的同事实现所谓的“赛博永生”。通过训练模型学习和分析前员工的工作数据、文档及聊天记录等信息,即使他们不再在职,也能借助AI继续完成一部分工作任务。目前已有网友透露,其公司已经将离职同事的数据转化为数字人形态,并让他们

近日,极目新闻对当前社会上大量存在的“AI霸总”视频现象进行了调查报道。一些人只需五分钟就能制作出一个这样的视频,并通过多个账号同步推送,诱导消费者购买商品或虚拟产品,从而在一天内获得可观收入。目前,许多短视频平台上有大量的“AI数字人视频”,不少中老年女性深受此类视频影响,误认为视频中的成熟男性会陪伴在她们身边,主动为其消费。近期,多位老年女性的家属向媒体表示,她们的家人在不知情的情况下,短视频