
牛津、微软等发布音视频智能综述:梳理大模型时代的AVI研究全景
GPT-4o 一边看屏幕一边和你语音对话;Veo-3、MovieGen、Seedance 2.0 直接把原生音轨纳入视频生成链路;HappyHorse 这类近期模型也开始探索音视频联合生成;OpenVLA 让机器人” 听音辨物”—— 音视频大模型,正在从” 加在视觉模型旁边的一个 ASR”,进化成 omni-modal 基础模型的核心能力之一。NUS 联合牛津、多伦多、UTD、HKUST、QMUL
共找到 62 篇相关文章

GPT-4o 一边看屏幕一边和你语音对话;Veo-3、MovieGen、Seedance 2.0 直接把原生音轨纳入视频生成链路;HappyHorse 这类近期模型也开始探索音视频联合生成;OpenVLA 让机器人” 听音辨物”—— 音视频大模型,正在从” 加在视觉模型旁边的一个 ASR”,进化成 omni-modal 基础模型的核心能力之一。NUS 联合牛津、多伦多、UTD、HKUST、QMUL

本文第一作者李淳誉为复旦大学博士生,主要研究方向为视频生成扩散模型;复旦大学硕士生李佳烨为共同一作。复旦大学教授,上海创智学院全时导师朱思语为通讯作者。文本驱动的音视频数字人,正在从 “能生成” 走向 “能实时交互”。但这条路并不好走。一方面,视频和语音的联合生成本身就是高维、重计算任务;另一方面,一旦为了速度做激进加速,嘴型同步、语音自然度和人物细节往往会一起下滑。最近,来自上海创智学院、复旦大

有消息称,字节跳动视频生成模型Seedance 2.1将于近期发布,预计生成效果较2.0版本提升20%。字节对字母AI表示,此消息为假消息。虽然Seedance 2.1未必会于近期发布,但是Seedance 2.0在海外热度大涨却是真的。原因在于,周末,一篇标题为《中国人工智能企业在视频生成竞赛中领跑美国对手》(Chinese AI groups pull ahead of US rivals i

凤凰网科技讯 (作者/许婧)5月21日,字节跳动旗下火山引擎宣布,一站式AIGC短剧创作平台“火山剧创1.0”正式上线。官方称,该平台深度适配Seedance、Seedream等模型,可实现高效可控的“导演级控片”能力,将短剧制作周期缩短80%以上。火山剧创1.0依托自研多智能体架构,能够深度解析长篇剧本,提供从剧本分析、全剧资产设定、分镜视频生成到成片预览的端到端智能解决方案。同时,火山方舟为平

当视频生成模型在视觉保真度上不断突破时,一个核心瓶颈正变得愈发清晰:模型是否真正理解了真实世界?能否推理出合理的演变过程?在具身智能、影视制作以及物理仿真等应用场景中,要求模型不仅要生成 “平滑的像素”,更要实现 “逻辑连贯的演化”。这种对物理规律与因果关系的建模能力,是当前基于大数据驱动的端到端生成模型面临的长期挑战。那么,我们能否将多模态大模型(MLLM)的推理能力,作为一种 “外脑” 注入到

凤凰网科技讯 5月19日,谷歌官方宣布对Gemini计费与订阅体系进行重大调整。受到大模型及智能体(Agent)算力消耗暴增的影响,谷歌正式取消了原有的每日固定提问次数限制,转而采用与微软GitHub Copilot类似的“基于算力消耗(Compute-based)”的新计量模式。新规则将综合考量用户提示词的复杂度、所调用功能(如视频生成、深度研究等)以及对话历史的长度。用户的算力额度将每5小时刷

凤凰网科技讯 5月20日,第79届戛纳电影节期间,字节跳动旗下火山引擎携AI视频生成工具Seedance 2.0亮相。由美国AI视频平台Higgsfield基于Seedance 2.0打造的长片《HELL GRIND》将正式首映,成为全球首部时长95分钟的AI生成电影。该片仅由15人团队在14天内完成,制作成本不足50万美元,仅为传统同等规格影片的1%。据片方介绍,该技术在人物一致性与镜头连贯性方

5月19日消息,据AI普瑞斯独家获悉,字节跳动视频生成模型Seedance 2.1将于近期发布,预计生成效果较2.0版本提升20%。此外,字节跳动还将推出Seedance2.0低配版,比目前的fast版效果更好,但价格更低,预计是5毛一秒,可能要对市场上其他厂商的视频模型造成巨大冲击。据行业人士向AI普瑞斯透露,按日消耗占比计算,Seedance已占据市场超八成份额,可灵约占14%,万相2.7约占

5月18日消息,英国《金融时报》 近日报道称,多位开发者认为,中国人工智能实验室在视频生成领域已经领先部分美国竞争对手。报道重点提到字节跳动的Seedance和快手的Kling:这两家公司本来就在经营短视频平台,抖音、TikTok、快手每天都会沉淀拍摄、剪辑、转场、特效和观看反馈。它们更容易从真实创作者场景里看到用户到底卡在什么地方,从人物动作是否稳定、镜头衔接是否自然、到同一角色会不会一秒变脸

梦瑶 发自 凹非寺量子位 | 公众号 QbitAI传统视频制作N个产品来回横跳的工作流模式,这次可能真的要Game Over了?因为嘛——现在你只用跟Codex说一句话,它就能把剪辑、PS、视频生成等一箩筐子的活儿全包了!!就在刚刚,Codex把AI视频生成平台HeyGen接入了自家产品里。数字人、画面、字幕、外观改变、剪辑、导出全能一锅出,完全不用离开Codex的内种。最重要支持一键调用,啥sk

5月11日消息,有媒体报道称,快手计划分拆旗下视频生成大模型业务可灵AI,以200亿美元估值融资。截至今天港股收盘,整个快手公司目前的市值不到290亿美元。据悉,可灵当前的年化收入(ARR)已经达到5亿美元,已比春节前翻倍。这一轮可灵计划融资20亿美元,正与腾讯等投资方商谈,目前交易尚未close。若交易完成,可灵将是目前全球估值最高的视频生成大模型独立产品。网易智能就此事向快手求证,截至发稿,

现在无论哪一家要发布视频模型,都免不了要被拉来和 Seedance 2.0 对比。而最近比较沉寂的 Google,似乎在悄悄憋一个大招,来重夺视频生成的王座。今天凌晨,有网友在 Gemini 中意外触发了一个全新的视频生成模型——Omni(全能)。在 Gemini 的聊天页面,直接显示着「用 Gemini Omni 来创作,认识一下我们全新的视频生成模型。重混你的视频、在对话中直接进行编辑、尝试丰

智东西作者 陈骏达编辑 心缘智东西5月11日消息,今天,据The Information报道,两位知情人士透露,短视频巨头快手科技正计划将旗下视频生成业务“可灵AI”分拆出来,为“可灵AI”明年潜在的IPO做准备。知情人士称,快手已与潜在投资者接触,为“可灵AI”进行IPO前的一轮融资,对其估值高达200亿美元(约合人民币1359.32亿元)。The Information称,快手方面对此不予置评

近年来,音频生成技术发展迅猛。随着应用场景的复杂化,业界呈现出一个显著趋势:音频生成模型正从单一条件控制走向多模态协同控制。研究者期望在一个统一的模型架构中,同时支持文本生成音频(T2A)、视频生成音频(V2A)以及视频-文本联合生成音频(VT2A)。相比为每个任务独立部署专用模型的传统做法,统一模型能大幅降低架构冗余与部署成本,为用户提供更为灵活的音频生成方式。然而,随着研究的深入,业界发现了一

阿里的市场定位正在发生变化。4月27日,阿里旗下的HappyHorse1.0版本开始进行灰度测试。这款产品在视频生成领域中展现出强大的竞争力,以其电影级的画面质感、流畅的镜头切换以及逼真的面部表情而备受瞩目。几日前,“千问”首次公开了其“AI办事”功能,并与东方航空达成了合作意向。据The Information报道,阿里和腾讯正就投资DeepSeek进行商谈,后者估值为200亿美元,两家公司合计

各大科技公司纷纷投身于构建世界模型的竞争之中,它们争夺的核心已不再是计算力和资源的占有,而是谁能设计出真正能够模拟物理世界的架构。过去一年半内,世界模型成为了人工智能领域竞争激烈的新兴战场。参与者包括全球性的技术巨头、视频生成企业、机器人制造商、游戏引擎开发商及自动驾驶公司等,几乎涵盖了所有关键行业。国际上,DeepMind发布了Genie 2系统,通过预测下一帧来训练具身智能;英伟达则推出了Co

MuleRun(骡子快跑)推出了一款名为HappyHorse的全新视频生成模型,用户可以全天候访问。 量子位的朋友们 2026-04-28 13:42:39 量子位

AI 视频领域是否即将迎来新篇章?作者|连冉最近,AI 视频生成技术的赛道上出现了一场突如其来的行业震动。一个名为 HappyHorse 1.0 的模型匿名出现在权威第三方评估平台 Artificial Analysis 的 Video Arena 排行榜上,并一度占据榜首位置。这款模型迅速成为全球 AI 视频社区热议的话题,从最初的多方猜测到阿里巴巴 ATH 团队正式确认其身份,短短时间内吸引了

最近,阿里ATH创新事业部推出了一款全新的视频生成与编辑工具——HappyHorse 1.0(官方译名:快乐小马),并在4月27日开始进行灰度测试。创作者可以通过阿里云百炼平台和HappyHorse官网申请使用这项新服务,而普通用户则可以在千问App中体验其功能。据Arena.ai盲测平台上数据显示,这款模型在文生视频、图生视频以及视频编辑三个领域内分别取得了第二名的成绩。为了验证该工具的实际效果

隐藏在幕后的「欢乐马」终于揭开了它的面纱。4月27日,阿里ATH团队发布了视频生成模型HappyHorse 1.0的首个版本。这款模型基于原生多模态架构设计,不仅能同时处理音视频内容,还能实现创作和编辑的一站式服务,免去了繁琐的操作过程。此前它在知名AI评测平台Artificial Analysis上的表现备受关注,无论是文字生成视频还是图像转换成视频,均获得了第一名的佳绩,使Seedance 2