
牛津、微软等发布音视频智能综述:梳理大模型时代的AVI研究全景
GPT-4o 一边看屏幕一边和你语音对话;Veo-3、MovieGen、Seedance 2.0 直接把原生音轨纳入视频生成链路;HappyHorse 这类近期模型也开始探索音视频联合生成;OpenVLA 让机器人” 听音辨物”—— 音视频大模型,正在从” 加在视觉模型旁边的一个 ASR”,进化成 omni-modal 基础模型的核心能力之一。NUS 联合牛津、多伦多、UTD、HKUST、QMUL
共找到 27 篇相关文章

GPT-4o 一边看屏幕一边和你语音对话;Veo-3、MovieGen、Seedance 2.0 直接把原生音轨纳入视频生成链路;HappyHorse 这类近期模型也开始探索音视频联合生成;OpenVLA 让机器人” 听音辨物”—— 音视频大模型,正在从” 加在视觉模型旁边的一个 ASR”,进化成 omni-modal 基础模型的核心能力之一。NUS 联合牛津、多伦多、UTD、HKUST、QMUL

有消息称,字节跳动视频生成模型Seedance 2.1将于近期发布,预计生成效果较2.0版本提升20%。字节对字母AI表示,此消息为假消息。虽然Seedance 2.1未必会于近期发布,但是Seedance 2.0在海外热度大涨却是真的。原因在于,周末,一篇标题为《中国人工智能企业在视频生成竞赛中领跑美国对手》(Chinese AI groups pull ahead of US rivals i

5月21日消息,据AI普瑞斯从知情人士处获悉,字节将在6月底(预计是23日)的Froce大会上发布Seedance 2.1版本。至于大家最关心的价格方面,目前的消息是没有变化,具体情况还是以实际发布为准。在效果方面,据知情人士透露,会比Seedance 2.0提升20%。此外,消息称预计Seedance 2.1会重点提升这6个方向:六大升级方向1、人物一致性角色不再疯狂变脸,长镜头、多镜头、多人场

凤凰网科技讯 5月20日,第79届戛纳电影节期间,字节跳动旗下火山引擎携AI视频生成工具Seedance 2.0亮相。由美国AI视频平台Higgsfield基于Seedance 2.0打造的长片《HELL GRIND》将正式首映,成为全球首部时长95分钟的AI生成电影。该片仅由15人团队在14天内完成,制作成本不足50万美元,仅为传统同等规格影片的1%。据片方介绍,该技术在人物一致性与镜头连贯性方

现在无论哪一家要发布视频模型,都免不了要被拉来和 Seedance 2.0 对比。而最近比较沉寂的 Google,似乎在悄悄憋一个大招,来重夺视频生成的王座。今天凌晨,有网友在 Gemini 中意外触发了一个全新的视频生成模型——Omni(全能)。在 Gemini 的聊天页面,直接显示着「用 Gemini Omni 来创作,认识一下我们全新的视频生成模型。重混你的视频、在对话中直接进行编辑、尝试丰

4月以来,视频模型重新成为AI行业里最拥挤的赛道之一。先是月初,阿里的HappyHorse-1.0登顶Artificial Analysis视频竞技场榜单,在无音频文生视频榜单中拿到1368的Elo分,力压Seedance 2.0和可灵3.0。随后,总部位于美国的fal.AI上线HappyHorse-1.0官方API。fal主要为开发者和企业提供图像、视频、语音等生成模型的API调用和推理服务,此

近日,字节跳动团队发布了一份关于Seedance 2.0的技术报告,《Seedance 2.0: Advancing Video Generation for World Complexity》(《Seedance 2.0:推动视频生成应对复杂世界》),详细阐述了这款多模态视频生成模型的各项能力及测试成果。据悉,自今年二月初以来,Seedance 2.0已在豆包、即梦AI和火山引擎等平台投入使用,

文 | 字母AI最近,人工智能视频领域似乎进入了一段相对低迷期,Seedance 2.0陷入版权争议风波之中,OpenAI也关闭了其Sora项目,使得整个行业气氛显得有些沉重。正当此时,阿里巴巴却带来了一个令人瞩目的新进展。在2026年4月的Artificial Analysis排行榜上,HappyHorse-1.0在文本生成视频和图像转换成无音频视频两个赛道中超越了字节跳动、快手等竞争对手,一举

3月25日,OpenAI宣布停止其视频模型产品Sora的运营。随后,在短短十三天之后,国产视频模型“欢乐马”HappyHorse迅速推出,并在Artificial Analysis评测平台上以高分位居榜首。据了解,Artificial Analysis是目前全球最权威的人工智能评估平台之一。在其发布的排行榜中,字节跳动的Seedance 2.0、昆仑万维的SkyReels V4以及快手的可灵3.0

近日,一款名为“欢乐马”(HappyHorse)的AI模型在社交媒体上引起了广泛关注,并正式开通了微博账号(@HappyHorse_AI),确认其由阿里ATH创新事业部开发。最近,“欢乐马”视频模型登上了Artificial Analysis发布的文生视频及图生视频排行榜首位,超过了字节跳动公司的Seedance 2.0。关于该模型的来源一直众说纷纭,直到现在才揭开了谜底。“欢乐马”的官方账号发布

最近,在Artificial Analysis的AI Video Arena排行榜上出现了一个名为HappyHorse-1.0的新模型,并迅速占据榜首位置。自昨日起,该模型在文本转视频(不含音频)领域已领先于其他对手,目前其Elo分数已达1375分,比第二名Seedance 2.0高出约100分。在图像转视频无音频赛道上,HappyHorse-1.0更是以1409的高分打破了历史纪录,显示出极其强

近日,有消息称,在AI视频生成领域占据领先地位的匿名模型HappyHorse-1.0可能出自阿里巴巴集团,预计将在明日公开发布。4月9日,《信息》杂志报道指出,一个名为HappyHorse的AI模型近期在无音频类别中表现突出,并且击败了字节跳动公司的Seedance 2.0。这一消息引发了广泛猜测和讨论。前阿里通义千问团队负责人林俊旸也在X平台上转发了相关样例,并称赞“欢乐马乐疯了”,进一步增加了

最近,在AI视频生成领域的一个匿名模型——HappyHorse(快乐小马)引起了广泛关注。这个模型在Artificial Analysis的盲测平台中,于文生视频和图生视频两个无音频类别比赛中同时夺得榜首位置,将字节跳动此前占据首位的Seedance 2.0挤到了第二名的位置。至今为止,没有公司或团队公开承认自己是这个模型的研发者。外界对此展开了大量的猜测,多数人认为HappyHorse来自中国的

当人们以为 Seedance 2.0 将要称霸时,却意外地出现了一匹黑马。周二晚,在知名的 AI 测试平台 Artificial Analysis 上,“HappyHorse-1.0”这个神秘视频生成模型突然登顶榜首,引起了整个 AI 社区的热烈讨论。它不仅在文字转视频和图像转视频上都排名第一,还将 Seedance 2.0 挤到了第二的位置。更令人惊讶的是它与对手的巨大差距:这款匿名模型仅上线一

屏幕上,龙虾创始人Peter Steinberger以中文发出祝福:“武汉的朋友,请尽情享用小龙虾。”实际上,这并非真实的Peter本人出镜,而是Seedance 2.0技术所生成的画面。昨日在火山引擎举办的武汉站巡展活动中,ClawHub中国官方镜像站正式启动运营,并且龙虾创始人Peter Steinberger也通过视频形式发来了祝贺。视频的结尾部分展示了由Seedance 2.0创造的“彩蛋

千人千面、超长文本、指哪改哪,AI生图模型离生产力不远了。作者|王艺过去一年,AI生图、生视频赛道的竞争烈度远超预期。国际上,GPT-Image系列持续迭代,Nano Banana Pro在多项基准测试中拉开身位;国内,可灵3.0、Seedance 2.0、Vidu Q3等模型你方唱罢我登场,在声画同步、视频生成长度、叙事连贯性方面卷出新高度。尽管图像和视频生成模型进展飞速,但目前的AI视频技术距

近期,豆包大模型的日均Token使用量超过了120万亿,并且Seedance 2.0 API已经开始了公测阶段。 量子位的朋友们 2026-04-02 12:04:31 量子位

单人拍摄的时代即将到来。作者|MoonshotSeedance 2.0 的推出对影视行业带来了显著的影响。如今,这个最优秀的视频模型已经可以一键生成接近「电影级」的镜头画面。然而,影视工业并非简单地由几个出色的镜头构成,它本质上是一个精密的、依赖于场景调度的工业流程。从剧本编写开始,需要拆解为复杂的分镜头脚本;拍摄时,要考虑场景搭建、服装道具设计、灯光布置、天气条件以及场面调度;后期制作时,则需要

在人工智能领域,中国AI产业正迎来前所未有的追赶良机。这得益于“天时”、“地利”与“人和”的完美结合。在人工智能革命前夕,大型企业仿佛回到了创业初期的状态。Meta公司近期出现了大规模裁员,甚至有消息称新入职不久的Alexander Wang与公司高层存在分歧,与此同时,xAI的核心团队也面临着大量成员离职的问题。海外,腾讯掀起了一股“养龙虾”的热潮,字节跳动则推出了Seedance 2.0,阿里

目前的人工智能技术已经能够掌握电影中的视觉语言规则,但在理解和遵循现实世界的物理法则方面还存在不足。作者|汤一涛最近一个月内,Seedance 2.0 的表现引起了广泛关注。好莱坞各公司纷纷发表声明,并且迪士尼的法律团队也向字节跳动发送了律师函。然而,当要求它生成一段男人从1数到10并用手指展示每个数字的视频时,它的缺陷就暴露无遗了。即使是专业的演员也很难分辨这是瑞安·雷诺兹还是本·斯蒂勒。好莱坞