搜索: "视频生成"

共找到 62 篇相关文章

牛津、微软等发布音视频智能综述：梳理大模型时代的AVI研究全景

GPT-4o 一边看屏幕一边和你语音对话；Veo-3、MovieGen、Seedance 2.0 直接把原生音轨纳入视频生成链路；HappyHorse 这类近期模型也开始探索音视频联合生成；OpenVLA 让机器人” 听音辨物”—— 音视频大模型，正在从” 加在视觉模型旁边的一个 ASR”，进化成 omni-modal 基础模型的核心能力之一。NUS 联合牛津、多伦多、UTD、HKUST、QMUL

科技2026/5/252 阅读

Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

本文第一作者李淳誉为复旦大学博士生，主要研究方向为视频生成扩散模型；复旦大学硕士生李佳烨为共同一作。复旦大学教授，上海创智学院全时导师朱思语为通讯作者。文本驱动的音视频数字人，正在从 “能生成” 走向 “能实时交互”。但这条路并不好走。一方面，视频和语音的联合生成本身就是高维、重计算任务；另一方面，一旦为了速度做激进加速，嘴型同步、语音自然度和人物细节往往会一起下滑。最近，来自上海创智学院、复旦大

科技2026/5/251 阅读

在AI视频生成这块，“遥遥领先”成真了

有消息称，字节跳动视频生成模型Seedance 2.1将于近期发布，预计生成效果较2.0版本提升20%。字节对字母AI表示，此消息为假消息。虽然Seedance 2.1未必会于近期发布，但是Seedance 2.0在海外热度大涨却是真的。原因在于，周末，一篇标题为《中国人工智能企业在视频生成竞赛中领跑美国对手》(Chinese AI groups pull ahead of US rivals i

科技2026/5/211 阅读

字节火山引擎推出一站式AIGC短剧平台，制作周期缩短超八成

凤凰网科技讯（作者/许婧）5月21日，字节跳动旗下火山引擎宣布，一站式AIGC短剧创作平台“火山剧创1.0”正式上线。官方称，该平台深度适配Seedance、Seedream等模型，可实现高效可控的“导演级控片”能力，将短剧制作周期缩短80%以上。火山剧创1.0依托自研多智能体架构，能够深度解析长篇剧本，提供从剧本分析、全剧资产设定、分镜视频生成到成片预览的端到端智能解决方案。同时，火山方舟为平

科技2026/5/212 阅读

赋予视频生成「视觉思维链」：VChain显式建模时空规划与状态演变

当视频生成模型在视觉保真度上不断突破时，一个核心瓶颈正变得愈发清晰：模型是否真正理解了真实世界？能否推理出合理的演变过程？在具身智能、影视制作以及物理仿真等应用场景中，要求模型不仅要生成 “平滑的像素”，更要实现 “逻辑连贯的演化”。这种对物理规律与因果关系的建模能力，是当前基于大数据驱动的端到端生成模型面临的长期挑战。那么，我们能否将多模态大模型（MLLM）的推理能力，作为一种 “外脑” 注入到

科技2026/5/213 阅读

谷歌Gemini取消按次计费全面转向算力计量，最高阶Ultra会员降至200美元

凤凰网科技讯 5月19日，谷歌官方宣布对Gemini计费与订阅体系进行重大调整。受到大模型及智能体（Agent）算力消耗暴增的影响，谷歌正式取消了原有的每日固定提问次数限制，转而采用与微软GitHub Copilot类似的“基于算力消耗（Compute-based）”的新计量模式。新规则将综合考量用户提示词的复杂度、所调用功能（如视频生成、深度研究等）以及对话历史的长度。用户的算力额度将每5小时刷

科技2026/5/202 阅读

全球首部AI动画长片在戛纳首映，由Seedance 2.0生成

凤凰网科技讯 5月20日，第79届戛纳电影节期间，字节跳动旗下火山引擎携AI视频生成工具Seedance 2.0亮相。由美国AI视频平台Higgsfield基于Seedance 2.0打造的长片《HELL GRIND》将正式首映，成为全球首部时长95分钟的AI生成电影。该片仅由15人团队在14天内完成，制作成本不足50万美元，仅为传统同等规格影片的1%。据片方介绍，该技术在人物一致性与镜头连贯性方

科技2026/5/201 阅读

Seedance 2.1近期将发布，效果预计提升20%

5月19日消息，据AI普瑞斯独家获悉，字节跳动视频生成模型Seedance 2.1将于近期发布，预计生成效果较2.0版本提升20%。此外，字节跳动还将推出Seedance2.0低配版，比目前的fast版效果更好，但价格更低，预计是5毛一秒，可能要对市场上其他厂商的视频模型造成巨大冲击。据行业人士向AI普瑞斯透露，按日消耗占比计算，Seedance已占据市场超八成份额，可灵约占14%，万相2.7约占

科技2026/5/192 阅读

Seedance可灵反超美国对手，创作者用脚投票：中国模型更懂真实生产

5月18日消息，英国《金融时报》近日报道称，多位开发者认为，中国人工智能实验室在视频生成领域已经领先部分美国竞争对手。报道重点提到字节跳动的Seedance和快手的Kling：这两家公司本来就在经营短视频平台，抖音、TikTok、快手每天都会沉淀拍摄、剪辑、转场、特效和观看反馈。它们更容易从真实创作者场景里看到用户到底卡在什么地方，从人物动作是否稳定、镜头衔接是否自然、到同一角色会不会一秒变脸

科技2026/5/182 阅读

Codex直接剪视频，剪辑软件都不用开，PR AE瑟瑟发抖

梦瑶发自凹非寺量子位 | 公众号 QbitAI传统视频制作N个产品来回横跳的工作流模式，这次可能真的要Game Over了？因为嘛——现在你只用跟Codex说一句话，它就能把剪辑、PS、视频生成等一箩筐子的活儿全包了！！就在刚刚，Codex把AI视频生成平台HeyGen接入了自家产品里。数字人、画面、字幕、外观改变、剪辑、导出全能一锅出，完全不用离开Codex的内种。最重要支持一键调用，啥sk

科技2026/5/162 阅读

快手计划分拆可灵，融资20亿美元

5月11日消息，有媒体报道称，快手计划分拆旗下视频生成大模型业务可灵AI，以200亿美元估值融资。截至今天港股收盘，整个快手公司目前的市值不到290亿美元。据悉，可灵当前的年化收入（ARR）已经达到5亿美元，已比春节前翻倍。这一轮可灵计划融资20亿美元，正与腾讯等投资方商谈，目前交易尚未close。若交易完成，可灵将是目前全球估值最高的视频生成大模型独立产品。网易智能就此事向快手求证，截至发稿，

科技2026/5/132 阅读

Seedance 2.0最强对手偷跑了

现在无论哪一家要发布视频模型，都免不了要被拉来和 Seedance 2.0 对比。而最近比较沉寂的 Google，似乎在悄悄憋一个大招，来重夺视频生成的王座。今天凌晨，有网友在 Gemini 中意外触发了一个全新的视频生成模型——Omni（全能）。在 Gemini 的聊天页面，直接显示着「用 Gemini Omni 来创作，认识一下我们全新的视频生成模型。重混你的视频、在对话中直接进行编辑、尝试丰

科技2026/5/122 阅读

1359亿！快手可灵要IPO了

智东西作者陈骏达编辑心缘智东西5月11日消息，今天，据The Information报道，两位知情人士透露，短视频巨头快手科技正计划将旗下视频生成业务“可灵AI”分拆出来，为“可灵AI”明年潜在的IPO做准备。知情人士称，快手已与潜在投资者接触，为“可灵AI”进行IPO前的一轮融资，对其估值高达200亿美元（约合人民币1359.32亿元）。The Information称，快手方面对此不予置评

科技2026/5/123 阅读

清华打破多模态音频生成通才困境：Omni2Sound 音频基础模型开源

近年来，音频生成技术发展迅猛。随着应用场景的复杂化，业界呈现出一个显著趋势：音频生成模型正从单一条件控制走向多模态协同控制。研究者期望在一个统一的模型架构中，同时支持文本生成音频（T2A）、视频生成音频（V2A）以及视频-文本联合生成音频（VT2A）。相比为每个任务独立部署专用模型的传统做法，统一模型能大幅降低架构冗余与部署成本，为用户提供更为灵活的音频生成方式。然而，随着研究的深入，业界发现了一

科技2026/5/98 阅读

阿里人工智能估值偏低，资本市场持观望态度原因何在？

阿里的市场定位正在发生变化。4月27日，阿里旗下的HappyHorse1.0版本开始进行灰度测试。这款产品在视频生成领域中展现出强大的竞争力，以其电影级的画面质感、流畅的镜头切换以及逼真的面部表情而备受瞩目。几日前，“千问”首次公开了其“AI办事”功能，并与东方航空达成了合作意向。据The Information报道，阿里和腾讯正就投资DeepSeek进行商谈，后者估值为200亿美元，两家公司合计

科技2026/5/65 阅读

谁能率先突破全模态世界模型的壁垒？

各大科技公司纷纷投身于构建世界模型的竞争之中，它们争夺的核心已不再是计算力和资源的占有，而是谁能设计出真正能够模拟物理世界的架构。过去一年半内，世界模型成为了人工智能领域竞争激烈的新兴战场。参与者包括全球性的技术巨头、视频生成企业、机器人制造商、游戏引擎开发商及自动驾驶公司等，几乎涵盖了所有关键行业。国际上，DeepMind发布了Genie 2系统，通过预测下一帧来训练具身智能；英伟达则推出了Co

科技2026/4/2912 阅读

HappyHorse模型上线MuleRun灰度测试，实现全天候便捷访问

MuleRun（骡子快跑）推出了一款名为HappyHorse的全新视频生成模型，用户可以全天候访问。量子位的朋友们 2026-04-28 13:42:39 量子位

AI2026/4/293 阅读

千问首发 HappyHorse 1.0，开启免费试用模式重塑AI视频领域

AI 视频领域是否即将迎来新篇章？作者｜连冉最近，AI 视频生成技术的赛道上出现了一场突如其来的行业震动。一个名为 HappyHorse 1.0 的模型匿名出现在权威第三方评估平台 Artificial Analysis 的 Video Arena 排行榜上，并一度占据榜首位置。这款模型迅速成为全球 AI 视频社区热议的话题，从最初的多方猜测到阿里巴巴 ATH 团队正式确认其身份，短短时间内吸引了

科技2026/4/282 阅读

HappyHorse来袭：阿里新作引发马斯克与奥尔特曼法律纷争，挑战GTA6权威

最近，阿里ATH创新事业部推出了一款全新的视频生成与编辑工具——HappyHorse 1.0（官方译名：快乐小马），并在4月27日开始进行灰度测试。创作者可以通过阿里云百炼平台和HappyHorse官网申请使用这项新服务，而普通用户则可以在千问App中体验其功能。据Arena.ai盲测平台上数据显示，这款模型在文生视频、图生视频以及视频编辑三个领域内分别取得了第二名的成绩。为了验证该工具的实际效果

科技2026/4/282 阅读

阿里推出全新应用「欢乐马」，抢先体验潜力新星

隐藏在幕后的「欢乐马」终于揭开了它的面纱。4月27日，阿里ATH团队发布了视频生成模型HappyHorse 1.0的首个版本。这款模型基于原生多模态架构设计，不仅能同时处理音视频内容，还能实现创作和编辑的一站式服务，免去了繁琐的操作过程。此前它在知名AI评测平台Artificial Analysis上的表现备受关注，无论是文字生成视频还是图像转换成视频，均获得了第一名的佳绩，使Seedance 2

科技2026/4/285 阅读