搜索: "视频大模型"

共找到 5 篇相关文章

牛津、微软等发布音视频智能综述：梳理大模型时代的AVI研究全景

GPT-4o 一边看屏幕一边和你语音对话；Veo-3、MovieGen、Seedance 2.0 直接把原生音轨纳入视频生成链路；HappyHorse 这类近期模型也开始探索音视频联合生成；OpenVLA 让机器人” 听音辨物”—— 音视频大模型，正在从” 加在视觉模型旁边的一个 ASR”，进化成 omni-modal 基础模型的核心能力之一。NUS 联合牛津、多伦多、UTD、HKUST、QMUL

科技2026/5/252 阅读

揭秘机器人舞蹈风靡背后的秘密：破解具身智能行业的关键瓶颈问题

头图由智象未来AI大模型生成在演唱会和大型晚会上，机器人伴舞团队以其整齐划一、精准的舞蹈动作吸引了观众的目光。这种表演不仅展示了硬件技术的进步，还体现了训练技巧的重要性。具身智能的关键挑战之一在于如何使模型在虚拟环境中学习到符合物理规律的真实互动能力，这对许多企业来说是一道难以逾越的技术门槛。近期，专注于AIGC视频大模型及应用的国产AI公司智象未来（HiDream），与具身智能领域的领军者诺亦腾

科技2026/4/44 阅读

阿里推出视频大模型：修复废片、重塑角色与情节变换的可能性

智东西作者王涵编辑心缘智东西4月3日报道，今天，阿里通义实验室发布视频创作大模型Wan2.7-Video，支持文本、图像、视频、音频全模态输入，在画面结构、剧情走向、局部细节、时序变化等方面均可编辑。Wan2.7-Video实现一句话改视频，模型会自动保持光影与材质的一致性，同时可以搭配多张图像输入。Wan2.7-Video引入了视频续写与尾帧控制的联合机制，用户可以在续写视频的同时，直接指定

科技2026/4/422 阅读

CVPR2026：Streamo——将大型模型转变为实时交互流助手

在 MVBench 和 VideoMME 等离线基准测试中，视频大模型表现优异，然而在实际交互场景中，仍面临两个主要挑战：如何处理无边界视频流以及如何在动态视频流中确定响应时机。最近，香港浸会大学与腾讯优图实验室合作，提出了 Streamo，其创新之处在于将“何时回答”这一决策纳入模型预测，通过端到端训练框架直接将离线视频模型转换为实时流视频助手。Streamo 能处理真实场景中的视频流，支持实时

科技2026/3/203 阅读

国产全模态视频大模型再登Artificial Analysis榜单第二名

该文章介绍了昆仑天工的最新视频生成模型SkyReels-V4，它能实现全场景、全流程以及多种模态下的视频生成和编辑任务。相较于之前的AI工具，SkyReels-V4提供了更为集成的工作流程，让创作者能够同时利用文本、图像与音频等多种形式的数据。SkyReels-V4在视觉质量、运动流畅度及声音自然度方面都有显著提升，并且实现了多个模态信息的整合生成。文章指出，该模型能根据输入的不同条件灵活地生成高

科技2026/2/286 阅读