搜索: "生成模型"

共找到 14 篇相关文章

阿里推出千问APP新功能:万相2.7版视频生成技术实现简易编辑

阿里推出千问APP新功能:万相2.7版视频生成技术实现简易编辑

据报道,阿里于4月3日发布了千问应用的最新版本,其中包括万相 2.7 视频生成模型,该模型具有视频编辑、续写和模仿动作的核心功能。视频编辑用户只需简短描述即可让千问对视频画面进行修改。例如,在镜头中添加人物、更换服装或调整背景,且能确保光影效果和细节自然和谐。除了提供多种创意风格的快速切换外,千问还支持用户自定义角色的动作和表情,并可编辑对话内容,同时保持口型和语调的一致性。此外,还可以改变拍摄角

科技1 阅读
通义万2.7-Video发布:全面支持多模态内容创作与互动

通义万2.7-Video发布:全面支持多模态内容创作与互动

最近,一项名为Wan2.7-Video的视频生成模型已经正式发布。这款创新工具能够处理包括文本、图像、音频和视频在内的多种输入模式,并专注于改进视频编辑与修改的技术。W2.7在视频编辑功能上表现出色,它允许用户通过简单的指令来局部调整画面内容,无需重新制作整个片段。具体来说,它可以实现元素的增加或删除(例如,“移除火车”)、物体替换(如“把胶片换成盘子”)以及修改物件属性(比如改变建筑物的颜色)。

科技0 阅读
掌握核心,超越画质:解读阿里Wan2.7-Image创新技术|甲子光年

掌握核心,超越画质:解读阿里Wan2.7-Image创新技术|甲子光年

千人千面、超长文本、指哪改哪,AI生图模型离生产力不远了。作者|王艺过去一年,AI生图、生视频赛道的竞争烈度远超预期。国际上,GPT-Image系列持续迭代,Nano Banana Pro在多项基准测试中拉开身位;国内,可灵3.0、Seedance 2.0、Vidu Q3等模型你方唱罢我登场,在声画同步、视频生成长度、叙事连贯性方面卷出新高度。尽管图像和视频生成模型进展飞速,但目前的AI视频技术距

科技1 阅读
机器人操控革新:732M模型力压7B,解锁视频中的物理洞察力

机器人操控革新:732M模型力压7B,解锁视频中的物理洞察力

新智元报道机器人控制中的「数据困境」是业界长期关注的难题:要使机器人掌握精细操作,传统方法依赖大量人工标注的数据,这不仅耗资巨大,且耗时漫长。如何突破这一瓶颈?大规模视频生成模型通过学习海量视频数据,已经隐含地理解了物理世界的运作规则:物体如何移动、力如何传递、空间关系如何演变。这些知识与机器人操控所需的物理直觉高度契合。关键在于:能否将视频模型中的物理先验知识应用到机器人控制中?中山大学王广润教

科技1 阅读
昆仑万维发布“AIGC全能套件大模型”,视频、游戏、音乐多领域同步发力,彰显新一代AGI布局

昆仑万维发布“AIGC全能套件大模型”,视频、游戏、音乐多领域同步发力,彰显新一代AGI布局

江宇撰写,冰倩编辑昆仑万维旗下的天工AI在2026中关村论坛“人工智能主题日”上,发布了其最新的“AIGC全家桶大模型”系列,包括游戏世界模型Matrix-Game 3.0、视频生成模型SkyReels V4以及音乐生成模型Mureka V9。这些模型均已达到全球领先水平。在同一活动中,天工AI的董事长兼首席执行官周亚辉首次详细介绍了公司AGI战略的升级,从原先的六大方向精简为“4大模型+3大平台

科技1 阅读
谷歌进军AI音乐领域!一键生成3分钟歌曲,细节调控自如

谷歌进军AI音乐领域!一键生成3分钟歌曲,细节调控自如

近日,谷歌在其DeepMind团队的努力下,推出了一款名为Lyria 3 Pro的AI音乐生成模型,该模型在3月25日的发布会上正式亮相。Lyria 3 Pro是继上个月发布的Lyria 3之后的升级版,最大的改进在于它能够生成长达3分钟的音乐,比之前的30秒有了显著的提升。此外,该模型还能够理解音乐结构,让用户通过提示词指定不同的音乐部分,如前奏、主歌、副歌等,实现对完整歌曲的精细控制。除了模型

科技2 阅读
全球视频模型迎来新王者!

全球视频模型迎来新王者!

最近,天工AI的SkyReels-V4登顶了全球视频生成模型榜单,成为业界关注的焦点。这个消息让许多人感到意外,毕竟目前的热门话题大多集中在“龙虾”上。 一水 2026-03-19 14:55:36 量子位

AI2 阅读
可灵携手滑铁卢大学发布UniVideo:引领视频理解与创造新时代

可灵携手滑铁卢大学发布UniVideo:引领视频理解与创造新时代

在多模态内容的理解和生成领域,统一的多模型已经显示出显著的效果,但这些成果主要集中在图像处理上。近日,滑铁卢大学与快手可灵团队共同研发出了一种名为 UniVideo 的创新性系统。该系统能够在单一框架下执行视频理解、创建及编辑任务,并且基于一个多模态生成模型构建而成。UniVideo 采用双通道结构设计,将大规模多模态语言模型(MLLM)的指令理解和推理能力与多模态扩散 Transformer(M

科技8 阅读
Qwen首席科学家悄然离职:阿里是自我削弱还是结构调整?

Qwen首席科学家悄然离职:阿里是自我削弱还是结构调整?

Web3天空之城|城主视角:就像其他关注AI领域的朋友们一样,今天早上看到一条重要新闻:Qwen(通义千问)的技术负责人林君扬在社交媒体上宣布离职。初见此消息时,我的第一反应是惊讶和不解。通常来说,在一家大型公司中,部门负责人的变动每天都在发生。然而这次不同寻常之处在于,Qwen 大模型正处于一个非常关键的发展阶段。Qwen 图像生成模型及编程辅助工具等产品在市场上备受好评,尤其是在开源领域占据

科技2 阅读
Seedance2.0火爆之后,另一款中国新秀荣登AA榜单榜首!传统风味回归

Seedance2.0火爆之后,另一款中国新秀荣登AA榜单榜首!传统风味回归

新智元报道昆仑万维的SkyReels-V4是最新发布的视频生成模型,在全球AI竞赛中名列前茅。这款产品在众多竞争者中脱颖而出,其背后的技术革新令人瞩目。SkyReels-V4不仅具有卓越的功能性,还在创意和实际应用方面展现了巨大潜力。其核心竞争力在于全面的多模态输入能力和音视频联合生成技术。这种能力涵盖了从文本、图像到音频等多样化的数据类型组合使用,为用户提供了一个全新的创作工具平台。此外,Sky

科技2 阅读
国产全模态视频大模型再登Artificial Analysis榜单第二名

国产全模态视频大模型再登Artificial Analysis榜单第二名

该文章介绍了昆仑天工的最新视频生成模型SkyReels-V4,它能实现全场景、全流程以及多种模态下的视频生成和编辑任务。相较于之前的AI工具,SkyReels-V4提供了更为集成的工作流程,让创作者能够同时利用文本、图像与音频等多种形式的数据。SkyReels-V4在视觉质量、运动流畅度及声音自然度方面都有显著提升,并且实现了多个模态信息的整合生成。文章指出,该模型能根据输入的不同条件灵活地生成高

科技3 阅读
Nano Banana 2 泄密了

Nano Banana 2 泄密了

近日,Nano Banana 2成为AI开发者圈子中的热门话题。在海外社交平台X上,关于谷歌即将发布的最新图片生成模型(即Gemini 3.1 Flash Image预览版)的消息不断涌现,4K图片广泛传播,引发了各种猜测和讨论。社交媒体X上有大量关于Nano Banana 2的猜测信息被分享。Nano Banana Pro作为基于Gemini 3 Pro的技术,在AI图像生成领域享有极高的声誉。

科技9 阅读
冯骥才盛赞“地表最强”、Tim连声惊叹“震撼”,字节跳动Seedance 2.0见证AI盛宴与信任浪潮

冯骥才盛赞“地表最强”、Tim连声惊叹“震撼”,字节跳动Seedance 2.0见证AI盛宴与信任浪潮

在2026年的开端,视频生成模型继续引发广泛关注。游戏科学创始人冯骥在微博上发布了一篇长文,分享了他体验字节跳动最新视频生成模型Seedance 2.0后的感受,形容其为“地表最强”,并感叹“AIGC的婴儿期已经结束”。冯骥认为,目前Seedance 2.0具有领先性、全能性和低门槛特性,能够大幅提升产能和推动视频普及。这得益于它在理解多模态信息(包括文字

国内30 阅读