搜索: "生成模型"

共找到 36 篇相关文章

VeRL-Omni：面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni 是一个面向多模态生成模型的通用 RL 后训练框架，由VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。覆盖扩散 transformer（Qwen-Image）、混合 AR-DiT（Qwen-Omni）、统一理解 + 生成（BAGEL、HunyuanImage-3.0）等架构。多模态 rollout 走 vLLM-Omni 的异步高吞吐 serving，VL

科技2026/5/261 阅读

在AI视频生成这块，“遥遥领先”成真了

有消息称，字节跳动视频生成模型Seedance 2.1将于近期发布，预计生成效果较2.0版本提升20%。字节对字母AI表示，此消息为假消息。虽然Seedance 2.1未必会于近期发布，但是Seedance 2.0在海外热度大涨却是真的。原因在于，周末，一篇标题为《中国人工智能企业在视频生成竞赛中领跑美国对手》(Chinese AI groups pull ahead of US rivals i

科技2026/5/211 阅读

赋予视频生成「视觉思维链」：VChain显式建模时空规划与状态演变

当视频生成模型在视觉保真度上不断突破时，一个核心瓶颈正变得愈发清晰：模型是否真正理解了真实世界？能否推理出合理的演变过程？在具身智能、影视制作以及物理仿真等应用场景中，要求模型不仅要生成 “平滑的像素”，更要实现 “逻辑连贯的演化”。这种对物理规律与因果关系的建模能力，是当前基于大数据驱动的端到端生成模型面临的长期挑战。那么，我们能否将多模态大模型（MLLM）的推理能力，作为一种 “外脑” 注入到

科技2026/5/214 阅读

Seedance 2.1近期将发布，效果预计提升20%

5月19日消息，据AI普瑞斯独家获悉，字节跳动视频生成模型Seedance 2.1将于近期发布，预计生成效果较2.0版本提升20%。此外，字节跳动还将推出Seedance2.0低配版，比目前的fast版效果更好，但价格更低，预计是5毛一秒，可能要对市场上其他厂商的视频模型造成巨大冲击。据行业人士向AI普瑞斯透露，按日消耗占比计算，Seedance已占据市场超八成份额，可灵约占14%，万相2.7约占

科技2026/5/192 阅读

无需构造偏好对：TGO用标量反馈对齐视觉生成模型｜ICML'26

允中整理自凹非寺量子位 | 公众号 QbitAI生成模型的偏好对齐，可能正在进入一个新的阶段。过去几年，大模型post-training最主流的方法是让模型从“成对偏好”中学习。但无论是RLHF还是DPO，都存在同一个问题：反馈必须成对出现。但在真实场景中，反馈大多都是单个样本的标量分数。为此，新加坡国立大学团队提出了一个更为直接的解法：Threshold-Guided Optimizatio

科技2026/5/182 阅读

Seedance 2.0最强对手偷跑了

现在无论哪一家要发布视频模型，都免不了要被拉来和 Seedance 2.0 对比。而最近比较沉寂的 Google，似乎在悄悄憋一个大招，来重夺视频生成的王座。今天凌晨，有网友在 Gemini 中意外触发了一个全新的视频生成模型——Omni（全能）。在 Gemini 的聊天页面，直接显示着「用 Gemini Omni 来创作，认识一下我们全新的视频生成模型。重混你的视频、在对话中直接进行编辑、尝试丰

科技2026/5/122 阅读

视频模型：最容易制造惊艳，也最容易消耗惊艳

4月以来，视频模型重新成为AI行业里最拥挤的赛道之一。先是月初，阿里的HappyHorse-1.0登顶Artificial Analysis视频竞技场榜单，在无音频文生视频榜单中拿到1368的Elo分，力压Seedance 2.0和可灵3.0。随后，总部位于美国的fal.AI上线HappyHorse-1.0官方API。fal主要为开发者和企业提供图像、视频、语音等生成模型的API调用和推理服务，此

科技2026/5/92 阅读

清华打破多模态音频生成通才困境：Omni2Sound 音频基础模型开源

近年来，音频生成技术发展迅猛。随着应用场景的复杂化，业界呈现出一个显著趋势：音频生成模型正从单一条件控制走向多模态协同控制。研究者期望在一个统一的模型架构中，同时支持文本生成音频（T2A）、视频生成音频（V2A）以及视频-文本联合生成音频（VT2A）。相比为每个任务独立部署专用模型的传统做法，统一模型能大幅降低架构冗余与部署成本，为用户提供更为灵活的音频生成方式。然而，随着研究的深入，业界发现了一

科技2026/5/98 阅读

华人15人团队开辟新路径：超越香蕉与GPT Image的AI图像生成新秀

除了香蕉和GPT Image之外，一支华人团队开发的图像生成模型Uni-1.1在国际上崭露头角。思邈 2026-05-06 17:24:27 量子位

AI2026/5/72 阅读

揭秘GPT Image 2：或已融合GPT-4能力，OpenAI未将其定位为纯粹的图像生成模型

作者｜樊雅婷提供的电子邮箱地址似乎不完整或有误，请确认后重试。GPT Image 2 的出现标志着图像生成技术的一个重大转折点，它不仅仅是一个优化后的扩散模型或是更高效的架构迭代，而是将语义理解和推理能力直接引入了图像生成过程中的关键环节。这样的革新不仅解决了图像质量与一致性的问题，还大大提升了用户交互体验。根据最近的观察和分析，GPT Image 2 的成功在很大程度上归功于其独特的混合架构——

科技2026/5/33 阅读

AI小镇觉醒记：开发者十日速成奇迹工程项目

新智元报道该项目展示了如何使用多模态生成模型创建一个虚拟世界，从零开始构建了一个可以自主运行的AI角色系统。开发者利用六步地图生成流程和角色立绘抠图技术，建立了一个包含全景地图、功能区定位、可交互元素定位以及可行走区域标注的完整管道。项目中还包括决策波、对话调度、动作执行及微反思等机制，以确保每个Tick内所有AI角色的行为都经过精心设计和模拟。每个AI角色都配备了三层记忆系统来记录其经历，并根据

科技2026/5/23 阅读

在OpenAI修炼中文技能

作者｜陈博远今日凌晨，陈博远博士在知乎平台上发布了一篇博客文章，分享了有关 GPT Image 2 官网博客的一些幕后趣事。大家好，我是 OpenAI 的研究科学家陈博远。上周我们发布了最新的图像生成模型，而这个项目主要由我负责训练。这次发布会的主持工作是由我和山姆奥特曼共同完成的，很高兴能够成功展示改进后的中文渲染效果。如果有任何反馈意见，请随时留言给我。在 GPT Image 2 的发布会上，

科技2026/5/23 阅读

低成本高效能的图像编辑神器问世！2分钱生成、仅0.7秒速成，海报风格转换惊艳亮相

近日，阶跃星辰发布了一款新的图像编辑生成模型——Step Image Edit 2。据悉，这款模型的参数量仅为3.5B，在KRIS-Bench轻量化评测中取得了综合第一的成绩，并支持多种功能如文生图、中英文渲染、局部编辑等。目前该服务已开放API接口供用户使用，定价为每张图片0.02元，公测期间（4月28日至5月5日）免费体验。根据官方发布的视频资料，在生成文生图的速度方面，Step Image

科技2026/4/303 阅读

HappyHorse模型上线MuleRun灰度测试，实现全天候便捷访问

MuleRun（骡子快跑）推出了一款名为HappyHorse的全新视频生成模型，用户可以全天候访问。量子位的朋友们 2026-04-28 13:42:39 量子位

AI2026/4/293 阅读

阿里推出全新应用「欢乐马」，抢先体验潜力新星

隐藏在幕后的「欢乐马」终于揭开了它的面纱。4月27日，阿里ATH团队发布了视频生成模型HappyHorse 1.0的首个版本。这款模型基于原生多模态架构设计，不仅能同时处理音视频内容，还能实现创作和编辑的一站式服务，免去了繁琐的操作过程。此前它在知名AI评测平台Artificial Analysis上的表现备受关注，无论是文字生成视频还是图像转换成视频，均获得了第一名的佳绩，使Seedance 2

科技2026/4/285 阅读

大厂豪掷数百亿争夺AI人才，字节跳动引领激战潮流

文丨辰聪出品丨师天浩观察（shitianhao01）4月20日，两则消息几乎同时砸进我的信息流。一则是字节跳动2025年净利润暴跌超70%，从2024年的330亿美元缩水到90多亿。另一则是阿里旗下视频生成模型HappyHorse-1.0宣布4月27日开放API测试，5月正式商用。两件事单看没什么，放在一起看，就有意思了。一个是在账面上“大出血”，一个是在战场上“亮新刀”。表面上八竿子打不着，实际

科技2026/4/212 阅读

多名关键高层同期离任引发OpenAI动荡：此前已停止Sora等项目

周五，OpenAI宣布其两名关键人物将离开公司，他们分别是Moonshots项目的领导者。这一人事变动发生在该公司调整战略方向、专注于企业级人工智能业务和超级应用开发之际。凯文·威尔(Kevin Weil)是科学研究项目负责人，而比尔·皮布尔斯(Bill Peebles)则是AI视频生成模型Sora的核心研究员，两人同时宣布离职。OpenAI此前已决定缩减包括Sora在内的几个面向消费者项目的规

科技2026/4/183 阅读

字节发布Seedance 2.0研究论文，深入解析四项关键技术特征及测评详情

近日，字节跳动团队发布了一份关于Seedance 2.0的技术报告，《Seedance 2.0: Advancing Video Generation for World Complexity》（《Seedance 2.0：推动视频生成应对复杂世界》），详细阐述了这款多模态视频生成模型的各项能力及测试成果。据悉，自今年二月初以来，Seedance 2.0已在豆包、即梦AI和火山引擎等平台投入使用，

科技2026/4/181 阅读

阿里新作HappyHorse击败Seedance：API将于4月30日正式启用

最近，阿里ATH创新事业部研发的一款名为HappyHorse-1.0的视频生成模型，在Arena.ai平台上低调上线并启动了测试阶段，目前正处于最终优化过程中，预计很快就会正式发布。据官方透露，这款模型在早期评估中表现出色，特别是在处理视频编辑任务时。现在它已进入最后调整期，计划在未来两周内进行版本更新。根据阿里巴巴内部的消息，该模型的API接口将在4月30日开放给公众使用。目前，已经向社区发布了

科技2026/4/152 阅读

高性能世界模型基线开源，高德加入CVPR 2026 WorldArena挑战赛

机器之心发布近两年来，视频生成模型如 Sora、Veo 和 Cosmos 等，在图像逼真度方面取得了显著进步，生成的画面已经很难区分真假。然而，这些模型是否真正理解了物理世界仍然是一个悬而未决的问题。实际上，当这些模型尝试生成机器人操作的视频时，经常会出现物体穿墙、凭空消失或时间顺序混乱等不符合物理学规律的现象。从「看起来像」到「真能用」，这条技术道路充满了挑战。针对这一问题，一场全球性的竞赛正在

科技2026/4/1327 阅读