
VeRL-Omni:面向扩散和全模态生成模型的通用RL后训练框架
VeRL-Omni 是一个面向多模态生成模型的通用 RL 后训练框架,由VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。覆盖扩散 transformer(Qwen-Image)、混合 AR-DiT(Qwen-Omni)、统一理解 + 生成(BAGEL、HunyuanImage-3.0)等架构。多模态 rollout 走 vLLM-Omni 的异步高吞吐 serving,VL
共找到 36 篇相关文章

VeRL-Omni 是一个面向多模态生成模型的通用 RL 后训练框架,由VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。覆盖扩散 transformer(Qwen-Image)、混合 AR-DiT(Qwen-Omni)、统一理解 + 生成(BAGEL、HunyuanImage-3.0)等架构。多模态 rollout 走 vLLM-Omni 的异步高吞吐 serving,VL

有消息称,字节跳动视频生成模型Seedance 2.1将于近期发布,预计生成效果较2.0版本提升20%。字节对字母AI表示,此消息为假消息。虽然Seedance 2.1未必会于近期发布,但是Seedance 2.0在海外热度大涨却是真的。原因在于,周末,一篇标题为《中国人工智能企业在视频生成竞赛中领跑美国对手》(Chinese AI groups pull ahead of US rivals i

当视频生成模型在视觉保真度上不断突破时,一个核心瓶颈正变得愈发清晰:模型是否真正理解了真实世界?能否推理出合理的演变过程?在具身智能、影视制作以及物理仿真等应用场景中,要求模型不仅要生成 “平滑的像素”,更要实现 “逻辑连贯的演化”。这种对物理规律与因果关系的建模能力,是当前基于大数据驱动的端到端生成模型面临的长期挑战。那么,我们能否将多模态大模型(MLLM)的推理能力,作为一种 “外脑” 注入到

5月19日消息,据AI普瑞斯独家获悉,字节跳动视频生成模型Seedance 2.1将于近期发布,预计生成效果较2.0版本提升20%。此外,字节跳动还将推出Seedance2.0低配版,比目前的fast版效果更好,但价格更低,预计是5毛一秒,可能要对市场上其他厂商的视频模型造成巨大冲击。据行业人士向AI普瑞斯透露,按日消耗占比计算,Seedance已占据市场超八成份额,可灵约占14%,万相2.7约占

允中 整理自 凹非寺量子位 | 公众号 QbitAI生成模型的偏好对齐,可能正在进入一个新的阶段。过去几年,大模型post-training最主流的方法是让模型从“成对偏好”中学习。但无论是RLHF还是DPO,都存在同一个问题:反馈必须成对出现。但在真实场景中,反馈大多都是单个样本的标量分数。为此,新加坡国立大学团队提出了一个更为直接的解法:Threshold-Guided Optimizatio

现在无论哪一家要发布视频模型,都免不了要被拉来和 Seedance 2.0 对比。而最近比较沉寂的 Google,似乎在悄悄憋一个大招,来重夺视频生成的王座。今天凌晨,有网友在 Gemini 中意外触发了一个全新的视频生成模型——Omni(全能)。在 Gemini 的聊天页面,直接显示着「用 Gemini Omni 来创作,认识一下我们全新的视频生成模型。重混你的视频、在对话中直接进行编辑、尝试丰

4月以来,视频模型重新成为AI行业里最拥挤的赛道之一。先是月初,阿里的HappyHorse-1.0登顶Artificial Analysis视频竞技场榜单,在无音频文生视频榜单中拿到1368的Elo分,力压Seedance 2.0和可灵3.0。随后,总部位于美国的fal.AI上线HappyHorse-1.0官方API。fal主要为开发者和企业提供图像、视频、语音等生成模型的API调用和推理服务,此

近年来,音频生成技术发展迅猛。随着应用场景的复杂化,业界呈现出一个显著趋势:音频生成模型正从单一条件控制走向多模态协同控制。研究者期望在一个统一的模型架构中,同时支持文本生成音频(T2A)、视频生成音频(V2A)以及视频-文本联合生成音频(VT2A)。相比为每个任务独立部署专用模型的传统做法,统一模型能大幅降低架构冗余与部署成本,为用户提供更为灵活的音频生成方式。然而,随着研究的深入,业界发现了一

除了香蕉和GPT Image之外,一支华人团队开发的图像生成模型Uni-1.1在国际上崭露头角。 思邈 2026-05-06 17:24:27 量子位

作者|樊雅婷提供的电子邮箱地址似乎不完整或有误,请确认后重试。GPT Image 2 的出现标志着图像生成技术的一个重大转折点,它不仅仅是一个优化后的扩散模型或是更高效的架构迭代,而是将语义理解和推理能力直接引入了图像生成过程中的关键环节。这样的革新不仅解决了图像质量与一致性的问题,还大大提升了用户交互体验。根据最近的观察和分析,GPT Image 2 的成功在很大程度上归功于其独特的混合架构——

新智元报道该项目展示了如何使用多模态生成模型创建一个虚拟世界,从零开始构建了一个可以自主运行的AI角色系统。开发者利用六步地图生成流程和角色立绘抠图技术,建立了一个包含全景地图、功能区定位、可交互元素定位以及可行走区域标注的完整管道。项目中还包括决策波、对话调度、动作执行及微反思等机制,以确保每个Tick内所有AI角色的行为都经过精心设计和模拟。每个AI角色都配备了三层记忆系统来记录其经历,并根据

作者|陈博远今日凌晨,陈博远博士在知乎平台上发布了一篇博客文章,分享了有关 GPT Image 2 官网博客的一些幕后趣事。大家好,我是 OpenAI 的研究科学家陈博远。上周我们发布了最新的图像生成模型,而这个项目主要由我负责训练。这次发布会的主持工作是由我和山姆奥特曼共同完成的,很高兴能够成功展示改进后的中文渲染效果。如果有任何反馈意见,请随时留言给我。在 GPT Image 2 的发布会上,

近日,阶跃星辰发布了一款新的图像编辑生成模型——Step Image Edit 2。据悉,这款模型的参数量仅为3.5B,在KRIS-Bench轻量化评测中取得了综合第一的成绩,并支持多种功能如文生图、中英文渲染、局部编辑等。目前该服务已开放API接口供用户使用,定价为每张图片0.02元,公测期间(4月28日至5月5日)免费体验。根据官方发布的视频资料,在生成文生图的速度方面,Step Image

MuleRun(骡子快跑)推出了一款名为HappyHorse的全新视频生成模型,用户可以全天候访问。 量子位的朋友们 2026-04-28 13:42:39 量子位

隐藏在幕后的「欢乐马」终于揭开了它的面纱。4月27日,阿里ATH团队发布了视频生成模型HappyHorse 1.0的首个版本。这款模型基于原生多模态架构设计,不仅能同时处理音视频内容,还能实现创作和编辑的一站式服务,免去了繁琐的操作过程。此前它在知名AI评测平台Artificial Analysis上的表现备受关注,无论是文字生成视频还是图像转换成视频,均获得了第一名的佳绩,使Seedance 2

文丨辰聪出品丨师天浩观察(shitianhao01)4月20日,两则消息几乎同时砸进我的信息流。一则是字节跳动2025年净利润暴跌超70%,从2024年的330亿美元缩水到90多亿。另一则是阿里旗下视频生成模型HappyHorse-1.0宣布4月27日开放API测试,5月正式商用。两件事单看没什么,放在一起看,就有意思了。一个是在账面上“大出血”,一个是在战场上“亮新刀”。表面上八竿子打不着,实际

周五,OpenAI宣布其两名关键人物将离开公司,他们分别是Moonshots项目的领导者。这一人事变动发生在该公司调整战略方向、专注于企业级人工智能业务和超级应用开发之际。凯文·威尔(Kevin Weil)是科学研究项目负责人,而比尔·皮布尔斯(Bill Peebles)则是AI视频生成模型Sora的核心研究员,两人同时宣布离职。OpenAI此前已决定缩减包括Sora在内的几个面向消费者项目的规

近日,字节跳动团队发布了一份关于Seedance 2.0的技术报告,《Seedance 2.0: Advancing Video Generation for World Complexity》(《Seedance 2.0:推动视频生成应对复杂世界》),详细阐述了这款多模态视频生成模型的各项能力及测试成果。据悉,自今年二月初以来,Seedance 2.0已在豆包、即梦AI和火山引擎等平台投入使用,

最近,阿里ATH创新事业部研发的一款名为HappyHorse-1.0的视频生成模型,在Arena.ai平台上低调上线并启动了测试阶段,目前正处于最终优化过程中,预计很快就会正式发布。据官方透露,这款模型在早期评估中表现出色,特别是在处理视频编辑任务时。现在它已进入最后调整期,计划在未来两周内进行版本更新。根据阿里巴巴内部的消息,该模型的API接口将在4月30日开放给公众使用。目前,已经向社区发布了

机器之心发布近两年来,视频生成模型如 Sora、Veo 和 Cosmos 等,在图像逼真度方面取得了显著进步,生成的画面已经很难区分真假。然而,这些模型是否真正理解了物理世界仍然是一个悬而未决的问题。实际上,当这些模型尝试生成机器人操作的视频时,经常会出现物体穿墙、凭空消失或时间顺序混乱等不符合物理学规律的现象。从「看起来像」到「真能用」,这条技术道路充满了挑战。针对这一问题,一场全球性的竞赛正在