搜索: "多模态生成"

共找到 6 篇相关文章

VeRL-Omni：面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni 是一个面向多模态生成模型的通用 RL 后训练框架，由VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。覆盖扩散 transformer（Qwen-Image）、混合 AR-DiT（Qwen-Omni）、统一理解 + 生成（BAGEL、HunyuanImage-3.0）等架构。多模态 rollout 走 vLLM-Omni 的异步高吞吐 serving，VL

科技2026/5/261 阅读

AI小镇觉醒记：开发者十日速成奇迹工程项目

新智元报道该项目展示了如何使用多模态生成模型创建一个虚拟世界，从零开始构建了一个可以自主运行的AI角色系统。开发者利用六步地图生成流程和角色立绘抠图技术，建立了一个包含全景地图、功能区定位、可交互元素定位以及可行走区域标注的完整管道。项目中还包括决策波、对话调度、动作执行及微反思等机制，以确保每个Tick内所有AI角色的行为都经过精心设计和模拟。每个AI角色都配备了三层记忆系统来记录其经历，并根据

科技2026/5/23 阅读

智象未来获逾5亿融资，发力构建全模态原生世界模型

近日，多模态生成人工智能公司HiDream.ai宣布获得超过5亿元人民币的新一轮融资。本轮投资者包括东方富海、安徽省投资集团的省产业投资公司及峰华资本等新加入的投资方，同时也得到了合肥产投、兴泰集团和合肥高投等现有股东的支持。公司表示，此轮融资的资金将主要用于下一代“原生全模态世界模型”的开发，以及企业服务智能体产品的建设与全球市场的扩张。据公司透露，在未来的竞争中，统一架构的现实物理世界的建模将

科技2026/4/1512 阅读

顶尖学府团队革新养殖业！一元成本养龙虾，全方位内容解析，打工人的致富秘籍

新智元报道在竞争对手仍在专注于单点能力时，Agnes已将文本代理、图像处理、视频生成和办公自动化工具整合进开发者工具箱中，提供了一整套AI生产力解决方案。最近，Agnes的核心模型矩阵在Zenmux平台（https://zenmux.ai/models?sort=newest）正式上线，并一次性开放了四款主力模型的调用接口，涵盖文本代理与多模态生成两大核心领域。其中包括Claw系列中的Agnes-

科技2026/4/24 阅读

HiDreamClaw首发：原生龙虾登陆图片视频平台

近日，多模态生成式AI公司智象未来（HiDream.ai）推出了其首款专为图片与视频领域的原生AI应用HiDreamClaw。这款产品现已在面向海外用户的个人创意工具vivago的网页版中投入使用。随着通用AI代理的不断涌现，市场焦点逐渐转向了具体应用场景。此次新产品的发布，标志着AI代理正在更多地介入到垂直内容创作领域。HiDreamClaw的核心技术基于智象未来自主研发的百亿参数级多模态大模型

科技2026/3/233 阅读

可灵携手滑铁卢大学发布UniVideo：引领视频理解与创造新时代

在多模态内容的理解和生成领域，统一的多模型已经显示出显著的效果，但这些成果主要集中在图像处理上。近日，滑铁卢大学与快手可灵团队共同研发出了一种名为 UniVideo 的创新性系统。该系统能够在单一框架下执行视频理解、创建及编辑任务，并且基于一个多模态生成模型构建而成。UniVideo 采用双通道结构设计，将大规模多模态语言模型（MLLM）的指令理解和推理能力与多模态扩散 Transformer（M

科技2026/3/611 阅读