谁能率先突破全模态世界模型的壁垒？

作者：世界网2026年4月29日科技1 阅读

各大科技公司纷纷投身于构建世界模型的竞争之中，它们争夺的核心已不再是计算力和资源的占有，而是谁能设计出真正能够模拟物理世界的架构。

过去一年半内，世界模型成为了人工智能领域竞争激烈的新兴战场。参与者包括全球性的技术巨头、视频生成企业、机器人制造商、游戏引擎开发商及自动驾驶公司等，几乎涵盖了所有关键行业。

国际上，DeepMind发布了Genie 2系统，通过预测下一帧来训练具身智能；英伟达则推出了Cosmos世界模型。李飞飞创办的World Labs估值已达50亿美元，图灵奖获得者杨立昆也投入10.3亿美元创业，专注于世界模型的研究。在国内市场，小鹏汽车发布了X-World，智元机器人等企业相继推出自主研发的世界模型；4月期间，阿里、腾讯相继入场，字节跳动也在积极布局，使得世界模型成为战略必争之地。

世界模型是实现具身智能和机器人的关键前提条件，同时也是游戏设计、工业仿真以及数字孪生技术发展的新入口。谁能够率先建立起对物理世界的完整建模能力，就可能在未来人工智能领域占据主导地位。目前，在内容生成、影视特效、游戏开发及工业模拟等领域中已经显现出了世界模型的实际商业价值。

尽管行业竞争激烈，但对于“世界模型”的定义仍存在诸多疑问和争论。

为了区分视觉模拟器与真正的世界模型，梅涛提出了三个关键要素：一是原生全模态表达能力，即能够涵盖所有信息形式；二是推理推演能力，能够在物理规律的基础上做出验证性的预测；三是构造世界的能力，不仅仅是模仿或描述现实，而是有能力创造和重塑虚拟环境。

近期，智象未来发布了HiDream-O1模型，标志着该公司从单一视觉生成产品向面向物理世界的建模方向转型。尽管梅涛承认这仍是一个阶段性认知，但他强调不断推动底层技术进步的重要性。

在与诺亦腾机器人的合作中，智象利用高精度动捕设备采集真实数据，并通过放大处理来丰富视频生成的复杂度和准确性，为具身智能企业提供高质量多模态训练数据。这种创新方法有望降低传统数据采集方式的成本并提高效率。

世界模型架构迭代完成后，下一个挑战是如何将其转化为实际应用中的商业价值。智象未来已构建了一个“1+1+3”业务框架：一个HiDream系列原生全模态大模型作为核心底座；一个标准化输出平台——HiHarness-Token Hub；在此基础上延伸出三大场景的应用。

HiHarness-Token Hub是今年技术发展的优先级，它负责统一调度和能力编排，在底座与产品之间搭建桥梁。此外，还对外开放了300多个API接口，并已接入超过百家的KA客户，累计调用次数超过30亿次。

在AIGC社媒创作领域，vivago.ai为专业创作者提供一站式的AI助手工具，通过自研模型加速特效生成过程。该产品覆盖了全球逾三千万的专业用户，并且其中80%是海外用户。

智象未来在商业营销和影视创作方面也取得了显著进展。例如，在线上跨境电商短视频营销领域，HiBurst平台解决了商家面临的创意不足、素材生产效率低下等问题；线下则通过智能终端提供全方位的服务支持超过万家实体店铺运营需求。

最终，智象未来的长期竞争力体现在模型创新力、产品迭代能力和商业生态构建三个方面。这三个层面相互依存和促进，并且共同构成了企业持续发展的核心驱动力。

总之，从单一视觉到多模态乃至全模态统一表征的发展路径不仅是世界模型进化所必需经历的过程，也是迈向通用人工智能（AGI）的关键里程碑之一。随着行业对于掌握全模态能力重要性的共识日益增强，“物理世界建模”的终极命题才刚刚开始被探索和解答。

智象未来联合创始人兼CTO姚霆解释称，选择先以图像大模型为切入点，是因为“图像是世界建模的空间基底，定格了现实世界瞬时时刻的完整状态信息”。在他看来，图像不是独立于视频之外的单点能力，而是视频生成乃至通向原生全模态世界模型的关键入口。

从技术侧看，当前视频生成链路中，80%到90%的问题根源在前端图像阶段——图像没做好，视频一定做不好。从成本侧考虑，图像也是最适合进行Scale Up的切入点。在智象未来的实践中，先以图片模型验证架构可行性，再将架构迁移至视频模型，可将训练成本控制在行业平均水平的1/5到1/10。在UiT原生统一架构下，图像与视频训练也能够协同进行、相互增强，从而为模型进一步走向全模态奠定基础。

在全球技术版图中，智象未来与World labs，Pika labs、Physical Intelligence分属不同技术路径。

Pika以视频生成为核心产品方向，智象未来的目标指向全模态世界模型。World Labs更强调空间建模与空间智能，智象未来并不锚定于空间这一单一维度，而是在架构层面寻求全模态能力的原生统一。Physical Intelligence的切入点是机器人控制与动作智能，智象未来在现阶段并未从具身控制端直接进入，而是优先构建统一的生成式底座，以此打通对物理世界的表达、理解与重构能力。某种意义上，它更接近中国世界模型版图中一个重要的生成式能力方案。

十年视觉，专注架构创新

在通往全模态世界模型这条赛道上，不少玩家是在资本热潮中入场的。智象未来进入这个领域的时间更早。

2017年，这支团队的核心力量还在微软亚洲研究院时，梅涛已带领团队提出TGANs-C，是全球最早的“文本生成视频”模型之一。彼时距离Sora问世还有整整七年。当年那篇论文的作者，今天全部都在智象承担核心基模研发工作。在视觉生成这条技术线上，他们积累已有十多年。

从微软离开后，团队加入京东，将视觉能力相继落地于京东商城APP上的拍照购“以图搜图”功能，以及物流仓里的智能机械臂等产品。面对京东超1000万自营SKU中从易碎品到异形件的复杂品类，该机械臂系统实现了毫秒级视觉识别与动作预测，精准识别并抓取超过10万种不同商品，单台设备分拣效率达到约510件/小时，且7×24小时稳态运营。

团队由此积累了视觉能力在工业场景中落地的经验，也开始意识到这套能力的边界与上限。

2023年，ChatGPT引爆大模型浪潮，Midjourney让图像生成第一次大规模进入大众视野，团队判断这一方向有“更大场景的可能性”，智象未来成立。

从2023年创立至今，智象未来在模型架构上保持极快的更新迭代，基本形成一年一代的演进节奏。作为国内最早布局多模态大模型的团队之一，智象发布了基于 DiT 架构的产品vivago.ai，并在全球首次推出全新的“扩散自回归”（Diffusion + AR）模型架构。相较于单一生成路径，这一范式更强调性能与效率的平衡，在生成质量、时序一致性和可控性上持续突破行业标准。其背后，体现的是智象核心技术团队对模型底层架构创新的长期坚持：每一次更新都不是在原有架构上简单的增量优化，而是对底层逻辑的创新。

团队认为，有时候的确要做一些难而正确的事。而在几个关键技术节点上，他们认为都抓住了突破口，在某些时间节点比同类方案早3到6个月。这不是所有团队都能跨越的门槛。

为何持续押注架构创新？梅涛给出了一个分析判断：创业公司没有大厂的生态优势和算力资源，所以不应简单地走跟随路径，而是找到世界模型关键节点，寻求独特创新，智象未来结合自身技术优势，聚焦底层模型架构，从图片生成模型、视频生成模型，转向原生全模态世界模型架构，通过模型架构创新提高性能天花板，用更少的成本跑出更高的上限。

要理解这次原生全模态架构升级的意义，需要先了解DiT的内在局限。

传统DiT的做法是文字、图片、视频、动作各自独立编码，然后在隐空间里交互，再解码输出。多个模态分别编码、压缩、拼接，存在信息损失，这被认为是当前图像、视频生成中精度损耗与输出不可控的原因之一。

智象UiT架构的核心改变是：将文字、图片、视频、动作等的Token，以更接近原始信号的形式直接进入统一模型，实现原生全模态的统一编码与处理，使模型第一次具备跨模态的“连续理解能力”，而不是简单的模态对齐。梅涛强调“不是今天有一个模型就能自然做成世界模型，世界模型必须是一个原生全模态架构的问题”。

架构的持续创新之外，梅涛还给出了一套判断标准——用来区分真正的世界模型与视觉模拟器，包含三要素：

第一，原生全模态表达——能够表达全世界所有模态的信息，包括视觉信息、动作信息、传感器信息、天气信息等等，而不只是某一类模态；第二，推演能力——能够结合物理规律、因果关系去做可验证的推理，而不只是生成看起来合理的画面；第三，构造世界的能力——不只是model the world，而是mold the world，能够构造和重塑世界，而不只是描述理解它。

简言之，要具备表达世界、推演世界、构造世界的能力。

HiDream-O1是智象向这三个方向迈出的第一步。它标志着智象开始从以视觉生成为主的产品形态，向面向物理世界建模的方向转型。梅涛没有回避这一步的阶段性，“它是我们在不断探索前沿技术过程中的一个阶段性认知。如果你想做世界模型，就一定要不断推动底层技术往前走”。

而就在HiDream-O1发布不久前，智象未来还与诺亦腾机器人宣布战略合作，通过“真实数据+生成式视频数据”的融合范式，共建高精度、规模化具身视频数据，把技术能力扎进了具体工程场景中。

具身智能的发展需要高质量多模态数据，但传统采集方式成本高、效率低，穿戴式动捕设备还容易对人体形态、遮挡关系产生干扰，形成明显的“Vision Gap”（视觉鸿沟）。智象未来与诺亦腾要填上这道沟。诺亦腾用高精度动捕设备采集真实物理反馈数据，智象未来则负责将这些原始传感数据进行百倍以上精细化放大，预计年内将共同产出数万小时高质量具身智能视频训练数据。

普通通用视频生成模型往往以视觉效果为导向，容易出现内容幻觉或物理逻辑矛盾的问题。而智象未来的自研模型则能基于动捕数据进行高可控的生成式优化——既能确保每帧视频与底层操作数据精准匹配，又能极大丰富场景、光影及人体形态的复杂度，从而更贴合具身智能企业的高精度训练需求。

这种质变，划定了智象未来的战略分水岭：如果只停留在更高质量的视频生成层面，本质上仍是在AIGC工具赛道内竞争；而更进一步打通原生全模态架构、真实动作数据、交互视频以及生命科学等更复杂场景，它很有可能在中国世界模型生态中占据更靠近底层的关键位置。

1+1+3：从模型架构创新到商业闭环

世界模型的架构迭代明确之后，下一个问题是：如何转化为可执行的商业？

智象未来在内部构建起了一个“1+1+3”业务架构：以1个HiDream系列原生全模态大模型为底座，1个HiHarness-Token Hub平台提供标准化模型能力输出，在此之上初步延伸出三大场景应用。

其中，HiHarness-Token Hub平台是今年技术上的第一优先级。它在底座与产品之间，承担统一调度与能力编排的职能。这层中台汇集了模型能力、API能力、行业Know-how与Skill编排能力，同时集成第三方与开源模型。现已对外开放300+API，接入100+KA客户，累计调用次数超30亿次，支持订阅制、行业定制及私有化MaaS服务。

“3”，则是围绕三大核心场景的AIGC产品线：

在AIGC社媒创作领域，面向专业创作者（OPC），打造一站式AI Agent创作工具vivago.ai，通过自研3D video模型与推理加速，将特效生成提速至秒级，已覆盖全球超3000万专业用户。其中80%为海外用户，今年一季度单月新增用户就超过千万。

在AIGC商业营销领域，构建线上跨境电商短视频营销与线下营销的一体化产品能力。线上，HiBurst平台解决商家营销创意不足、素材生产效率低、跨平台适配成本高等难题，已成为TikTok前五大AI合作伙伴；线下，软硬件一体智能营销终端HiDreamFans已服务全国超万家实体店铺，今年一季度销售已超去年全年。

在AIGC影视创作领域，发布全球首个专业级AI影视创作协作智能体——“帧赞”，以电影级画质生成和“创意-分镜-成片”全流程打通为核心能力。目前智象已累计制作短漫剧超过5000分钟。采用帧赞作为AI技术支持的奇幻悬疑AI仿真人短剧《秦岭青铜诡事录》上线仅12小时，就很快上升至腾讯视频竖屏热播榜第一，成为2026年AI短剧赛道标志性爆款。

一些新的业务线也在快速起势。除了之前提到在具身智能赛道的拓展，智象已与百图生科（BioMap）深度协同共建微观世界模型，用于分子动力学理解，赋能生物医药创新。

这一布局是智象未来“全模态世界模型”底座能力的自然外溢。行业人士观察，很多具身智能公司低估了一件事：没有强视频底座，很难走远。而随着模型能力的升级，智象未来生成的视频精度已达毫米级，完全能满足具身智能训练大模型时对监控和标注的要求。梅涛进一步预测，未来，得益于在数百万小时视频数据上学到的规律，“如果要做一个端到端的具身智能模型，我们需要的数据小时数，可能只是一些公司的十分之一，甚至百分之一。”

从商业营销、社媒和影视创作，到具身智能，智象未来“3”的业务边界还在不断延展，而这最终都指向了这家公司对自身长期竞争力的深层思考：模型创新力、产品迭代力、商业生态力。三层之间相互依赖，任何一层单独成立，都不足以支撑一家长期创新的大模型技术创新公司。

从单一视觉到多模态，再到全模态统一表征，这不仅是世界模型进化的必经之路，更是通往AGI的关键里程碑。当行业逐渐达成共识——掌握全模态能力即掌握下一代智能的钥匙时，这场关于“物理世界建模”的终极命题，才刚刚拉开序幕。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

谁能率先突破全模态世界模型的壁垒？

作者：世界网2026年4月29日科技1 阅读

各大科技公司纷纷投身于构建世界模型的竞争之中，它们争夺的核心已不再是计算力和资源的占有，而是谁能设计出真正能够模拟物理世界的架构。

尽管行业竞争激烈，但对于“世界模型”的定义仍存在诸多疑问和争论。

在全球技术版图中，智象未来与World labs，Pika labs、Physical Intelligence分属不同技术路径。

十年视觉，专注架构创新

在通往全模态世界模型这条赛道上，不少玩家是在资本热潮中入场的。智象未来进入这个领域的时间更早。

团队由此积累了视觉能力在工业场景中落地的经验，也开始意识到这套能力的边界与上限。

2023年，ChatGPT引爆大模型浪潮，Midjourney让图像生成第一次大规模进入大众视野，团队判断这一方向有“更大场景的可能性”，智象未来成立。

要理解这次原生全模态架构升级的意义，需要先了解DiT的内在局限。

架构的持续创新之外，梅涛还给出了一套判断标准——用来区分真正的世界模型与视觉模拟器，包含三要素：

简言之，要具备表达世界、推演世界、构造世界的能力。

1+1+3：从模型架构创新到商业闭环

世界模型的架构迭代明确之后，下一个问题是：如何转化为可执行的商业？

“3”，则是围绕三大核心场景的AIGC产品线：

“”

谁能率先突破全模态世界模型的壁垒？

谁能率先突破全模态世界模型的壁垒？

相关文章

相关文章