最近,一款名为蚂蚁灵光的应用程序推出了一项全新的功能。
在4月27日,这款应用程序发布了一个“体验世界模型”的新特性,成为了业内首个能在移动端提供此类服务的智能助手。该应用实现了几乎实时且直观交互的功能体验。

▲灵光App界面更新
用户只需上传一张图片到蚂蚁灵光APP中,就可以在手机上探索长达60秒的三维虚拟环境,并通过游戏手柄控制视角进行导航和互动。
蚂蚁灵光应用所依赖的技术是其公司旗下团队于今年年初开源的一个名为LingBot-World-Fast的世界模型系统。该模型能够生成高质量、连贯且具有逻辑一致性的模拟场景。
我们第一时间体验了这个新功能,并发现它可以在短短几秒钟内产生3D画面,无需等待,图像自然流畅;虽然操控时有轻微的延迟,但用户可以接受这种程度的表现。对于移动设备而言,清晰度还有待改进的空间。

上传给灵光App的一张图片
灵光App在不到一秒的时间内就能创建一个全新的“世界”
使用该功能时,用户可以在应用的对话框中上传一张图片,系统会自动建议相应的操作命令。如果用户选择“生成图中的虚拟世界”,或者直接输入类似“让我以第一人称视角探索这个世界”之类的指令,系统将开始处理并生成三维场景。
当我用《黑神话:悟空》中小雷音寺的截图测试时,灵光快速创建了一个类似于游戏画面的虚拟环境。其中加入了手游控制杆来移动视点,并声称这是为了适应移动端用户的习惯而做出的一项创新。

上传给灵光App的一张图片
灵光App生成的部分体验截图
在测试中,复杂的建筑结构得到了准确的再现;门洞内部的空间感被合理地展现出来,没有出现穿模的问题。当用户环视四周时,场景转换自然流畅,延迟大约为一秒钟左右。
然后我尝试了《塞尔达传说:旷野之息》中海拉鲁平原的一张截图,生成的开阔景象地面连续性良好;从山顶望去可以看到崎岖不平的地貌特征。阳光下绿色和蓝天之间的颜色过渡自然,地上的阴影也与输入图片中的光源方向一致。

上传给灵光App的一张图片
灵光App生成的部分体验截图
接下来我测试了《超级马里奥:奥德赛》中都市国街道场景的图片,看到近景路灯、行人行道和远高楼形成了层次感。角色沿着道路行走时,两侧建筑保持平行视角正确;不过地面交通标志出现了一些扭曲,小摩托车在行驶一段时间后消失。

上传给灵光App的一张图片

灵光App生成的部分体验截图
最后我尝试了一张描绘恐龙灭绝主题的CG艺术图。陨石坠落和火山爆发的情景被生动地呈现出来,不过陨石悬浮的时间稍微长了一些;远处烟雾与岩石边界清晰可见。恐龙在移动时形态保持良好,没有明显的视觉错误。

上传给灵光App的一张图片

灵光App生成的部分体验截图
移动端部署世界模型面临着计算资源需求大、延迟控制难和终端性能不一等挑战。实测表明,灵光“体验世界模型”功能在响应速度上表现良好。据官方报道,团队采用了高效的流式传输技术,实现了百毫秒级别的快速反应。
蚂蚁灵光的产品经理蔡伟表示:“这一新特性是我们在探索智能边界过程中的一项重要进展。”
当前市场上的世界模型赛道正在迅速升温。从阿里巴巴、腾讯到李飞飞团队等相继推出了新的作品,蚂蚁灵光则率先实现了在手机端的应用。
随着技术的进步和应用场景的拓展,未来的竞争将不仅仅在于技术本身的表现,更要看谁能提供最实用且广泛接受的产品和服务。
端侧响应速度与生成效果已有明显进步,正如蔡伟所言,灵光希望不断探索智能边界,把好的AI体验给到所有人。接下来,比拼的不仅是技术,落地后的应用场景挖掘也至关重要。

