搜索: "视觉推理"

共找到 5 篇相关文章

小米开源Xiaomi OneVL自动驾驶模型，业内率先实现VLA、世界模型等多技术路线统一

IT之家 5 月 13 日消息，小米技术今日正式发布并开源 Xiaomi OneVL 一步式潜空间语言视觉推理框架。官方表示，该模型在业内率先实现 VLA、世界模型、潜空间推理等多个技术路线的统一，在具备 XLA 模型强悍推理能力的基础上，大幅提升了推理的速度和精度，是行业内具备开创性的方案，在精度上超越显式 CoT、在速度上对齐“仅答案”预测的潜空间 CoT 方案。过去，VLA 和世界模型是自动

科技2026/5/132 阅读

Monet：让多模态大模型具备类似人类的抽象思维与视觉理解力

“以图思量”的方法，即通过工具调用或代码生成等方式，在思考过程中引入辅助图像（如裁剪、标定、作辅助线等），已成为增强多模态大语言模型视觉推理能力的重要手段。这类方案虽然效果显著，但也带来了对外部工具的依赖性，导致了几个局限。训练和推断复杂度高：在训练过程中，模型需要额外学习各种工具及函数接口的使用方式，增加了训练难度；同时，在多轮交互式推理中也延长了推断延迟时间。可操作类型受限：受制于可用工具种类

科技2026/4/217 阅读

陈丹琦与刘壮推出创新成果：全新开源视觉推理RL框架，无需额外数据训练即达顶尖水平

最近，普林斯顿大学的研究团队发布了新的开源通用视觉推理RL框架——Vero。鱼羊 2026-04-11 09:23:42 量子位

AI2026/4/123 阅读

浙大研究团队攻克多模态模型局限：先优化置信度后精准分配算力

多模态大模型的自信心有多强？一项由浙江大学、阿里巴巴、香港城市大学及密歇根大学的研究团队进行的实验表明：当图像逐渐变得模糊，直至几乎无法辨认时，研究者持续监测模型的准确率与置信度的变化情况。实验结果显示，准确率急剧下降，而置信度基本保持不变。这意味着，即使图像变得模糊，模型仍然会以很高的置信度给出答案。这种“盲目自信”的倾向，正是多模态大模型在复杂视觉推理中产生幻觉和误判的主要原因之一。为了解决这

科技2026/3/234 阅读

ICLR 2026：新一代图灵测试——VLA技术在生物实验室的应用

目前对 VLA 模型的研究和测试大多集中在家用场景（如摆放餐具、折叠衣物），而对于专业科学环境，特别是生物实验室的应用则较少探索。生物实验室因其流程结构化、操作精度高以及多模态交互复杂等特点，是评估 VLA 模型在精确操作、视觉推理及指令执行能力方面的理想场地。最近，香港大学MMLAB 罗平教授团队和上海交通大学穆尧教授团队合作的项目“AutoBio”已被 ICLR 2026 接受，并且获得了同行

科技2026/2/2612 阅读