搜索: "视觉理解"

共找到 3 篇相关文章

商汤推出高效能多模态模型，开源首日即成领先之作！体积小巧仅8B，媲美商用产品

智东西团队近期推出了一篇关于GPT images 2.0的文章，引发了人们对多模态模型的新一轮关注。过去，“画得好”不再是唯一的追求标准，人们现在更加注重“速度快、效率高、成本低”的特性。很长时间以来，视觉理解和图像生成被区分为两个独立的系统：前者负责识别图像内容，后者则专注于根据需求创作新图。这种分离式的结构限制了模型的整体性能。商汤科技最近采取了一种新的策略来应对这一挑战。他们刚刚发布了名为S

科技2026/4/2911 阅读

Monet：让多模态大模型具备类似人类的抽象思维与视觉理解力

“以图思量”的方法，即通过工具调用或代码生成等方式，在思考过程中引入辅助图像（如裁剪、标定、作辅助线等），已成为增强多模态大语言模型视觉推理能力的重要手段。这类方案虽然效果显著，但也带来了对外部工具的依赖性，导致了几个局限。训练和推断复杂度高：在训练过程中，模型需要额外学习各种工具及函数接口的使用方式，增加了训练难度；同时，在多轮交互式推理中也延长了推断延迟时间。可操作类型受限：受制于可用工具种类

科技2026/4/217 阅读

龙虾也能用手机？揭秘GUI智能体从训练到部署的全链路解决方案

ClawGUI团队向量子位投稿 | 公众号 QbitAIAI自主观看屏幕、判断局势、规划消除路径并执行点击操作，无需人工介入或预设脚本。观察它一步步完成方块的消除任务，会让人感到一种莫名的减压感。这并非游戏作弊程序，而是一个通用图形用户界面智能体在“认真工作”：该智能体拥有与操作手机应用、填写表格和浏览网页相同的视觉理解和控制能力。之所以能玩转消消乐，是因为它真正掌握了“看懂屏幕并进行操作”的技能

科技2026/4/202 阅读