搜索: "视觉理解"

共找到 3 篇相关文章

商汤推出高效能多模态模型,开源首日即成领先之作!体积小巧仅8B,媲美商用产品

商汤推出高效能多模态模型,开源首日即成领先之作!体积小巧仅8B,媲美商用产品

智东西团队近期推出了一篇关于GPT images 2.0的文章,引发了人们对多模态模型的新一轮关注。过去,“画得好”不再是唯一的追求标准,人们现在更加注重“速度快、效率高、成本低”的特性。很长时间以来,视觉理解和图像生成被区分为两个独立的系统:前者负责识别图像内容,后者则专注于根据需求创作新图。这种分离式的结构限制了模型的整体性能。商汤科技最近采取了一种新的策略来应对这一挑战。他们刚刚发布了名为S

科技11 阅读
Monet:让多模态大模型具备类似人类的抽象思维与视觉理解力

Monet:让多模态大模型具备类似人类的抽象思维与视觉理解力

“以图思量”的方法,即通过工具调用或代码生成等方式,在思考过程中引入辅助图像(如裁剪、标定、作辅助线等),已成为增强多模态大语言模型视觉推理能力的重要手段。这类方案虽然效果显著,但也带来了对外部工具的依赖性,导致了几个局限。训练和推断复杂度高:在训练过程中,模型需要额外学习各种工具及函数接口的使用方式,增加了训练难度;同时,在多轮交互式推理中也延长了推断延迟时间。可操作类型受限:受制于可用工具种类

科技7 阅读
龙虾也能用手机?揭秘GUI智能体从训练到部署的全链路解决方案

龙虾也能用手机?揭秘GUI智能体从训练到部署的全链路解决方案

ClawGUI团队向量子位投稿 | 公众号 QbitAIAI自主观看屏幕、判断局势、规划消除路径并执行点击操作,无需人工介入或预设脚本。观察它一步步完成方块的消除任务,会让人感到一种莫名的减压感。这并非游戏作弊程序,而是一个通用图形用户界面智能体在“认真工作”:该智能体拥有与操作手机应用、填写表格和浏览网页相同的视觉理解和控制能力。之所以能玩转消消乐,是因为它真正掌握了“看懂屏幕并进行操作”的技能

科技2 阅读