搜索: "多模态"

共找到 113 篇相关文章

Monet：让多模态大模型具备类似人类的抽象思维与视觉理解力

“以图思量”的方法，即通过工具调用或代码生成等方式，在思考过程中引入辅助图像（如裁剪、标定、作辅助线等），已成为增强多模态大语言模型视觉推理能力的重要手段。这类方案虽然效果显著，但也带来了对外部工具的依赖性，导致了几个局限。训练和推断复杂度高：在训练过程中，模型需要额外学习各种工具及函数接口的使用方式，增加了训练难度；同时，在多轮交互式推理中也延长了推断延迟时间。可操作类型受限：受制于可用工具种类

科技2026/4/217 阅读

高德推出全球首个多模态AGI技术框架“ABot”：涵盖15项顶尖成果，打造全方位进化的人工智能生态循环

高德公司近期发布了全球首个为通用人工智能设计的全栈技术框架“ABot”，该系统包括多项行业领先的技术成果。量子位的朋友们 2026-04-19 15:50:32 量子位

AI2026/4/202 阅读

字节发布Seedance 2.0研究论文，深入解析四项关键技术特征及测评详情

近日，字节跳动团队发布了一份关于Seedance 2.0的技术报告，《Seedance 2.0: Advancing Video Generation for World Complexity》（《Seedance 2.0：推动视频生成应对复杂世界》），详细阐述了这款多模态视频生成模型的各项能力及测试成果。据悉，自今年二月初以来，Seedance 2.0已在豆包、即梦AI和火山引擎等平台投入使用，

科技2026/4/181 阅读

最新消息：阿里巴巴推出全新世界模型“欢乐蚝”，探索视频创造的新纪元

最近，阿里ATH创新事业部对外宣布了他们的首款开放式世界模型HappyOyster。该模型基于多模态架构设计，具备音视频生成、场景理解和实时互动等功能。用户只需输入文本或图像信息，即可构建一个持续运行的虚拟物理空间。在这个空间里，各种元素如光照、重力以及物体运动遵循时间和逻辑上的连续性。举例来说，在HappyOyster中创建的角色和背景可以随着视角变换而保持一致性。与传统的生成视频流程不同，这款

科技2026/4/173 阅读

Qwen3.6开源版本面世！编程与视觉能力双双升级，支持OpenClaw

智东西作者李水青编辑心缘昨晚，阿里通义千问团队宣布开源了混合专家（MoE）模型Qwen3.6-35B-A3B，在此前发布的Qwen3.6-Plus之后。这一新模型拥有350亿的总参数量，激活参数仅为30亿。它以其轻量化高效和智能体编程能力著称，并在多模态感知与推理方面表现出色，超越了谷歌近期推出的Gemma 4系列和其他阿里内部模型。据官方信息显示，在关键编程基准测试中，Qwen3.6-35B

科技2026/4/1734 阅读

智象未来获新一轮投资，加速构建下一代多模态原生世界模型

智象未来近期完成了一轮新的融资，旨在推动下一代原生全模态世界模型的研发。量子位的朋友们 2026-04-16 14:40:06 量子位

AI2026/4/1713 阅读

智象未来获逾5亿融资，发力构建全模态原生世界模型

近日，多模态生成人工智能公司HiDream.ai宣布获得超过5亿元人民币的新一轮融资。本轮投资者包括东方富海、安徽省投资集团的省产业投资公司及峰华资本等新加入的投资方，同时也得到了合肥产投、兴泰集团和合肥高投等现有股东的支持。公司表示，此轮融资的资金将主要用于下一代“原生全模态世界模型”的开发，以及企业服务智能体产品的建设与全球市场的扩张。据公司透露，在未来的竞争中，统一架构的现实物理世界的建模将

科技2026/4/1512 阅读

全球首测启动：EverOS智能体记忆自进化新篇章

机器之心发布EverMind 公司近期推出了EverOS，这是一个全新的AI记忆系统，它超越了现有产品的功能限制，为智能代理（Agent）提供了更强大的上下文理解和长期记忆能力。通过引入独特的Skills自进化机制和多模态检索技术，EverOS不仅提升了任务成功率，还显著压缩了执行路径长度。EverMind 的最新发布标志着AI从传统数据处理工具向具有持久记忆的数字伴侣转变的重要一步。这个系统的核

科技2026/4/1526 阅读

Meta AI的背后真相或许超乎想象

放弃了 Llama 这个出道即巅峰的项目，Meta 决定不再走弯路，投入数百亿美元创建了一个超级智能实验室。在 Meta 调整其 AI 策略之后，他们的第一款通用模型 Muse Spark 经过一年的研发，终于问世了。世超在第一时间尝试后发现，曾经的 Meta 只是跟跑者之一，在资金的支持下，如今可能已经成为了行业领导者。官方发布的跑分数据显示，Muse Spark 在多模态、文字推理、健康等多个

科技2026/4/111 阅读

明日揭晓：广汽推出全新一代智能座舱及电子电气架构

据报道，广汽集团将于4月12日在其番禺总部举行2026广汽科技日活动。本次活动的主题是“科技向心”，届时将展示新一代端云一体智能座舱架构、电子电气架构以及芯片生态建设的新进展。新一代端云一体智能座舱架构具备多模态情感计算能力，能够实时感知乘客的情绪变化，并通过声音、光线和动画效果等手段提供贴心服务；同时，长时记忆功能使车机系统能够更好地学习用户习惯，如常用路线、座椅位置和个人偏好餐厅等。全新端云一

科技2026/4/111 阅读

CVPR 2026：新扩散加速技术确保低步骤下的高质量图像稳定生成

崔奔雷（阿里巴巴）和何少轩（浙江大学实习生），他们的研究集中在多模态理解和生成领域。文章的通讯作者为洪海文（阿里巴巴）与赵洲（浙江大学），他们分别专注于多模态大语言模型和语音理解生成。近几年，扩散模型成为了图像、音频及视频等多模式数据生成的关键技术，并在实际生产中获得了广泛应用。然而，在落地过程中仍然存在一些瓶颈：工业级别的推理预算通常限制为 20 至 30 步，即便如此，许多加速方法依旧会遇到纹

科技2026/4/1112 阅读

抢先了解顶尖会议论文！机器之心ICLR 2026研讨会，邀您下周六相聚北京

在2026年，人工智能的发展正以前所未有的速度改变着技术的边界。大型模型训练效率不断提高、具身智能从实验室走向实际应用的步伐加快以及多模态融合技术逐渐成熟等一系列进展描绘了当前最令人振奋的人工智能发展图景。与此同时，代理技术（Agent）的进步正在重新定义人机协作的可能性，并引发了关于如何使这些智能体具备持续学习和自主决策能力的研究热潮。在这样一个背景下，一年一度的 ICLR 成为了观察全球人工智

科技2026/4/1021 阅读

年轻创业者以“伴身智能”产品赢得千万投资，背后支持者包括商汤国香与奇绩创坛｜甲子光年

一年前的一个凌晨,弦指科技两位联合创始人Jasper和Xander兴奋又不安地讨论着产品方向。他们相信自己的技术路径是正确的，但市场接受度依然是未知数。作者｜刘杨楠在探索伴身智能的过程中，他们意识到硬件、算法与数据的完美结合至关重要。健康戒指作为数据入口，提供了连续且高质量的数据流，为个人世界模型的发展奠定了基础。健康戒指的设计理念聚焦于无感佩戴和精准采集多模态信息，以确保长期持续的数据收集。这不

科技2026/4/92 阅读

DeepSeek推出专业版功能

最近，DeepSeek进行了重要的升级更新。本次改动中，用户可以在输入框上方看到新增的“快速模式”和“专家模式”。这是自该应用走红以来首次在产品设计上增加了使用层次区分。其中，“快速模式”适用于日常交流场景，并能实现即时反馈；它还支持对图片及文件中的文字进行识别。“专家模式”则更适合处理复杂的问题，能够提供深入的思考与智能搜索功能。然而，在这一版本中，尚不支持文件上传以及多模态操作，同时在高峰时段

科技2026/4/93 阅读

扎克伯格豪掷143亿推出新项目「牛油果」，挑战GPT-5.4，硅谷迎来最昂贵华人创新作品

新智元报道Meta超级智能实验室（MSL）沉寂了九个月后，终于推出首个重要作品Muse Spark，并在深夜引发轰动。该产品的评分从之前的18分跃升至52分，在短短几个月内实现了巨大的飞跃。Muse Spark正式上线，代号为Avocado的它引发了广泛关注。这款产品集成了多种先进技术：原生多模态感知、工具调用、视觉思维链和多Agent编排等全方位功能。在Artificial Analysis的测

科技2026/4/93 阅读

ReCALL框架革新多模态检索，破解生成式与判别式模型难题迈向新高度

ReCALL团队在量子位平台上发布了一篇文章，探讨了生成式模型的应用效果。当多模态大模型具备强大的视觉和逻辑推理能力时，人们期待它们能轻松解决图像检索任务，尤其是组合图像检索问题。然而实际应用中却发现，将这些大型生成式模型改造为判别式的检索工具后，其性能反而显著下降。这种从生成转向判断的转换过程中产生了严重的功能退化现象。最近，紫东太初团队与新加坡国立大学的研究人员合作解决了这一行业难题，并提出了

科技2026/4/75 阅读

破解生成与判别矛盾，ReCALL框架引领多模态检索新突破｜CVPR'26

ReCALL框架破解生成式与判别式的冲突，助力大模型在多模态检索领域实现超越SOTA的性能 | CVPR’26 听雨 2026-04-06 23:30:59 量子位

AI2026/4/72 阅读

理想座驾，活色生香龙虾相伴

最近，理想公司发布了一项新的技术突破——一款结合了流式视频理解和具身智能的新型Agent框架StreamingClaw。该系统不再像传统的“龙虾”那样只是盯着屏幕玩电脑，在实际应用中已经能够主动介入用户的生活与工作场景之中。StreamingClaw在确保兼容OpenClaw的基础上，新增了实时多模态流式交互的支持功能。这种改进使得系统可以像人类一样，在接收到视觉输入时即时进行处理并生成反馈。例如

科技2026/4/68 阅读

揭秘GPT-6真容

最新的消息显示，OpenAI即将发布其备受瞩目的新模型——GPT-6。据称这款代号为“土豆”的项目已经进入最后阶段，并定于4月14日推出。该模型被业内视为实现通用人工智能（AGI）的关键一步。知情人士透露，GPT-6将具备显著的性能提升，在代码编写、逻辑推理和智能体任务方面超越前代产品。此外，它还实现了多模态功能的一次性整合，能够处理文本、音频、图像及视频等多种格式的数据。模型的最大亮点之一是其超

科技2026/4/610 阅读

GPT-6，曝光了

Jay 发自凹非寺量子位 | 公众号 QbitAIOpenAI简直漏风漏得跟筛子一样，关于最新Spud（土豆）模型的消息，又双叒叕来了。这颗「土豆」，就是万众瞩目的GPT-6。据爆料，这颗「土豆」已经彻底煮熟了，4月14号就会发布。知情人士表示，这是个彻底奔着AGI去的模型——性能暴涨40%，在代码、推理、智能体任务上，全方位碾压GPT-5.4。原生多模态，一套架构搞定文本、音频、图像、视频。更

科技2026/4/54 阅读