搜索: "多模态模型"

共找到 15 篇相关文章

教大模型终身学习！中科大连发两篇顶会，突破「知识注入」双重困境

新智元报道【新智元导读】中科大团队首先推出动态多模态知识注入基准MMEVOKE，解构遗忘机制，并在此基础上提出全新双阶段框架KORE。通过「知识树」自动增强与「零空间」协方差约束微调，为大模型终身学习开辟了全新路径。当前主流大型多模态模型（LMMs）通过海量数据的预训练存储了丰富的静态知识，并在多模态理解与指令跟随上取得了巨大成功。然而，现实世界瞬息万变，大模型的既有知识面临「上线即过时」的严峻挑

科技2026/5/221 阅读

DeepSeek发布创新成果！多模态模型研究报告出炉：性能超GPT-5.4

DeepSeek近日在GitHub上公开了一款多模态推理模型及其技术报告《以视觉原语思考》。这个模型基于DeepSeek V4-Flash架构（总计参数量为284B，实际运行时激活的参数数量为13B）开发而成，并提出了一种新的多模态推理方式。研究指出当前市面上的许多大型多模态模型存在一个未被充分重视的问题：“指代鸿沟”（Reference Gap），即尽管这些模型能够识别图像中的内容，但在用自然语

科技2026/5/27 阅读

DeepSeek 推出多模态模型和技术报告；小红书宣布管理层变动：柯南升任总裁；宇树公司揭晓新款双臂人形机器人，售价从2.69万元起 | 科技早报

最近，DeepSeek 在 Github 上发布了新的多模态模型，并公布了相关技术报告。技术报告中指出，虽然多模态大语言模型取得了显著进步，但目前主流的思维链范式仍主要局限于语言学领域。最近的研究重点在于利用高分辨率裁剪技术来解决感知鸿沟问题，但却忽略了参照鸿沟这一核心障碍。自然语言本身的模糊性难以提供精确的空间指引，导致在需要严谨参照的任务中出现逻辑崩溃。DeepSeek 在其多模态技术报告中提

科技2026/5/25 阅读

AI赋能Token流通：清程极智师天麾解析智能化Agent时代的新路径

2026年4月21日至22日，“奔赴AGI 重塑未来”为主题的中国生成式AI大会（北京站）圆满落幕。大会汇聚了73位来自学界、业界及投资界的嘉宾，通过一场开幕式和多场专题论坛与技术研讨会的形式，全面解析了AI产业的脉络、创新模式以及Token经济等议题，并探讨了在中国市场的机会。会议内容广泛涵盖了大语言模型、多模态模型、世界模型、智能体到AI眼镜等一系列前沿技术和应用，同时也涉及数据处理、芯片设计

科技2026/5/13 阅读

DeepSeek发布最新多模态技术框架，聚焦视觉基础单元研究

机器之心编辑部随着五一假期的到来，DeepSeek 最新发布了一项技术进展。前一天，陈小康在 X 平台上的一则消息引发了公众对 DeepSeek 多模态功能的关注。一些用户已经能够在 DeepSeek 的网站和应用程序中体验其多模态特性。刚刚，DeepSeek 在 Github 上正式发布了他们的多模态模型，并公开了技术报告。这是一个全新的推理范式，具有开创性的意义。欢迎访问项目主页：https:

科技2026/5/17 阅读

商汤推出高效能多模态模型，开源首日即成领先之作！体积小巧仅8B，媲美商用产品

智东西团队近期推出了一篇关于GPT images 2.0的文章，引发了人们对多模态模型的新一轮关注。过去，“画得好”不再是唯一的追求标准，人们现在更加注重“速度快、效率高、成本低”的特性。很长时间以来，视觉理解和图像生成被区分为两个独立的系统：前者负责识别图像内容，后者则专注于根据需求创作新图。这种分离式的结构限制了模型的整体性能。商汤科技最近采取了一种新的策略来应对这一挑战。他们刚刚发布了名为S

科技2026/4/2911 阅读

Qwen3.6-27B实战评测：四分钟打造跑酷游戏，验证码破解精度逾九成

智东西编译杨京丽编辑陈骏达近日，阿里通义千问团队发布了Qwen3.6-27B的开源版本——这是一个具有270亿参数的大规模稠密多模态模型，并支持思考与非思考模式。相较于先前推出的Qwen3.5-397B-A17B，新的Qwen3.6-27B虽然在参数量上仅为前者的十分之一，却在编程性能等多个关键指标上实现了超越。其不仅显著提升了编程能力，在文本和多模态推理方面也表现出色。与同级别的Ge

科技2026/4/2429 阅读

林达华荣膺中银香港科技创新大奖，彰显商汤科研实力

最近，商汤科技联合创始人兼首席科学家林达华教授荣获了第四届中银香港科技创新奖（人工智能及机器人领域），以表彰他在科研创新和成果转化方面的杰出贡献。林达华教授在计算机视觉与多模态智能领域的系统性创新，在图像视频理解、大规模多模态模型以及空间智能等方面取得了许多突破，促进了关键核心技术的自主创新与开源生态建设，并推动了人工智能研究成果的应用，为中国的人工智能技术进步和产业升级作出了重要贡献。林达华教授

科技2026/4/232 阅读

谷歌发布Gemmar 4，击败规模超自身13倍的Qwen3.5

在本周四晚间，谷歌发布了其最新的模型系列 Gemma 4，这一系列被认为是当前开源领域中最强大的。新的 Gemma 系列在 Arena AI 排行榜上获得第三名的位置，并且超过了参数量是它五倍多的大规模模型。此外，Gemma 4 使用了 Apache 2.0 开源许可证，这意味着它可以完全用于商业用途。Google DeepMind 最近开发的 Gemma 4 是一个多模态模型系列，专门处理文本和

科技2026/4/44 阅读

浙大研究团队攻克多模态模型局限：先优化置信度后精准分配算力

多模态大模型的自信心有多强？一项由浙江大学、阿里巴巴、香港城市大学及密歇根大学的研究团队进行的实验表明：当图像逐渐变得模糊，直至几乎无法辨认时，研究者持续监测模型的准确率与置信度的变化情况。实验结果显示，准确率急剧下降，而置信度基本保持不变。这意味着，即使图像变得模糊，模型仍然会以很高的置信度给出答案。这种“盲目自信”的倾向，正是多模态大模型在复杂视觉推理中产生幻觉和误判的主要原因之一。为了解决这

科技2026/3/234 阅读

浙大研究团队攻克多模态模型自信偏差：先调整信心水平，再优化计算资源丨CVPR’26

浙大研究小组解决了多模态模型过度自信的问题，通过先调整置信度再优化计算资源分配来实现。听雨 2026-03-22 15:17:19 量子位

AI2026/3/237 阅读

林俊旸宣布辞去阿里Qwen技术负责人职务

在3月4日凌晨，阿里巴巴Qwen团队的技术领导者林俊旸通过社交平台宣布即将离任，并深情地写道：“再见了，我深爱的Qwen。”作为阿里云通义千问项目的先锋人物以及公司最年轻的P10级技术专家之一，他在该项目中发挥了关键作用。林俊旸不仅领导了Qwen大语言模型及其多模态模型系列的研发工作，还负责推动这些模型的开源进程。他本科毕业于北京大学计算机科学系，并在该校外国语学院攻读硕士学位，专业方向为语言学与

科技2026/3/54 阅读

下周见证DeepSeek V4问世，美股或将再掀波澜！避开英伟达，寻找五十分之一价格的机遇

新智元报道深度探索V4即将在下周亮相：这款原生多模态模型将绕过英伟达，优先与国产芯片厂商合作进行深度优化。又到了见证历史时刻的时候了！据报道，深度探索V4将在下周正式推出。自上一个重大版本R1发布以来，已经过去了一年多的时间。在这一年里，AI领域风云变幻，OpenAI连续推出了几代GPT模型，Anthropic的Claude成功进入顶级阵营，谷歌的Gemini也经历了快速迭代。整个硅谷都在投入数百

科技2026/3/24 阅读

DeepSeek V4即将发布美国感到恐慌据称绕过了英伟达的限制在国内优先使用机密参数已被曝光

新智元报道最近，一系列重磅消息接连传出。首先，DeepSeek V4预计将在一周内发布。据多方渠道透露，DeepSeek V4即将上线！目前，DeepSeek V4 Lite已经在至少一家推理服务商中进行测试，相关信息如下：该模型代号为Sealion-lite，拥有100万token的上下文窗口，相较于网页版或应用内版本更为出色，并且是原生多模态模型。同时，一张对比图在网络上迅速传播开来，展示了D

科技2026/2/2712 阅读

千问3.5荣膺Hugging Face榜首，开源模型前十中八席来自中国

千问3.5在Hugging Face社区中位居榜首，前十名开源模型中有八款来自中国于2月24日，全球最大的AI开放平台Hugging Face发布了最新的开源大模型排行榜，其中阿里巴巴最新发布的原生多模态模型千问3.5荣登榜首。该模型自除夕夜发布以来，迅速引起

AI2026/2/2611 阅读