搜索: "多模态理解"

共找到 4 篇相关文章

教大模型终身学习！中科大连发两篇顶会，突破「知识注入」双重困境

新智元报道【新智元导读】中科大团队首先推出动态多模态知识注入基准MMEVOKE，解构遗忘机制，并在此基础上提出全新双阶段框架KORE。通过「知识树」自动增强与「零空间」协方差约束微调，为大模型终身学习开辟了全新路径。当前主流大型多模态模型（LMMs）通过海量数据的预训练存储了丰富的静态知识，并在多模态理解与指令跟随上取得了巨大成功。然而，现实世界瞬息万变，大模型的既有知识面临「上线即过时」的严峻挑

科技2026/5/221 阅读

五一假期如何摆脱工作困扰？利用AI工具轻松解放双手，享受清净出行指南

西风发自凹非寺量子位 | 公众号 QbitAI五一假期即将来临，你是否已经开始在工作群中看到有人提前发出“假期在线”的信息了呢？这种现象背后反映出员工对于节假日工作的无奈：是带着电脑出门还是不带？这个问题让不少职场人士感到头疼。而这次我决定尝试一种新的方法，那就是安装一款名为DuMate的AI助手，看看它能否帮我处理一些假期可能遇到的工作任务。据了解，这款软件具备多模态理解和生成能力，能够应对

科技2026/4/285 阅读

CVPR 2026：新扩散加速技术确保低步骤下的高质量图像稳定生成

崔奔雷（阿里巴巴）和何少轩（浙江大学实习生），他们的研究集中在多模态理解和生成领域。文章的通讯作者为洪海文（阿里巴巴）与赵洲（浙江大学），他们分别专注于多模态大语言模型和语音理解生成。近几年，扩散模型成为了图像、音频及视频等多模式数据生成的关键技术，并在实际生产中获得了广泛应用。然而，在落地过程中仍然存在一些瓶颈：工业级别的推理预算通常限制为 20 至 30 步，即便如此，许多加速方法依旧会遇到纹

科技2026/4/1112 阅读

商汤发布创新多模态架构，挑战全球模型界权威，实现无编码器图像处理技术革新

本文由智东西陈骏达撰写，李水青编辑。近日，商汤科技发布了一篇最新技术博客《NEO-unify：原生架构促进端到端多模态理解和生成统一》，介绍了他们研发的全新模型架构。该模型通过在底层整合多种模式的理解与生成，实现了更高的训练效率和数据处理能力。当前的技术趋势显示，大多数多模态系统会采用视觉编码器来理解图像信息，并利用变分自编码器进行内容创作。这种方法尽管有效，但在模块间的协作上却存在一些局限性。N

科技2026/3/77 阅读