
将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式
将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式 克雷西 2026-05-26 18:17:39 量子位 光影之间,
共找到 113 篇相关文章

将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式 克雷西 2026-05-26 18:17:39 量子位 光影之间,

北京时间5月23日,X用户GDP(@bookwormengr)发布长文《DeepSeek:一盘十万亿美元的棋》(DeepSeek's 10 trillion USD grand strategy),提出一个很激进的判断:按他的理解,DeepSeek真正想做的,可能不是靠编程订阅、多模态应用或API账单赚钱,而是用模型架构和开源生态,撬动一套更低成本的AI硬件产业链。这个说法很大,也很容易被写成“梁

VeRL-Omni 是一个面向多模态生成模型的通用 RL 后训练框架,由VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。覆盖扩散 transformer(Qwen-Image)、混合 AR-DiT(Qwen-Omni)、统一理解 + 生成(BAGEL、HunyuanImage-3.0)等架构。多模态 rollout 走 vLLM-Omni 的异步高吞吐 serving,VL

新智元报道【新智元导读】中科大团队首先推出动态多模态知识注入基准MMEVOKE,解构遗忘机制,并在此基础上提出全新双阶段框架KORE。通过「知识树」自动增强与「零空间」协方差约束微调,为大模型终身学习开辟了全新路径。当前主流大型多模态模型(LMMs)通过海量数据的预训练存储了丰富的静态知识,并在多模态理解与指令跟随上取得了巨大成功。然而,现实世界瞬息万变,大模型的既有知识面临「上线即过时」的严峻挑

当视频生成模型在视觉保真度上不断突破时,一个核心瓶颈正变得愈发清晰:模型是否真正理解了真实世界?能否推理出合理的演变过程?在具身智能、影视制作以及物理仿真等应用场景中,要求模型不仅要生成 “平滑的像素”,更要实现 “逻辑连贯的演化”。这种对物理规律与因果关系的建模能力,是当前基于大数据驱动的端到端生成模型面临的长期挑战。那么,我们能否将多模态大模型(MLLM)的推理能力,作为一种 “外脑” 注入到

一年一度的谷歌I/O大会,重磅来袭。谷歌官方这次一口气发布了24篇I/O相关公告,信息量很大,但主线并不复杂:底层模型更新到Gemini 3.5,并推出面向视频和多模态创作的Gemini Omni;用户入口上,Gemini App开始往个人助理方向走;搜索开始加入更多AI模式和智能体能力;购物、办公、开发工具也都被重新接入Gemini;硬件上,谷歌还展示了搭载 Gemini 的智能眼镜。重点在于,

现有的开源多模态搜索智能体普遍受困于「裁剪 - 再搜索」的串行处理模式,面对多目标时往往陷入交互冗长、错误级联累积的泥沼。为此,小红书研究团队提出了一款全新架构的模型:HyperEyes。通过统一定位与搜索的动作空间、构建并行可学习数据以及双粒度效率感知强化学习的全栈设计,HyperEyes 成功实现了从「搜得更深」到「搜得更宽」的并行多模态搜索范式跃迁。论文地址:https://arxiv.or

近年来,Chain-of-Thought(CoT)推理已经成为提升大语言模型和多模态大语言模型复杂问题求解能力的重要技术路径。然而,这种 “显式思考” 也带来了一个越来越突出的效率问题:模型往往需要生成大量的中间推理文本,导致推理 token 数显著增加,从而带来更高的推理延迟、显存占用和计算成本。尤其在多模态大模型(MLLMs)中,输入通常包含图像、问题和复杂上下文,模型为了完成推理,往往需要先

79位跨方向骨干、87%的初代留存率,和一套让年轻人围绕问题自由组队的机制。作者|周悦过去一年,围绕DeepSeek的人才流动消息一直没有停。从早期罗福莉离职,到初代大模型作者王炳宣、多模态骨干阮翀、R1核心作者郭达雅,相继跳槽。核心作者接连被挖,DeepSeek的技术壁垒会不会松动?我们决定换一种方式来看这个问题。我们用Codex和Python,梳理了DeepSeek近两年发布的27篇核心论文和

PRISM团队 投稿量子位 | 公众号 QbitAISFT之后,直接上强化学习就够了吗?小心,你做的可能不是“训练”,而是“还债”。在多模态大模型(MLLM)的后训练中,行业内长期遵循着一个看似天经地义的范式:先SFT,再RL,两步到位。从DeepSeek到Qwen,从GRPO到DAPO,大家拼命优化RL算法的稳定性、采样效率、奖励设计……却几乎没人回头看一眼:SFT到RL之间,是不是少了点什么?

组委会 发自 凹非寺量子位 | 公众号 QbitAI进入2026,AI愈发狂飙突进。围观体验之余,人人不免在心中自问:朋友圈刷屏的“龙虾”、Harness等AI新事物,跟我到底有什么关系?真的有必要跟吗?AI创业、AI融资如火如荼,属于我的机会又在哪里?别人已经在用AI做视频、写代码、跑项目,我是不是已经慢了一拍?……到最后,几乎所有问题都会汇成同一个问题:我,到底该如何用AI?如果你对这些问题还

SFT别急着接RL!你的多模态大模型可能一直在“带伤训练” 衡宇 2026-05-17 11:42:11 量子位 先把SFT挖的坑

Agent、多模态、应用、算力一天看尽,峰会亮点在此|5.20日,来现场一起AI Jay 2026-05-17 16:55:21 量子位

当 AI 行业的目光集中在 Agent、工具调用、长程任务这些上层应用之时,底层的多模态架构正在经历一次更安静、也更彻底的范式转变 —— 它要回答的是一个看似朴素的问题:理解与生成,是否天生就该是两件事长期以来,多模态系统大都是拼起来的 —— 感知与理解、生成各自承担一部分能力,再把它们串起来跑。问题也很明显:理解通过预训练视觉编码器(VE)实现,生成依赖变分自编码器(VAE),两套系统的学习目标

近年来,音频生成技术发展迅猛。随着应用场景的复杂化,业界呈现出一个显著趋势:音频生成模型正从单一条件控制走向多模态协同控制。研究者期望在一个统一的模型架构中,同时支持文本生成音频(T2A)、视频生成音频(V2A)以及视频-文本联合生成音频(VT2A)。相比为每个任务独立部署专用模型的传统做法,统一模型能大幅降低架构冗余与部署成本,为用户提供更为灵活的音频生成方式。然而,随着研究的深入,业界发现了一

智东西作者 杨京丽编辑 李水青智东西5月8日报道,今天,商汤科技发布新一代轻量化多模态智能体模型——日日新SenseNova 6.7 Flash-Lite,同时SenseNova Token Plan限时免费开放,全线办公技能SenseNova-Skills在GitHub开源。SenseNova 6.7 Flash-Lite通过原生多模态架构,长链路办公任务成本大幅降低,在信息搜索等场景中

新智元报道【新智元导读】今天,DeepSeek被曝首轮500亿融资,CEO梁文锋或亲自领投200亿。与此同时,下一代V4.1或定档6月,多模态+MCP全量上线。中国AI史上最大一笔融资可能要来了!The Information爆料称,DeepSeek正计划进行首轮融资,单笔金额高达500亿元(约73.5亿美元)。其中,创始人梁文锋或自投200亿,占到整轮融资的40%。如果完成,其估值将冲破515亿

在AI技术迅速发展的背景下,计算架构正面临前所未有的挑战。最新数据显示,截至今年三月,国内每天的人工智能调用量已经达到了惊人的140万亿次token,相较于去年年底的100万亿以及两年前初期的10亿量级,增幅分别高达四成和超过一千倍。这种激增的背后,是AI技术在各种场景中的广泛应用,包括智能体、多模态交互及长文本推理等领域。当前市场对高吞吐量、低功耗计算资源的需求日益迫切,而传统的存储技术和带宽限

最近,谷歌推出了新一代开源模型Gemma 4,该版本包含了E2B、E4B、26B和31B四种规格的模型。其中,有两个较小规模的模型——E2B和E4B可以被直接部署在智能手机或树莓派等设备上,并支持离线运行。自从这两款「小型」端侧模型发布以来,它们受到了许多人的赞誉,被认为是迄今为止最实用的端侧解决方案。雷科技之前也发表了两篇关于实测体验的文章,一篇着重于逻辑推理和多模态功能的表现,另一篇则介绍了在

新智元报道最近,中国科学院的一支团队发布了名为「瞬悉2.0」的类脑大模型,该模型在优化架构和编码路径方面取得了显著进展,特别是在长序列处理效率与低功耗部署方面表现出色。当前的大规模模型上下文长度迅速增长,导致代码仓库理解、智能体以及多模态交互等场景对长序列处理能力提出了更高要求。传统Transformer在推理时的计算成本和显存占用会随着输入序列长度的增长而增加,这对实际部署构成了挑战。近期,中国