
腾讯AI Lab遭撤销,团队成员整合至混元项目
机器之心编辑部近日,腾讯 TEG 技术工程事业群内部进行了结构调整,其中 AI Lab 被撤销,原负责人蒋杰不再担任该职位,不过他的其他管理工作依然保持不变。在此次变动之后,原 AI Lab 的部分员工加入了由姚顺雨领导的混元团队。此外,产学研合作中心得以保留,多模态部的负责人则向 TEG 总裁卢山汇报。去年十二月,原 OpenAI 研究员姚顺雨,年仅二十七岁,加入腾讯并担任「CEO / 总裁办公
共找到 53 篇相关文章

机器之心编辑部近日,腾讯 TEG 技术工程事业群内部进行了结构调整,其中 AI Lab 被撤销,原负责人蒋杰不再担任该职位,不过他的其他管理工作依然保持不变。在此次变动之后,原 AI Lab 的部分员工加入了由姚顺雨领导的混元团队。此外,产学研合作中心得以保留,多模态部的负责人则向 TEG 总裁卢山汇报。去年十二月,原 OpenAI 研究员姚顺雨,年仅二十七岁,加入腾讯并担任「CEO / 总裁办公

悟空平台的发布标志着阿里巴巴在AI领域迈出了重要的一步。它不仅具备多模态、工具调用和自主规划等功能,还在阿里巴巴内部及合作伙伴中进行了大规模测试,展现了强大的潜力。这表明阿里巴巴已经正式进入“AI Agent全面取代传统软件”的新阶段。在当前的技术浪潮中,阿里正通过一系列创新举措,稳步迈向AI决赛圈。公司不仅在云计算和自研芯片方面持续取得突破,还在企业级AI应用方面取得了显著进展。以AWS为例,其

在今天的 NVIDIA GTC 2026 大会上,理想汽车基座模型团队负责人詹锟分享了关于该公司下一代自动驾驶基础模型 MindVLA-o1 的主题演讲《MindVLA-o1:开启全能范式 —— 探索下一代统一视觉-语言-动作自动驾驶大模型》。该模型通过五大创新技术:3D 空间感知、多模态思考、统一行为生成、闭环强化学习和软硬件协同设计,构建了一个面向物理世界的自动驾驶基础模型。具体来说,Mind

在强化学习领域,生成式策略(例如 Diffusion Policy 和 Flow Matching)展现了强大的多模态分布拟合能力,但其多步迭代采样导致的高延迟一直是实时控制的一个难题。清华大学智能驾驶课题组 iDLab 和加州大学伯克利分校人工智能研究院 BAIR 在 ICLR 2026(口头报告,Top 1%)联合发表的研究成果《Mean Flow Policy with Instantane

新智元报道谷歌近日发布了首个原生全模态 Embedding 模型 Gemini Embedding 2,它实现了文本、图像、音频视频以及 PDF 的无缝整合,构成了一个统一的向量空间,显著提升了检索效率。类似于生成式 AI 大模型在表达方面的功能(即“嘴”),Embedding 模型则扮演着理解和检索的角色,也就是负责记忆的部分。过去,这种记忆机制一直处在分裂的状态之中。Gemini API 已经

原生,启动! 谷歌最近推出了首个原生多模态嵌入模型 Gemini Embedding 2。 这款新模型的核心创新在于,它能够将文本、图像、视频、音频和文档等不同形式的数据映射到同一个统一的嵌入空间中。 其输入能力涵盖了多种数据类型: 文本格式支持最多8192个token 图像请求可以处理6张图片,格式为PNG或JPEG 视频长度限制在120秒以内,格式包括MP4和MOV 音频可以直接嵌入,无需

据报道,《The Information》在今天的午间消息中透露,OpenAI 正计划将 Sora 的视频生成技术集成到 ChatGPT 中。这一举措被视为 OpenAI 扩大用户群体整体策略的一部分。然而,随着视频生成功能的加入,ChatGPT 的运营成本可能会进一步增加。作为 OpenAI 在多模态人工智能领域的重要产品之一,Sora 目前与 Meta 和谷歌开发的相关文本转视频工具处于竞争状

这是一次关于AI技术发展及其对软件工程影响的深入对话,探讨了从模型设计到应用实践等多个方面。 本次访谈中,Jeff Dean分享了他对当前大语言模型的看法,并强调了未来的发展趋势。 在讨论多模态能力时,Dean指出,早期强调视频输入是为模型提供最高带宽的沟通方式。 关于Gemini项目的起源和进展,Dean提到多个团队独立研发算力分散的问题及整合后的成果。 谈话中还探讨了在编程任务上使用AI助手

大模型能撰写论文,但它们是否真正理解科研的本质呢? 实际上,在许多情况下,人工智能只是在模仿科学家的行为——引用文献、列出逻辑和规范格式,看起来非常专业。然而,深入探究后会发现其中充满漏洞:推理往往凭空编造,推导依赖猜测,结论的正确性全靠运气决定。 近期,发布过BabyVision多模态评估基准的UniPat AI团队推出了一项引人注目的开源项目: UniScientist。 虽然这个模型仅有30

多模态大模型的研发方式正在经历全面革新。 今天,商汤科技与南洋理工大学共同发布了最新技术成果NEO-unify。 这是一个实现了“原生、统一、端到端”的多模态架构,其最突出的创新在于: 彻底摒弃了传统的视觉编码器(VE)和变分自编码器(VAE)。不再依赖组件拼凑来完成感知与生成任务,而是直接以近乎无损的形式处理像素和文字。 通过独特的混合变换器(Mixture-of-Transformer, Mo

本文由智东西陈骏达撰写,李水青编辑。近日,商汤科技发布了一篇最新技术博客《NEO-unify:原生架构促进端到端多模态理解和生成统一》,介绍了他们研发的全新模型架构。该模型通过在底层整合多种模式的理解与生成,实现了更高的训练效率和数据处理能力。当前的技术趋势显示,大多数多模态系统会采用视觉编码器来理解图像信息,并利用变分自编码器进行内容创作。这种方法尽管有效,但在模块间的协作上却存在一些局限性。N

在多模态内容的理解和生成领域,统一的多模型已经显示出显著的效果,但这些成果主要集中在图像处理上。近日,滑铁卢大学与快手可灵团队共同研发出了一种名为 UniVideo 的创新性系统。该系统能够在单一框架下执行视频理解、创建及编辑任务,并且基于一个多模态生成模型构建而成。UniVideo 采用双通道结构设计,将大规模多模态语言模型(MLLM)的指令理解和推理能力与多模态扩散 Transformer(M

YuanLab.ai团队近日宣布,正式开源源Yuan3.0 Ultra这一多模态基础大模型。 作为源3.0系列的一部分,这款旗舰模型是目前仅有的三个达到万亿级参数规模的开源多模态大模型之一。 它通过引入MoE架构来优化训练效率,并针对企业应用及智能体工具调用进行了深入改进,在多模态文档理解、检索增强生成(RAG)、表格数据分析和内容摘要等领域表现出色。 该模型能够高效处理企业环境中的复杂信息,如图

YuanLab.ai团队近日正式发布了源Yuan3.0 Ultra多模态基础大模型的开源代码。 作为源3.0系列中的旗舰产品,源Yuan3.0 Ultra是全球少数几个可以公开获取的万亿级参数规模的大模型之一。 源Yuan3.0 Ultra在设计上引入了混合专家(MoE)架构,并针对企业应用和智能体工具调用进行了优化,在多模态文档理解、检索增强生成、表格数据分析以及内容摘要等方面表现出色。 这些能
在3月4日凌晨,阿里巴巴Qwen团队的技术领导者林俊旸通过社交平台宣布即将离任,并深情地写道:“再见了,我深爱的Qwen。”作为阿里云通义千问项目的先锋人物以及公司最年轻的P10级技术专家之一,他在该项目中发挥了关键作用。林俊旸不仅领导了Qwen大语言模型及其多模态模型系列的研发工作,还负责推动这些模型的开源进程。他本科毕业于北京大学计算机科学系,并在该校外国语学院攻读硕士学位,专业方向为语言学与

最近,中国的人工智能企业在更新迭代方面动作频频。春节期间,字节跳动和阿里巴巴相继推出了多模态技术创新成果,其中Seedance 2.0引发了全球范围内的广泛讨论。作为国家层面的大模型研发团队,科大讯飞也一直活跃在人工智能应用的第一线。在新年之前发布了星火X2大模型以展示其核心技术升级后,该公司又于2月28日推出了新的AI学习机T90系列,进一步加快了人工智能技术向实际应用的转化。这些发布背后体现了

在发布会上,大圣这一全新科学智能体正式亮相,它拥有原生多模态融合能力、自驱动验证机制和场景验证Skills体系。 大圣的展示涉及了药物研发案例,通过干湿闭环实验来证明AI建议的有效性。例如,在药物研发中,模型会提出候选分子,然后在自动化实验室里进行合成测试,并根据反馈迭代模型。 上海库帕思科技有限公司和上海气象局的合作展示了大圣如何以高保密性和高效的方式处理PB级数据,同时保持安全性和资源消耗的低

据报道,DeepSeek V4 或将于下周正式发布,该产品将原生支持图片、视频与文本的生成功能。国内知名 AI 大模型企业杭州深度求索(DeepSeek)计划于近期推出其最新旗舰大模型 DeepSeek V4。据悉,这款新模型具有多模态交互、编程能力提升、长文本处理优化及国产算力适配等多项改进。在长文本处理方面,DeepSeek V4 的上下文窗口被扩展至超过 100 万个 Token,是上一代产

新智元报道深度探索V4即将在下周亮相:这款原生多模态模型将绕过英伟达,优先与国产芯片厂商合作进行深度优化。又到了见证历史时刻的时候了!据报道,深度探索V4将在下周正式推出。自上一个重大版本R1发布以来,已经过去了一年多的时间。在这一年里,AI领域风云变幻,OpenAI连续推出了几代GPT模型,Anthropic的Claude成功进入顶级阵营,谷歌的Gemini也经历了快速迭代。整个硅谷都在投入数百

新智元报道【新智元导读】Meta联合多所高校发布首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU ,让多模态大模型首次真正「听懂世界」。现在最强的多模态大模型,虽然能接收声音和视频输入,但无法做到真正的「同时理解」。在第一视角视频任务中,模型经常会出现各种问题,比如完全忽略音频信息、错误判断声源位置、用视觉线索「猜声音」,也就是说,现在的多模态大模型只会看,但不会听。而这正是当前具身智