姚顺雨初试锋芒，腾讯AI迎来全新基石

作者：世界网2026年4月23日科技3 阅读

腾讯近日发布并开源了新一代大语言模型混元Hy3 preview，填补了4月在AI领域的关键空白。

作为混元3.0的早期版本，这款混合专家模型结合了快慢思考模式，拥有总计295B个参数和21B个激活参数，并能支持长达256K的上下文长度。

据腾讯介绍，这是迄今为止最智能的混元模型，在复杂推理、指令遵循、代码处理及智能体功能等方面实现了显著提升。

上月，腾讯在其2025年度业绩公告中首次提及“混元3.0”，并将其与元宝、WorkBuddy和QClaw等项目一起列为公司AI实际应用成果的代表作。

对于腾讯而言，Hy3 Preview无疑是今年AI布局中的重要里程碑之一，它将为包括元宝在内的多个产品提供底层技术支持，并有望助力微信Agent及企业工具的发展。

腾讯首席AI科学家姚顺雨表示，这次开源发布旨在收集来自社区和用户的反馈，以进一步优化和完善混元的正式版。

在过去一年里，大模型领域的竞争不再局限于基准测试的表现。字节、阿里等公司纷纷推出了各自的最新成果，在生产力场景中展现出强大的应用能力。

今年各大厂商发布的通用型AI模型不仅要具备理解长上下文的能力，还需能按要求整理结构化信息和处理代码及表格，以便更好地完成复杂任务。

某技术团队对混元Hy3 preview进行了测试，将其置于一组模拟日常生产力场景的环境中，以评估其实际应用效果。

尽管网页端对于Agent调用层面的测试空间有限，但此次测试的结果仍能反映部分模型能力。

对于腾讯而言，当前的重点在于将混元3.0无缝整合到微信、企业微信等高频率应用场景中，以发挥其最大的价值和潜力。

去年年底，腾讯聘请了前OpenAI研究员姚顺雨担任首席AI科学家，并对内部的AI研发体系进行了重新调整，旨在提升混元模型的整体性能。

混元团队在Hy3 Preview的研发过程中注重代码智能体基准和主流搜索智能体基准测试，力求使该版本能够接近当前行业领先水平。

测试结果显示，混元3.0相较于其前身，在信息整理、上下文纠偏及职场沟通生成等方面表现更为出色，展现出更强的办公助手特性。

尽管市场竞争依然激烈，但腾讯更关心的是能否将混元模型成功嵌入到现有的高频场景中，并实现数据和商业化的闭环优势。

姚顺雨此前在AGI-NEXT峰会上曾表示，即便停止所有新模型的研发，现有模型若能有效部署于企业环境中，也能带来巨大的收益提升。

因此，对于腾讯来说，混元3.0的意义不仅在于展示成果本身，更在于如何将这一技术应用于实际业务场景中。腾讯和混元团队需要回答的问题是：在经历了一年的业务调整之后，是否已经找到了正确的前进方向？

也是对姚顺雨团队的一个考验：重建混元团队后，能否先把腾讯最核心的C端“样板间”撑起来。先在元宝站稳，后续才谈得上把能力往更多入口复制。

我们针对元宝的用户场景给Hy3 Preview设置了一组测试，恰好都不是特别高深的“学术题”，而是真实办公场景里的常见任务。

首先是一个典型的“老板需求”：下周三要见重要客户，要求在周一中午前做出一份“客户会前包”，要整合近两个月合作资料、投诉情况、回款进度、产品使用数据，并联动销售、客服、产品三方协同，最后还要顺手在群里发一条协调通知。

这个任务表面看只是信息整理，实际上同时考验四种能力：能不能先拆任务，再分角色，再搭目录，最后生成一段可直接采用的话术。

混元的表现堪称出色。它不是只给出一串大而化之的“建议”，而是把这件事拆成了可以直接落地的结构：销售要交近两个月合同、订单和回款，客服要交投诉类型、频次和满意度，产品要交活跃度、功能使用率和追加销售建议；

会前包目录也被细化成客户概览、合作记录、投诉与风险、回款情况、产品使用、追加销售方案六个模块；最后那条工作群消息，甚至连每个部门的截止时间都补上了。

比以往更懂打工人，这是Hy3 Preview给我们留下的第一印象。

这是一个项目复盘场景：有人在项目复盘里写了一句“团队从年初开始就一直把零售当成重点方向之一”，但给模型的背景材料里，其实清楚写着团队一开始主推教育，零售只是后面逐步试水，到3月20日才正式升为并行重点。

显然，材料里的矛盾，其实是在检验模型有没有“上下文校正”、基于现有资料修复Bug的能力。

这里混元直接否定了那句错误的总结，然后把1月、2月、3月的决策变化重新排了时间线，再进一步解释为什么组织里会出现“事后改写历史”：记忆偏差、确认偏误、叙事简化、责任规避。

事实上，今天的主流LLM在这些日常任务上的完成度都大差不差，主要的差异就在谁能更有效理解用户的使用场景和意图。

这件事看似细小，放在元宝身上却很重要。因为元宝如果想要在C端进一步做大做强，就必须持续挖掘日常场景的使用体验。

无论是做会议整理、客户资料、合同提炼，还是在“元宝派”这类多人交互场景里充当协作助手，用户都不会只给它一句问题，而是会给出一堆材料，或者一堆限制条件。

模型能不能在这些约束下稳定输出，决定了一款原生C端AI产品的用户体验和留存。

从这个角度看，一批新的产品思路也许在混元3.0的支持下可以加快落地。

“龙虾”热潮下的Agent竞赛

今年年初以来，伴随着一只小小“龙虾”在众多用户的电脑上落地，AI行业正在从“Chatbot”全面进化至“Agent”阶段。

如果说元宝更能体现混元3.0在C端的直接压力，那么传说中的微信Agent、QClaw、WorkBuddy这一队Agent产品线，考验的则是姚顺雨接手的混元，对模型底层统一能力的建设，是否契合Agent底座需要的形态。

一个模型是否适合做Agent底座，看的往往不是抽象智力，而是更琐碎、更真实的能力。智能体不仅能回答问题，还能理解任务目标、拆解步骤、调用工具并跨应用完成工作。

对此，我们专门进行了更偏向Agent和企业协作场景的测试。

第一类是考验理解用户意图和收集、整合信息的能力。

Prompt并不复杂：请直接告诉我某家公司2025年Q4营收同比增长多少、毛利率多少、CEO怎么解释增长原因。只是，Prompt本身并没有给财报，也没有给电话会纪要，真正想测的是，模型会不会在没有证据时装懂。

这里豆包和元宝都没有进行编造，在真实性上全部都过关；但混元比豆包更进一步，它不仅说不能直接回答，还把优先查询资料列成了财报、CEO电话会纪要、财务周报、投资者关系页面，并写出了先查知识库、再查共享盘原始文件、再用周报和对外口径交叉验证的路径。

最后，它甚至给出一段标准回复模板，连“预计今日17:00前给您准确数字及官方解释”这种职场化措辞都呈现出来了。

这种能力，放在微信Agent或WorkBuddy里其实特别关键。因为真正进入企业场景后，用户最怕的不是模型说“我不知道”，而是频繁出现的“幻觉”。

一个能老老实实交代信息缺口、还能顺手规划检索流程的模型，才更像企业敢接进工作流里的底座。

另一类是“任务推进能力”的考量。模型需要在在三件事里排优先级：上午10点上海客户会议、下午交季度复盘PPT初稿、晚上发团建时间收集通知，并要求它顺手把三段消息都写好。

这一项是在模拟微信Agent真正会遇到的请求，涵盖消息沟通、日程意识和多任务管理等场景。

在这道题上，Hy3 Preview先按“时间刚性”和“错过是否可补救”排了顺序，再分别写出给客户、给老板、给团队群的三段消息，最后还额外提醒了一个容易被漏掉的风险：客户会议前的设备调试。

这个补充很有意思，因为它不是题面要求的内容，却很贴近日常执行。豆包也完成了排序和话术，但输出更像一个标准办公助手模板，通顺、合格、可用，但“会多想一步”的感觉稍弱。

代码题上的差异，也能说明一些问题。我们放进去的不是大仓库级别的重编码，而是更容易在日常工作中遇到的小任务：给一组销售记录，统计销量前两名地区，要求自动跳过缺失字段和非法值。

混元在这道题里给出的代码结构很扎实，字段校验、类型判断、累加逻辑、排序过程都比较清楚，测试样例也覆盖了正常数据和异常数据两类情况。

在这类办公与协同场景中，元宝确实开始表现出一种更强的“执行感”。

而微信、企业微信、腾讯会议、腾讯文档，本来就是中国最天然的工作流入口。只要底层模型到了那个临界点，腾讯在Agent阶段的想象空间，会一下子比单纯做一个聊天机器人大得多。

至于微信Agent会不会直接依赖混元3.0，从公开口径看，两者至少是被放在同一条产品线上推进的。

从行业视角看，微信Agent的紧迫性并不低，外部竞争一直在持续加码，让腾讯不得不加快这一步。

去年年底，字节已经把豆包手机助手推上中兴手机，走的是系统级手机助手路线，支持找内容、订票等任务；小米则在今年3月公开了MiMo-V2-Pro，并把它明确定位为自主智能体的“大脑”，同时宣布未来三年将在AI上投入至少600亿元人民币。

此前，腾讯CEO刘炽平在谈到微信AI Agent的同时，也提到混元3.0即将发布；而随着OpenClaw等生态先后接入微信，微信侧的智能体入口已经开始铺设，混元3.0更像是微信Agent需要补上的那颗“大脑”。

姚顺雨的第一份答卷，也许不必过度关注

混元3.0另一个天然会被放大的意义在于，这是姚顺雨加入腾讯、并经历混元重整之后，混元大语言模型领域第一次真正意义上的大版本更新。

去年年底，腾讯宣布聘请前OpenAI研究员姚顺雨担任“CEO/总裁办公室”首席AI科学家，负责大语言模型部和新成立的AI Infra部。

几乎与此同时，腾讯对内部AI研发体系做了一轮明显重构：把算力、数据和算法资源向AI Infra收拢，把AI Lab的核心力量进一步并入混元团队，试图结束过去相对分散的研发状态，让混元成为更统一的底层支点。

而在混元3.0预览版上，也能看出这种重构后的取向。腾讯方面披露的信息显示，Hy3 Preview以较快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代码智能体基准，以及 BrowseComp、WideSearch 等主流搜索智能体基准中，都追近了几大主流模型。

前面的测试结果放在一起看，姚顺雨团队这份答卷至少有一个相对清晰的轮廓：混元在努力把模型向 “复杂任务下更稳、更像工作助手”的方向进化。

这一点，跟姚顺雨年初在AGI-NEXT峰会上谈到的观察相对应。

他提过，最好的模型可以卖到200美元一个月，次一级是50美元、20美元，而很多用户愿意为最好的模型支付溢价。

腾讯混元团队此前推出CL-bench，也是在测类似问题：模型能不能从复杂上下文里学新规则，并正确执行任务。

因为无论是元宝、微信Agent、WorkBuddy，还是更广义上的企业办公场景，未来都不会是把模型放在真空里考试，而是不断往里面塞资料、塞规则、塞流程，再看它能不能按要求干活。

从实际测试反馈看，混元3.0在这个方向上的进步是真实存在的。

在信息整理、上下文纠偏、拒答与检索规划、职场沟通生成、轻量代码执行这些场景里，已经比过去更像一个“办公助手”级的模型。对腾讯而言，这就已经不是一个小变化。

当然，这还远远谈不上格局逆转。外部强敌依然都在：字节的豆包靠产品入口和Seed旗下多款模型占据优势，阿里的千问和ATH事业群也在重组后接连推出新模型，智谱、月之暗面、DeepSeek各自也都在生产力和Agent方向上抢位。

但混元3.0的意义本来也不在这里。对腾讯来说，真正关键的从来不是单独做出一个参数更大的模型，而是让这块模型底座，能够顺畅地接进微信、企业微信、腾讯会议、腾讯文档、云和广告这些高频场景里，最终把庞大的入口优势转成数据、训练和商业化的闭环优势。

换句话说，混元3.0当然是一份答卷，但它未必是姚顺雨的底牌。

“目前看来，生产力Agent才刚刚开始。即使今天开始，世界上所有的模型训练全部停止，但是把这些模型部署到企业中，已经能带来10倍甚至100倍的收益。”

姚顺雨几个月前在AGI-NEXT上的这番发言，也许可以作为我们看待混元3.0的一个视角。我们很可能还身处Agent进化的早期阶段，对于腾讯而言，把混元3.0视作一个新起点，抑或是一个既有节点，其实并不是问题的关键。

混元3.0只是一个结果展示。腾讯和混元团队更该回答的，是过去一年风云变幻的业务调整之后，是否已经找对方向。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

姚顺雨初试锋芒，腾讯AI迎来全新基石

作者：世界网2026年4月23日科技3 阅读

腾讯近日发布并开源了新一代大语言模型混元Hy3 preview，填补了4月在AI领域的关键空白。

作为混元3.0的早期版本，这款混合专家模型结合了快慢思考模式，拥有总计295B个参数和21B个激活参数，并能支持长达256K的上下文长度。

据腾讯介绍，这是迄今为止最智能的混元模型，在复杂推理、指令遵循、代码处理及智能体功能等方面实现了显著提升。

上月，腾讯在其2025年度业绩公告中首次提及“混元3.0”，并将其与元宝、WorkBuddy和QClaw等项目一起列为公司AI实际应用成果的代表作。

腾讯首席AI科学家姚顺雨表示，这次开源发布旨在收集来自社区和用户的反馈，以进一步优化和完善混元的正式版。

今年各大厂商发布的通用型AI模型不仅要具备理解长上下文的能力，还需能按要求整理结构化信息和处理代码及表格，以便更好地完成复杂任务。

某技术团队对混元Hy3 preview进行了测试，将其置于一组模拟日常生产力场景的环境中，以评估其实际应用效果。

尽管网页端对于Agent调用层面的测试空间有限，但此次测试的结果仍能反映部分模型能力。

对于腾讯而言，当前的重点在于将混元3.0无缝整合到微信、企业微信等高频率应用场景中，以发挥其最大的价值和潜力。

去年年底，腾讯聘请了前OpenAI研究员姚顺雨担任首席AI科学家，并对内部的AI研发体系进行了重新调整，旨在提升混元模型的整体性能。

混元团队在Hy3 Preview的研发过程中注重代码智能体基准和主流搜索智能体基准测试，力求使该版本能够接近当前行业领先水平。

测试结果显示，混元3.0相较于其前身，在信息整理、上下文纠偏及职场沟通生成等方面表现更为出色，展现出更强的办公助手特性。

尽管市场竞争依然激烈，但腾讯更关心的是能否将混元模型成功嵌入到现有的高频场景中，并实现数据和商业化的闭环优势。

姚顺雨此前在AGI-NEXT峰会上曾表示，即便停止所有新模型的研发，现有模型若能有效部署于企业环境中，也能带来巨大的收益提升。

我们针对元宝的用户场景给Hy3 Preview设置了一组测试，恰好都不是特别高深的“学术题”，而是真实办公场景里的常见任务。

这个任务表面看只是信息整理，实际上同时考验四种能力：能不能先拆任务，再分角色，再搭目录，最后生成一段可直接采用的话术。

比以往更懂打工人，这是Hy3 Preview给我们留下的第一印象。

显然，材料里的矛盾，其实是在检验模型有没有“上下文校正”、基于现有资料修复Bug的能力。

事实上，今天的主流LLM在这些日常任务上的完成度都大差不差，主要的差异就在谁能更有效理解用户的使用场景和意图。

这件事看似细小，放在元宝身上却很重要。因为元宝如果想要在C端进一步做大做强，就必须持续挖掘日常场景的使用体验。

模型能不能在这些约束下稳定输出，决定了一款原生C端AI产品的用户体验和留存。

从这个角度看，一批新的产品思路也许在混元3.0的支持下可以加快落地。

“龙虾”热潮下的Agent竞赛

今年年初以来，伴随着一只小小“龙虾”在众多用户的电脑上落地，AI行业正在从“Chatbot”全面进化至“Agent”阶段。

对此，我们专门进行了更偏向Agent和企业协作场景的测试。

第一类是考验理解用户意图和收集、整合信息的能力。

最后，它甚至给出一段标准回复模板，连“预计今日17:00前给您准确数字及官方解释”这种职场化措辞都呈现出来了。

这种能力，放在微信Agent或WorkBuddy里其实特别关键。因为真正进入企业场景后，用户最怕的不是模型说“我不知道”，而是频繁出现的“幻觉”。

一个能老老实实交代信息缺口、还能顺手规划检索流程的模型，才更像企业敢接进工作流里的底座。

这一项是在模拟微信Agent真正会遇到的请求，涵盖消息沟通、日程意识和多任务管理等场景。

混元在这道题里给出的代码结构很扎实，字段校验、类型判断、累加逻辑、排序过程都比较清楚，测试样例也覆盖了正常数据和异常数据两类情况。

在这类办公与协同场景中，元宝确实开始表现出一种更强的“执行感”。

至于微信Agent会不会直接依赖混元3.0，从公开口径看，两者至少是被放在同一条产品线上推进的。

从行业视角看，微信Agent的紧迫性并不低，外部竞争一直在持续加码，让腾讯不得不加快这一步。

姚顺雨的第一份答卷，也许不必过度关注

混元3.0另一个天然会被放大的意义在于，这是姚顺雨加入腾讯、并经历混元重整之后，混元大语言模型领域第一次真正意义上的大版本更新。

去年年底，腾讯宣布聘请前OpenAI研究员姚顺雨担任“CEO/总裁办公室”首席AI科学家，负责大语言模型部和新成立的AI Infra部。

这一点，跟姚顺雨年初在AGI-NEXT峰会上谈到的观察相对应。

他提过，最好的模型可以卖到200美元一个月，次一级是50美元、20美元，而很多用户愿意为最好的模型支付溢价。

腾讯混元团队此前推出CL-bench，也是在测类似问题：模型能不能从复杂上下文里学新规则，并正确执行任务。

从实际测试反馈看，混元3.0在这个方向上的进步是真实存在的。

换句话说，混元3.0当然是一份答卷，但它未必是姚顺雨的底牌。

混元3.0只是一个结果展示。腾讯和混元团队更该回答的，是过去一年风云变幻的业务调整之后，是否已经找对方向。

“”

姚顺雨初试锋芒，腾讯AI迎来全新基石

姚顺雨初试锋芒，腾讯AI迎来全新基石

相关文章

相关文章