在3月26日的夜晚,前阿里大模型技术负责人林俊旸在社交媒体平台上发布了一篇长文,这是他在从阿里巴巴离职后首次发表关于他对大模型发展方向的见解以及对未来人工智能阶段的预测。
林俊旸指出,过去两年间,整个行业对大模型的评估方式和核心期望发生了重大变化。OpenAI的o1展示了“思考”可以作为一种训练出来的技能。紧随其后,DeepSeek-R1展示了推理式后训练不仅可以在实验室环境中复现,还能进一步扩展。尽管这一阶段非常重要,但到了2025年上半年,业界的焦点主要集中在“推理式思考”本身:如何让模型在推理时花费更多时间。现在是时候考虑下一步了。他认为下一步将是智能体式思考:为了采取行动而思考,并根据从环境中获得的反馈不断调整计划。

林俊旸,前千问大模型技术负责人
他提到,千问团队在2025年初有一个宏大的目标:创建一个统一的系统,将思考模式和指令模式整合为一,支持可调节的推理努力程度(类似于低/中/高推理设置),并且能够根据提示和上下文自动推断合适的推理量,使模型能够自主决定何时直接回答,何时稍作思考,何时为解决复杂问题投入更多计算资源。虽然这个想法在理论上是正确的方向,但实际操作起来却非常困难。
实际上,真正的挑战在于数据。当人们讨论合并思考与指令时,通常首先考虑的是模型的兼容性,但更深层次的问题在于,两种模式的数据分布和行为目标存在显著差异。在尝试平衡模型合并与提升后训练数据质量和多样性时,团队未能完全解决所有问题,导致结果往往在两个方向上表现一般:思考行为变得嘈杂、冗余或不够果断,而指令行为则不够清晰、不够可靠,并且成本较高,超过了商业用户的实际需求。
保持分离的做法在实践中仍然很有吸引力。2025年下半年,Qwen的2507版本发布了独立的Instruct和Thinking版本,分别使用30B和235B参数。最终,他认为,真正的成功合并需要一个平滑的推理力度光谱,模型能够自主判断需要投入多少精力去思考。
“推理链越长,并不意味着模型更聪明。很多时候,推理链越长,反而表明模型在浪费计算资源。”林俊旸在他的文章中指出,千问团队意识到,行业正从训练模型转向训练智能体,其关键特征是与真实世界的闭环交互。
智能体式思考与推理式思考意味着不同的优化目标。推理式思考通常以模型在得出最终答案前的内部思辨质量来评价,而智能体思维则关注模型在与环境交互过程中能否持续取得进展。
这意味着,核心问题从“模型能否思考足够久?”转变为“模型能否以支撑有效行动的方式思考?”模型训练的核心对象也发生了变化,从单独的模型转变为模型与环境的整个系统。
在这个过程中,模型架构和训练数据仍然重要,但环境设计、rollout基础设施、评估器的稳健性、多个智能体之间的协调等因素也进入了核心圈。“好的思考”定义也发生了变化:在真实约束下最能支撑行动的轨迹,而不是最长或最显眼的轨迹。
林俊旸预测,智能体式思考将成为主流。
