最近,一些顶尖的通用人工智能模型参与了三项特殊的工业技能测试。
测试结果令人惊讶:即使是像GPT-5.2 Thinking (high)和Gemini-3.1-Pro这样的佼佼者,在面对实际工业环境时也显得力不从心。
为什么这些能写诗、编程的通用AI却难以应对生产线上的挑战?
答案隐藏在一家专注于工业人工智能领域的新兴企业——思谋科技及其自主研发的大模型IndustryGPT中,后者专门针对工业场景进行了优化。
在这三次考试中,IndustryGPT不仅在通用榜单上名列前茅,在涵盖万条基准的工业测试和执业级工程评估中也击败了GPT-5.2 Thinking (high)和Gemini-3.1-Pro等竞争对手。

这些测试的成绩或许并不重要,但它们揭示了一个重要的事实:通用大模型在真实产业环境中的能力边界正逐渐显现出来。
当这些模型深入到生产线上,参与工程决策时,“聪明”只是最基本的要求;合规性、严谨性和可靠性才是关键指标。
这也标志着大模型赋能实体经济已经从概念验证阶段进入了实际应用的评估期。而工业环境无疑是这一过程中最严格和最具挑战性的测试场。
那么,中国制造业真正需要的是怎样的AI?
三次考试揭示了通用模型在处理工业问题时存在的局限性。
IndustryGPT是思谋科技推出的全球首个专注于工业场景的多模态大模型。
要回答“制造业需要什么样的AI”这个问题,思谋进行了一个实验:将几款主流的大模型与IndustryGPT一起进行三项测试。
第一次考试旨在评估对工业知识的理解广度。
为了建立客观比较的基准,思谋选取了SuperGPQA数据集中与工业相关的题目子集,并对其它国际顶尖通用大模型进行了横向对比测试。
SuperGPQA是目前中文领域内覆盖面最广泛、质量最高的综合知识评测数据集之一,其工业相关部分涵盖了工程技术、制造工艺、材料科学等多个专业方向。
测试结果显示:IndustryGPT在同类模型中表现最佳,在广度和准确性上均超过了其它顶尖通用大模型。

这一结果表明它已经建立起了核心的竞争优势,并解决了通用大模型“工业知识浅薄、专业问答错误多”的基础问题。
不过,开源基准测试仅仅是一个起点。
超级GPQA虽然覆盖面广,但工业场景的专业深度和多样性远超出标准数据集的范畴——一套通用试题难以准确反映实际生产线上的能力水平。目前行业内也缺乏专门针对工业场景的数据集。
若要全面评估大模型在工业环境中的表现,则需要定制化测试。

因此,进行了第二次考试:考察知识深度。
思谋自建了一套系统化的工业基准评测数据集,涵盖了包括机械、光学、电气在内的多个核心工程学科和典型工业领域。
这个数据集拥有超过万条题目,远超现有所有开源工业数据集的规模。

测试发现,在深入度方面IndustryGPT明显领先于其它模型。
第三次考试则进一步检验了模型的执业能力。


在规范一致性、计算过程奖励机制以及任务执行等方面,IndustryGPT的表现显著优于通用大模型。
这些测试表明工业垂类大模型具备三项核心优势:安全边界意识强、规范遵从度高和实际操作能力强。
两条技术路线的争议在于对“验收标准”的不同理解。如果标准仅是回答问题,微调策略足够;但如果需要在产线上执行任务并承担责任,则必须采用原生工业垂类模型进行底层训练范式的重构。
到2025年,我国AI核心产业规模已突破1.2万亿元,但与制造业的融合仍面临技术不接地气、应用场景浅显的问题。
今年一月发布的《“人工智能+制造”专项行动实施意见》中明确提出到2027年推出千个高水平工业智能体——这标志着未来的发展方向更加注重实际执行能力而非理论知识。

随着大模型进入应用阶段,竞争焦点将从参数竞赛转向落地验收。
IndustryGPT领先国际顶尖通用大模型的幅度不仅显示了其技术优势,更反映出目前主流通用模型与工业场景需求之间的系统性差距。


这种错位恰恰说明了原生垂类大模型的核心价值:在AI与制造业深度融合的过程中,贴合产业需求的创新是实现技术落地的关键。
回到最初的问题:中国制造业究竟需要什么样的AI?
AI赋能实体经济的目标不是比拼谁更“聪明”,而是看谁能更好地推动产业发展。对于中国的万千制造企业和复杂场景而言,真正的价值在于实际应用而非炫技展示。
思谋IndustryGPT的研发标志着AI产业落地进入了一个新的阶段。整个行业的发展还需要更多实践来探索和完善解决方案。
这三场考试指向同一个判断:工业场景对AI的需求,和通用场景存在结构性差异。通用模型在常识层面表现良好,但在规范遵从、边界控制、复杂决策等工业刚需上,仍然稍逊一筹。
不只是考得好,是真能下产线
评测成绩只是门槛,真正关键的是:模型能否嵌入生产系统,成为业务流程的一部分。
而IndustryGPT给出的答案是:通过与智能体技术的深度融合,在多个高标准场景中实现感知-决策-执行的完整闭环。
SMore ViMo就是一个典型的行业模型+Agent落地形态。它依托IndustryGPT的原生Agent能力,将客户从项目启动到可运行模型的落地周期,从行业平均14天压缩至3天以内。
在工业质检环节中,可自动识别、归类缺陷属性,并通过闭环校验修正精度,效率飙升200%。
此外,IndustryGPT在更复杂的制造深水区,也跑通了消费电子、精密工业、汽车高铁等细分领域。举两个典型例子:
一个是轨道交通的复杂工艺制造领域,制造方案是保障生产规范与质量追溯的核心依据,是承接设计与制造生产的关键枢纽。
传统模式下,制造方案编制高度依赖资深工程师的经验,不仅效率低下,且易因人为疏漏影响生产效率与质量。
而借助IndustryGPT,就能基于历史制造方案和个性化需求,自动生成包含详细操作步骤、关键控制点及工序设计的完整制造方案。
通过人机协同方式,实现全流程智能化设计,将工程师从繁琐的文档工作中解放出来,专注核心设计的制造实现。

效果也是立竿见影:效率提升15%以上,变更风险显著降低。
另一个是复杂产线智能管理。
在一个高度复杂的制造产线中,产品型号超2.9万种,工艺差异大、异常类型高度碎片化。传统模式依赖老员工的经验判断,异常响应慢、处置标准不统一且知识无法沉淀。
在这种情况下,问题的关键在于如何在海量型号与历史案例中快速匹配对应的解决路径,并保证处理过程符合既定SOP。
基于IndustryGPT,思谋在内网环境下构建了闭环智能流程:异常扫码识别后自动建单,系统自动匹配SOP,调用历史案例、生成诊断建议,全程只需5秒。

结果也很突出:90%以上的常见异常由系统自主解决,核心经验从个人变为组织资产。
这几类场景都说明:通用模型“能说”但不敢用,行业模型“能做”且能负责。
大模型“验收标准”正在重构
三场考试以及落地案例背后,指向一个更核心的问题:工业场景对大模型的“验收标准”正在发生根本性重构。
过去几年,大模型更多是以“智能水平”被评价:参数规模、通用榜单排名、多轮对话能力、代码生成能力……这些指标在互联网场景里成立,但在工业场景中,却远远不够。
工业AI还需要具备三项核心能力,这也是通用模型目前难以通过后期微调实现的:

第一,边界控制能力。
在工业环境中,越界往往意味着风险。模型不仅要给出正确的结果,还要在规范约束和安全边界内运行。
IndustryGPT没有简单照搬通用大模型常用的RLHF训练方式,而是进一步引入“规范一致性奖励模型”与“计算过程奖励模型”。
模型在训练中不仅根据最终答案是否正确获得反馈,更会对中间推理步骤是否符合工程标准、计算路径是否严谨进行细粒度评估。
这也让模型逐步形成对安全边界、数值精度和规范冲突处理的稳定偏好,从而在复杂工程问题中表现出更高的可靠性与一致性。

第二,规范遵从能力。
工业生产有严格的强制性规范,是必须执行的红线。
在这一点上,IndustryGPT做到了“先学规范,再学表达”。它并未沿用通用互联网语料为主的训练范式,而是对工业知识体系进行了结构化重构。
通过将工程规范、国家标准、工艺文档、设备手册等专业内容进行层级化整理,然后再喂给大模型——让模型在训练阶段便形成了“规范优先”的知识表达方式,其在回答问题时天然遵循工程语境。
第三,任务执行能力。
工业场景不需要纸上谈兵的AI。IndustryGPT的Agent架构使其能够调用工具、拆解任务、执行流程,将抽象理解能力转化为可执行的工程流程。
这种“认知+执行”一体化的架构,使模型能够在真实工业环境中完成多步骤任务,而不是停留在文本建议层面。

综合来看,IndustryGPT的能力提升路径,代表了工业大模型一个清晰的技术方向:从“通用智能”转向“可执业智能”——
模型不再只是理解世界,而是能够严格遵循工业规则,在真实的强约束条件下,稳定、合规、高效地完成工程任务,实现从实验室到生产线的跨越。
随着“AI+制造”的逐步深入落地和铺开,这三项能力,正在成为工业客户评估AI供应商的新标准。
中国制造业需要什么样的工业AI?
关于工业AI的路线之争,行业内的讨论从未停止。目前主流的技术路线分为两派:
一派是“通用大模型+行业微调”路线,核心逻辑是先打造强大的通用底座,再通过行业数据微调,适配工业场景的需求;
另一派则是“原生工业垂类大模型”路线,以思谋IndustryGPT为代表,核心逻辑是从底层训练范式开始,就针对工业场景的特性进行重构,原生适配工业的规则与需求。
两条路线的分歧点不在于技术路径本身,而在于对“验收标准”的不同理解。
如果验收标准是“能回答工业问题”,那么微调路线足以交卷。
但如果验收标准是“能嵌入产线、能按规范干活、能对结果负责”,情况就不一样了。
因为边界控制、规范遵从、任务执行这三项能力,与通用模型的训练范式存在根本性冲突——通用大模型的核心是“泛化理解”,而工业大模型的核心是“精准执行”,后者无法通过后期微调获得,必须从底层训练范式开始重构。

2025年,我国AI核心产业规模突破了1.2万亿,但和制造业的融合还卡在“技术不接地气、场景落不深”的阶段。
今年1月,工信部等八部门印发《“人工智能+制造”专项行动实施意见》,明确提出到2027年“推出1000个高水平工业智能体”——“智能体”三个字,就是对“验收标准”的定调:要的是能执行的AI,不是只能回答的AI。

2026年,随着大模型进入应用阶段,竞争正在从“参数竞赛”转向“落地验收”。
IndustryGPT对GPT-5.2 Thinking (high)等国际顶尖通用大模型那20%的领先幅度,真正的意义并非“谁赢了考试”,而是反映出目前主流通用模型和真实产业需求之间,依然存在系统性错位。
这种错位,恰恰印证了工业垂类大模型的核心价值:在AI与制造业深度融合的过程中,通用大模型是重要的技术底座,但贴合产业需求的原生垂类大模型,才是实现技术落地的核心抓手。
回到一开始的问题:中国制造业,到底需要什么样的AI?
AI赋能实体经济,终局不是比谁更“聪明”,而是比谁更“落地”。对中国万千制造企业和无数复杂场景而言,AI的价值从来不是“炫技”,而是“赋能”。
思谋IndustryGPT的探索,是AI产业落地大幕的开始。整个行业的答案,还藏在更多躬身入局的实践中。
