

补充Agent在基础设施方面的知识。
作者|田思奇
自2025年以来,大型模型的应用已经从简单的聊天机器人发展成为能够独立执行任务和流程的“数字员工”。开源框架OpenClaw无疑是这次技术飞跃的关键推动力。
然而,当各个行业满怀期待地将这些工具引入内部网络时,却发现它们在实际使用中存在不少问题,在企业级环境中显得不够完善甚至有些风险。
它的高灵活性在企业的IT视角下被视为越权的风险;动态生成不可信代码随时可能触及数据安全底线;而在处理长时间任务和脉冲式的计算需求方面表现出的脆弱性,也给传统的IT架构带来了巨大压力。
特别是在研发体系庞大、协同复杂且合规要求极高的汽车行业,这些问题成为Agent大规模应用的主要障碍。
变革起步于去年夏天。
根据了解,理想汽车决定从基础设施层面入手解决问题。在经过多方案对比后,最终选择了阿里云ACS Agent Sandbox及阿里云容器服务Kubernetes版ACK,并基于AMD架构构建了一个高隔离性、强弹性与持久状态维护的专属‘沙箱’环境。
这个架构为整个行业提供了一种解决方案:如何使Agent在企业环境中真正运行?
OpenClaw难以适应,
汽车公司引入Agent遇到困难
理想汽车面临的挑战,是所有直营车企共同面临的问题。
为了提高研发效率,理想汽车2025年全年研发投入达到113亿元的历史高位,其中AI相关投入占一半以上。
随着整车软件的复杂性增加,其工程规模接近大型互联网公司水平。但资源如代码仓库和技术文档分散在多个系统中,工程师们需要花费大量时间查找信息和确认版本,这不仅降低了效率,还延长了产品更新周期。
为解决这些问题,理想汽车引入了Agent作为新的生产力工具,然而问题依旧存在。
OpenClaw等工具最初的设计更倾向于灵活性和开发速度,在企业环境中使用时,尤其是需要连接CRM、OA及代码仓库等核心系统时,原有架构的短板就显现出来。任务执行通常依赖固定流程,难以灵活调度并在不同系统间自动推进。
在严格的合规要求下,理想汽车选择了阿里云ACS Agent Sandbox解决方案,基于AMD算力提供了一个稳定且安全的操作环境,成功支持Agent深入业务核心流程。
理想与阿里云正探索车端与云端协同的计算模式,计划扩大Agent规模至3万甚至数十万级别,通过优化整个链路为大规模升级提供新路径。
这一方案还具有较高的迁移性。在金融、制造和政务等其他行业面临的权限控制、长时间任务处理及高并发流量波动等问题上,理想汽车的解决方案可以作为一个直接参考案例,帮助企业降低搭建基础设施的成本。
未来企业之间的竞争焦点将转向对Agent运行环境的支持能力。随着Agent应用逐渐深入,公司间的差距也会越来越大。
这种趋势表明,未来的重点将是构建围绕Agent执行任务的基础设施体系,使企业的运作方式发生根本性变革。这套新系统正成为新一代企业操作系统的雏形,并展现出巨大的潜力和影响力。
与此同时,门店的成本结构也在不断上升。商超店等核心点位的租金与人力支出持续攀升,据部分媒体测算,一家核心商圈汽车门店的年运营成本可高达500万元,服务质量与成本之间的矛盾日益突出。
直营模式的普及、软件定义汽车的深入推进,以及用户服务需求的持续升级,让车企在前端服务与后端研发两端同时承受效率压力。传统依靠人力扩张与流程优化的方式逐渐逼近天花板,企业迫切需要新一代智能工具重构运营与研发体系。
当Agent从工具走向系统,它需要的不再是一段代码,而是一整套基础设施。这一点,在车企这样对稳定性、安全性与成本都高度敏感的行业中表现得尤为明显。
对于理想汽车而言,这场从“用工具”到“搭基石”的变革就此展开。
2.理想汽车破局:
重构Agent底层运行逻辑
理想汽车的路径,并非从OpenClaw本身入手。
「甲子光年」获悉,理想汽车于2025年6月正式启动企业级Agent基础设施选型,围绕直营车企对安全合规、算力弹性、规模化运维的核心要求,搭建了多维度评估体系,筛选出多条具备可行性的技术路线进行实测对比。
早期纳入评估的方案各有侧重。比如E2B自建路径依托开源生态具备较强的定制灵活性,能够与企业现有架构深度适配,但在规模化阶段问题逐步显现。资源需要提前规划采购,利用率随业务潮汐波动明显,长期闲置带来刚性成本。同时,集群管理、版本迭代、环境一致性维护对内部运维团队提出较高要求,难以支撑快速扩张。
经过多轮筛选后,理想汽车最终选择采用E2B协议,并依托阿里云ACS Agent Sandbox在AMD芯片上的算力优势,构建统一底座。
试点落地过程中,理想将OpenClaw封装为面向全员的数字分身,构建统一的企业AI助手入口。员工通过这一入口发起任务,无论是文档处理、代码分析,还是知识查询,都在同一体系内完成。
当所有任务被汇聚到同一入口,系统的复杂性也随之显现。
不同任务对资源的需求不同,执行时长不一致,对安全隔离与数据访问的要求也存在差异。如果仍然采用原有方式直接执行,系统很快就会失控。
在这一背景下,分层架构成为必然选择。
最上层,是统一的AI助手入口,负责承接员工请求;其下是OpenClaw所在的Agent平台层,承担任务规划、工具调用与流程编排能力。每一个请求进入系统后,会在这一层被拆解为多个执行步骤,并判断是否需要调用底层执行资源。
再往下,是Sandbox管理与调度层。这一层相当于系统的中枢。OpenClaw管控平台负责资源申请和管控,通过E2B协议将任务需求转化为资源调度请求,由Sandbox Manager在Kubernetes集群中调度对应实例。通过Claim机制与SandboxSet的组合,系统能够在集群中快速创建运行环境,同时借助镜像缓存与预热机制缩短启动时间,从而支撑高并发任务场景。

最底层,则是Agent Sandbox执行环境。每一个任务最终运行在独立Sandbox实例中,以ACS Pod形式存在于Serverless算力环境中,并通过网络策略与存储挂载实现访问控制与数据持久化。任务执行的所有行为,都被限制在这一隔离空间内。
这一分层结构让任务不再依附于某一台机器或某一段代码,而是被拆分为可以被调度、可以被恢复、可以被控制的运行单元。对理想汽车而言,这一变化使得Agent具备了进入企业核心流程的条件。
在门店侧,最直观的变化体现在响应效率上。
原本依赖人工完成的咨询与流程处理,被部分转移到系统中完成。用户在任意时间发起请求,都能够获得稳定回应,高峰期的服务压力得到缓解。销售人员不再需要重复回答标准问题,可以将精力更多投入到高价值沟通中。
在研发侧,AI助手成为日常工作的一部分。工程师可以通过统一入口获取文档、分析代码或处理数据,信息获取路径被显著缩短。原本分散在多个系统中的知识,被重新组织为可调用的能力。随着使用频率增加,这种变化逐渐累积为效率提升。
据「甲子光年」了解,目前已有约800名理想汽车员工常态化使用该平台,同时还有四五千名员工处于排队接入状态,应用正从局部试点稳步迈向集团级规模化推广。
3.阿里云ACS:
五大能力闭环,不止于安全
当这一架构稳定运行之后,系统能力开始逐步显现。
在阿里云的设计中,这套能力被归纳为五个层面,它们并不是彼此独立存在,而是在实际运行中相互支撑,形成一个完整闭环。
安全能力是整套体系的底层基石,也是车企最为看重的核心能力。
ACS Agent Sandbox 采用硬件加固的 MicroVM 虚拟化架构,从底层构筑防护边界。每个智能体任务均运行在独立虚拟化环境中,实现计算、存储、网络三维彻底隔离。
计算层面,任务之间不共享内核,大幅提升逃逸攻击难度;存储层面采用独立云盘,数据链路完全隔离,销毁后彻底擦除不留痕迹;支持东西向与南北向流量精细化管控,实例间默认禁止互访,有效抵御横向扫描与非法访问,进一步契合车企高合规要求。
在此基础上,平台内置30余类AI运行时风险检测,覆盖提示词注入、异常调用、越权操作等场景,配合全链路审计日志,形成从IaaS到应用层的纵深防御体系,完美匹配车企高合规要求,确保Agent在执⾏代码或调⽤⼯具时不会影响企业核⼼系统。
第二个关键变量是数据。
OpenClaw在执行代码分析、报告生成、多步骤数据处理等任务时,会产生大量中间状态与临时文件,传统容器环境容易因重启或迁移导致数据丢失。
阿里云以ESSD云盘作为Sandbox根盘,配合NAS与OSS动态挂载,实现全路径数据持久化。任意写入操作均直接落盘,无需手动配置挂载卷,从根本上消除数据丢失风险。
这套体系具备极高可靠性,可实现RPO≈0的数据保护能力,同时支持在线热扩容与高性能IO,满足大规模并发任务的稳定运行需求,让长时任务真正具备生产级可用性。
全生命周期管理能力,允许智能体从一次性调用,转变为可管控、可恢复、可迭代的系统级能力。平台支持创建、运行、暂停、休眠、唤醒、快照、销毁这7种完整状态流转,覆盖任务从启动到结束的全过程。针对企业成本与效率需求,休眠唤醒机制可在释放CPU与内存的同时保留完整执行状态,唤醒后秒级恢复运行,兼顾连续性与经济性。
平台还提供场景化模板能力,针对研发、办公、客服等不同场景预配置环境与权限,新实例可快速上线。针对企业规模化运维,系统支持滚动升级、灰度发布、蓝绿部署等4种升级策略,升级前自动快照保护状态,出现问题可快速回滚,实现零中断、零丢失的平稳迭代。
弹性与成本控制能力,直接解决了企业规模化落地的核心顾虑。整套架构遵循按需创建、按需计费的原则,实例启动计费、销毁停费,无需提前囤购服务器,也不会产生长期闲置成本。平台支持每分钟15000个沙箱实例的水平弹性扩容,可轻松应对门店高峰、研发集中作业等潮汐式流量。
在理想汽车的实际测算中,传统固定资源模式年度算力支出曾高达千万元级别,而在垂直变配与休眠唤醒机制共同作用下,资源利用率显著提升,整体成本得到大幅压缩。
与此同时,该方案的开源兼容与规模化运维能力,基于ACK统一编排,方案同时支持E2B标准接入与K8s Claim原生接口,并结合基于AMD EPYC CPU架构的弹性计算实例,让企业得以实现从数百到数万Agent实例的无感扩容。理想汽车能够在不改变内部技术栈的前提下,快速完成平台迁移与规模化推广,也为后续扩展至门店客服、车机协同等更多场景奠定基础。
从底层安全隔离到上层业务赋能,这套云原生执行底座最终让OpenClaw真正走出实验环境,成为可规模化、可管理、可嵌入核心业务的系统性生产力。
4.结语:
重构执行逻辑,定义企业新基建
过去,软件系统的核心是功能构建,数据在不同系统间流转,判断与执行环节始终依赖人工完成。如今,执行的定义被Agent改写,任务无需绑定固定流程,可灵活拆解、智能调度,在各类系统间自动推进。
但目前多数企业对Agent的应用仍停留在局部提效层面,难以突破系统壁垒,核心问题并非模型能力不足,而是缺乏承载执行的基础设施。真实业务中的权限管控、数据安全、系统稳定性等约束,直接决定了Agent能否长期落地,而非昙花一现。
在严苛的车企合规场景下,阿里云ACS Agent Sandbox搭载AMD算力,提供稳定、安全的系统环境,成功支撑Agent深入业务核心流程。这一实践不仅实现了效率提升与安全合规底线的双重坚守,更沉淀出了一套相对成熟的技术标准。
Agent的规模化落地,也正朝着车云协同的更高阶形态演进,理想与阿里云正积极探索车端与云端协同的算力组合模式,计划将Agent规模扩展至3万甚至数十万级别,通过持续优化端到端链路,为车企Agent的规模化升级提供新路径。
这一模式也具备较高的可迁移性。
金融、制造、政务等领域面临的共性挑战,同样面临权限管控、长流程任务、高并发波动与成本约束的共性挑战。已经完成标准化封装的理想阿里云方案,能够为这类场景提供直接参考,企业不必再从零搭建基础设施,从而降低Agent规模化落地的整体门槛。
「甲子光年」认为,长期来看,企业之间的差距将随Agent应用深化逐渐拉大。
一部分企业会逐步搭建围绕Agent的基础设施与执行体系,实现任务自由流转与能力复用,释放规模化部署AI“数字员工”的潜力;另一部分则继续把AI仅视为辅助工具。
这种差距在初期并不明显,但随着业务规模扩大,二者在效率与成本结构上的分化会愈发突出。Gartner预测,到2026年底,40%的企业应用将嵌入AI Agent,远高于2025年不足5%的水平。
这一趋势下,未来企业竞争的焦点,将从模型能力转向对Agent运行环境的支撑能力。Agent Infra不再是单纯的算力与存储池,而是整合安全、弹性与状态管理的任务组织者。
当执行被重构,企业的运行方式也随之改变。这套围绕 Agent 构建的基础设施,正在成为新一代企业操作系统的雏形。它的影响力,也才刚刚开始显现。
(封面图

