
香港科技大学HKUST视觉智能实验室的博士生唐家祺是本文的主要作者,他还与严莹莹、王乾宙、夏宇阳、耿博同和陈建民共同担任论文的共同第一作者。通讯作者包括香港科技大学的陈启峰教授和西北工业大学的魏巍教授。
在我们日常生活中,比如查看手机地图上的实时交通状况,或是获取准确的台风路径预警,甚至监测农作物病虫害情况时,都离不开遥感技术的支持。然而,传统的遥感数据分析方式更像是单纯的信息采集,缺乏对信息的深入理解和处理能力。
最近,来自香港科技大学、西北工业大学、清华大学等多个高校和研究机构的研究人员联合发布了关于遥感AI智能体的系统综述。这篇超过一万字的研究成果首次为“遥感智能体”提供了严格的定义,并对当前的发展趋势进行了全面的梳理。
这项研究标志着遥感技术从被动的信息收集逐渐转变为能够主动理解和分析的智能系统,具备规划、记忆、协作等高级功能,正在朝着地理空间智能体的方向发展。

- 论文题目:《智能遥感代理:综述》
- 图1展示了近十年来遥感智能体的发展历程,从早期的单智能体探索到2024-2026年多智能体系统的爆发。
- 该论文的四大核心贡献包括统一的理论框架构建、技术分类方法的提出、应用场景的全景式梳理以及未来挑战的展望。

遥感AI智能体不仅能够“说”,更重要的是能够“做”,它可以通过调用专业工具,执行复杂的任务,甚至指挥卫星或无人机获取新的数据。
图2展示了智能体的核心模块:感知、规划、记忆、动作,以及它们与环境的交互过程。例如,在森林火灾监测的例子中,智能体通过卫星影像感知火情,结合气象数据规划预测模型,调用无人机执行侦察任务,并将结果存入记忆库供后续使用。
规划策略的转变是遥感智能体的一项重要进步,从传统的固定流程转变为灵活的实时调整。
- 记忆机制是遥感智能体的一项关键功能,它使智能体能够积累经验,提高工作效率。
- 动作执行能力使遥感智能体不再仅仅停留在数据处理层面,而是可以执行实际操作,如控制无人机或卫星。
- 多智能体协作模式是解决大规模复杂问题的有效手段,通过集中式或分布式协作,智能体能够更好地应对挑战。
- 在城市治理、精准农业、生态监测、海洋监管、应急响应和地质勘探等领域,遥感智能体已经开始发挥重要作用。
尽管遥感智能体展现出了广阔的应用前景,但其发展仍面临一系列挑战,包括可靠性、动态适应性、安全性与隐私保护等问题。
未来的遥感智能体将更加注重自进化能力、因果推理、群体智能、具身交互以及个性化服务等方面的发展。

这篇综述不仅为遥感AI智能体提供了坚实的理论基础,还为未来的应用实践指明了方向。它预示着一个更加智慧和可持续的未来。
比如,你不再需要告诉它「用 NDVI 指数分析这片农田」,而是可以直接问:「看看我负责的区域里,哪些田块最近可能缺水了?」智能体便会自己规划:获取多光谱影像、计算植被指数、比对历史数据、排除干扰因素,最后生成带地图的报告——全程无需人工干预。
这种能力的背后,是四个核心模块的协同工作:
规划策略:从「照剧本演戏」到「即兴演出」

图 3 左:开环规划在任务开始前生成固定流程,适合静态数据;右:闭环规划根据工具输出、环境变化和任务目标实时调整计划。
- 开环规划:适合静态任务,预先制定完整流程(如数据获取→预处理→分析→输出),效率高但缺乏应变。
- 闭环规划:动态调整计划。例如云层遮住光学影像,智能体立刻改用雷达数据继续分析,或重新调度卫星获取新影像。
记忆机制:让智能体「越用越聪明」

图 4:展示了智能体如何通过上下文记忆和结构化状态存储维持工作流连贯性,并通过经验池和知识库实现跨任务复用。
- 内部记忆:记录单次任务中的中间结果(如矢量图层、工具参数),保证流程连贯。
- 外部记忆:跨任务复用经验,比如把成功处理洪水的流程存入「经验池」,下次遇到类似灾害直接调用。
动作执行:从「动嘴」到「动手」

图 5:动作执行
- 调用外部工具:如 GDAL 处理栅格、SNAP 分析雷达数据。
- 生成代码:用 Python/R 实现定制化分析,突破预定义工具限制。
- 具身动作:直接控制无人机改变航线、调整卫星拍摄角度,实现「感知-决策-行动」闭环。
多智能体协作:1+1>2 的群体智慧

图 6 左:集中式协作中,中央控制器分配任务、汇总结果;右:分布式协作中,多个智能体通过共享内存和批评协商达成共识。
面对全球尺度的监测或复杂灾害响应,单一智能体力不从心。综述区分了两种协作模式:
- 集中式:一个「大脑」统一调度,适合需要严格一致性的流程(如生成标准地图产品)。
- 分布式:多个智能体平等协商,通过交换证据、互相批评达成共识,适合信息碎片化的场景(如多源数据融合定位)。
六大应用场景,智能体已「上岗」

图 7:智能体在城市治理、精准农业、生态监测、海洋监管、应急响应、地质勘探中的典型应用。
- 城市治理
AI 智能体在城市治理中实现感知、分析与行为生成的闭环。AirSpatialBot 通过空间感知 VLM 完成三维场景下的精细车辆识别与检索;ChatGeoAI 与 GeoGPT 将自然语言指令转化为 GIS 工具链,自动化空间分析与推理;LLMob 与 AgentMove 则利用个体记忆与集体模式模拟城市居民行为轨迹,LLMLight 通过语言推理优化交通信号控制,推动城市管理从被动响应向主动干预演进。
- 精准农业
智能体将遥感分析与农业决策深度融合。GeoLLM-Squad 通过多智能体协作自动化 NDVI 等指标计算;AgriGPT 借助检索增强处理复杂农艺查询;ChatLeafDisease 基于思维链从图像直接诊断作物健康。同时,数据驱动的 ABM(如 Data-Driven ABM)学习政府与农户行为偏好,支持土地利用优化,为精准农业提供从感知到决策的完整支撑。
- 生态监测
智能体赋能生态系统从定量评估到政策分析的全链条。REO-VLM 突破分类局限,直接回归预测地上生物量;TREE-GPT 集成林业知识库与 SAM 模型实现单木级结构提取;CLEAR 利用 LLM 检索摘要气候政策,提升决策可及性;EarthLink 与 DA4DTE 自动化气候科学研究工作流与数据发现,将卫星观测转化为可操作的生态叙事。
- 海洋监管
智能体在海洋科学推理与自主航行控制两大方向取得突破。WaterGPT 与 OceanGPT 分别针对水文与海洋科学,集成工具调用与多智能体协作,支持数据处理、知识问答与任务决策;Autonomous Vehicle Maneuvering 与 Agyei 等人的工作将视觉-LLM 嵌入航海仿真与水面无人艇闭环控制,实现动态环境下的路径规划与可解释决策,推动海洋监管向智能化、自主化发展。
- 应急响应
智能体在灾害监测与建模决策中展现关键价值。RescueADI 通过规划-感知-识别链支持自适应多步解释;UAV-CodeAgents 利用多智能体 ReAct 协作动态重规划无人机任务;FIRE-VLM 在数字孪生中实现火线追踪。Knowledge-Guided wildfire、ESCAPE、FLARE 与 WildfireGPT 分别通过领域知识注入、认知智能体建模、行为理论结合 RAG 等,提升火势模拟、地震疏散与应急问答的精准度与时效性。
- 地质勘探
智能体将地质解释与勘探自动化推向新高度。PEACE 与 STA-CoT 通过领域知识注入与多智能体链式推理,实现全图信息提取与多影像地质推理;Geo-MMRAG 构建多模态地质知识库,利用检索增强缓解岩性识别歧义;MineAgent 与 GeoAgent 通过模块化框架与工具调用,自动化端到端勘探流程,并引入专用基准 MineBench,显著提升矿物勘探的智能化水平。
数据与评测:地基不牢,大厦难起
智能体的性能高度依赖数据和评测方法。综述系统整理了现有资源(详见正文):
- 感知数据集:如 iSAID(实例分割)、Topo-boundary(道路拓扑提取)、STAR(场景图生成)等。
- 推理数据集:如 GeoChat(多轮对话指令)、LEVIR-MCI(变化描述)、AirSpatial(三维空间问答)等。
- 决策数据集:如 RescueADI(灾害响应流程)、AEOS-Bench(卫星调度轨迹)等。
挑战在前,未来可期
尽管前景广阔,遥感智能体仍面临重重难关:
- 可靠性:模型幻觉可能导致误判,尤其在灾害应急中。需引入外部知识验证、不确定性量化。
- 动态适应:云层、光照、传感器故障瞬息万变,智能体必须能实时调整计划。
- 安全隐私:高分辨率影像可能泄露敏感目标,工具调用也可能被滥用。联邦学习、差分隐私等技术将成为保障。
- 评测缺失:缺乏对规划、工具使用、协作能力的整体评估,新基准亟待建立。
面向未来,论文指出了五个关键方向:
- 自进化:从过往任务中学习,不断优化知识库和流程。
- 因果推理:不仅知道「发生了什么」,更要回答「为什么发生」,为政策制定提供依据。
- 群体智能:多智能体协同应对气候变化、粮食安全等全球性问题。
- 具身交互:不仅要分析数据,还要主动获取数据——指挥卫星变轨、调度无人机巡检。
- 个性化服务:为不同用户(规划师、农民、应急人员)提供定制化洞察。
结语
这篇万字综述不仅为遥感 AI 智能体搭建了统一的理论框架,更是一份面向实践的行动指南。它预示着未来的遥感系统将不再是沉默的「眼睛」,而是能思考、会行动、可对话的「地理空间智能体」。
当 AI 智能体真正理解地球的每一寸变化,一个更智慧、更可持续的未来或许就在眼前。
