近日,高德地图发布了全球首个基于大模型的“地标AI领航”系统。这一创新技术将千问大模型与海量地点信息和高清街景图片相结合,赋予导航系统识别视觉信号及理解人类语言的空间智能能力。它不仅提供传统的距离和方向指引,还能利用用户眼前的地标进行更为直观的引导,实现了真正的“见即导行”,有效解决了步行导航中常见的认知难题。

用户在使用传统导航时常常遇到三大问题:出发初期定位不清晰、对剩余路程无明确感知以及接近目的地时难以确定准确位置。
为了更好地满足用户需求,高德地图利用多模态交互技术、地理语义理解和生成式AI的最新成果,推出了更贴近人类指路方式的视觉导航服务。这一创新为用户提供了一种更加直观且轻松的步行体验,无需复杂的认知过程即可顺畅出行。
在日常生活中,人们常常通过“那边”、“走那条道”或“穿过红色建筑”的描述来指引他人。这种基于周围环境标志物的方法使路线信息更为明确,并依赖于方向理解、地标确认和上下文感知的逻辑结构。要达到与人类相似的导航效果,智能系统需要构建一个能够涵盖现实世界的地理语义网络。
高德地图凭借其丰富的POI数据库、高精度步行路网拓扑以及广泛覆盖的城市及景区街景图片资源,建立了对空间关系深入理解的能力框架。借助千问模型的多模态技术,该系统可以识别交通设施、商铺和地标建筑,并根据视觉显著性生成更加自然的语言描述。
在实际应用中,由于并非所有地点都适合用作导航指引,因此高德地图采用了“双重筛选”机制来提高指导的有效性。首先是时空关键节点的筛选,在路线的重要转折点进行播报;其次是选取最具辨识度且易于识别的对象作为参考标志。
地标AI领航系统使用更加口语化和具象化的语言描述,如“左侧第二个玻璃门”,同时根据场景调整信息详略程度。测试表明,与传统导航相比,在听到视觉地标指示后,用户平均只需2秒即可确认正确的路线方向,并减少查看手机的次数。
高德地图推出的地标AI领航技术标志着其在空间智能领域的又一重大进展。通过利用多模态大模型对现实世界进行视觉语义分析,高德构建了一个可视、可感知并实用的空间智能应用系统。
