高通公司就个人AI的发展前景进行了展望,指出未来多终端体验将以AI和用户为核心。
“个人AI将从终端侧开始,我们正朝着以AI和用户为中心的多终端体验迈进。”
3月27日,CFMS|MemoryS 2026 峰会在深圳举行,主题为“穿越周期,释放价值”。本届峰会汇聚了存储、CPU/GPU、AI大模型、汽车等全球核心产业链生态企业,共同探讨在AI时代下,存储厂商、应用终端与平台厂商如何融合新技术和新产品,协同构建高效生态。高通公司AI产品技术中国区负责人万卫星受邀出席并作了主题演讲,探讨了在智能体AI创新浪潮中,终端侧如何引领个人AI的未来发展。
万卫星表示,个人AI将从终端侧开始,我们正迈向以AI和用户为中心的多终端体验,终端智能体将能够提供低延迟、个性化以及无感知的用户体验。高通公司通过统一的技术路线,能够跨广泛的产品组合提供高性能、高能效的软硬件技术底座,为赋能个人AI提供跨终端、跨场景的平台级能力。

此外,MemoryS大奖也在本届峰会上颁发,以表彰产业链内的杰出企业与领军人士。高通公司因其业务从智能手机扩展至个人AI与智能可穿戴设备、PC、汽车、边缘网络以及工业物联网等广泛边缘领域,荣获“年度AI生态杰出贡献奖”。

以下为万卫星演讲全文:
各位嘉宾,现场的朋友,大家上午好。今天我将分享的主题是“引领智能体AI创新,在端侧构建个人AI未来”。我们首先来看一下AI在行业应用的几个演进阶段,第一个阶段可以称为感知AI,感知AI包括多媒体信号、语音信号的理解,图像的分类识别,以及智能降噪等传统领域的应用案例。这类感知AI在大多数终端侧平台已经实现了商业化落地,如手机领域的计算摄影,就是感知AI落地的一个典型例子。
第二个阶段是生成式AI,这一阶段的特点是在基于大量数据预训练的情况下,AI可以在有监督的环境中解决一些具体问题,例如OpenAI的ChatGPT模型和文生图模型等。第三阶段被称为智能体AI。智能体AI与生成式AI的重要区别在于,它可以在无监督的情况下,自主理解用户意图,进行行动和决策,帮助我们解决稍微复杂的任务。第四阶段是物理AI,AI可以真正理解我们的物理世界,根据真实物理世界的规则,对输入进行反馈和输出。这一技术目前仍处于早期应用阶段,如果大家关注今年在巴塞罗那举行的MWC世界移动通信大会,应该会看到大量关于物理AI的研究进展。
目前行业内关注的重点主要在第二阶段和第三阶段。接下来,我们先看一下生成式AI的发展趋势。一个重要的趋势是,能够在端侧运行的生成式AI模型的智能正在快速提升。首先,端侧设备支持的模型参数量正在变得越来越大,例如在手机上我们可以运行10亿到100亿参数级别的大模型,在PC上可以运行130亿到200亿参数量的大模型。在汽车上,我们可能会支持更大规模的模型参数量,达到200~600亿的级别。
在更小的设备上,比如AR眼镜和低功耗设备,我们也实现了参数规模在10亿到40亿之间的模型完全在端侧运行。尽管相较于云端大模型,端侧模型的参数量仍然较小,但行业内的各种技术正在推动端侧大模型支持体量的提升,比如内存带宽的提升和量化位宽技术的优化,这都意味着终端设备可以承载更丰富的模型。
从模型本身的能力来看,我们观察到两点。首先,去年我们成功将具备推理能力的大模型部署到了端侧。其次,在端侧大模型所对应的各类场景中,其支持的上下文长度也在提升。大概在三年前,端侧上下文长度普遍仅限于1k-2k;两年前,大部分场景的上下文已经扩展到2k-4k;而去年,高通在与合作伙伴的场景探索中,这个区间已提升到4k-8k。在一些特定的场景中,我们甚至已经可以支持32k-128k的上下文长度。
更长的上下文需求在端侧部署其实是具有挑战性的,上下文越长,对KV缓存的需求就越大。这直接导致将模型整体部署到端侧时,所需的内存容量会增加,同时对内存带宽的要求也会越来越高。在模态演进方面,我们看到端侧模型正从单一的“文生文”、“文生图”、“图生图”向更丰富的多模态方向发展,包括语音、文字、照片、视觉以及传感器等多种输入,甚至正在向全模态的方向迈进。去年9月的骁龙峰会上,高通也展示了与合作伙伴共同将50亿参数的全模态模型完整运行在端侧,用户可以通过自然语言进行交互。
接下来,我们来分享生成式AI在端侧部署的优势与挑战。我认为端侧运行生成式AI的最大优势在于个性化。因为个人的所有数据都在端侧,新数据的产生源头也是在端侧。在数据产生的源头直接进行推理是一件非常自然的事情,同时也可以更好保护用户的隐私。此外,端侧生成式AI还有更高的成本优势,且无需网络连接,这让用户能够随时随地享受生成式AI带来的服务。在挑战方面,我重点强调几点。首先是端侧内存规模的限制。虽然我们有很多技术手段能够压缩模型体积,但有限的内存终究会对可运行的模型大小设置上限,而模型大小的上限也意味着端侧AI能力的上限。
其次是端侧的内存带宽限制。大家知道,自回归网络的一个显著特点就是受内存带宽限制,有限的带宽会影响大模型输出token(词元)的速度,进而影响到具体场景中的用户体验。第三点,我想强调在很多终端设备上,尤其是在手机这种集成度比较高的设备上,能效非常重要。我们要避免AI推理在运行时触发温控限制,避免引起设备发热。因此,如何在内存大小、带宽以及性能和能效之间达成平衡,是我们和业内伙伴一直在尝试解决的问题。
接下来我们来看一下智能体AI的趋势,最重要的一点是如何让终端侧智能体与用户实现深度适配。第一个显著趋势是,终端侧智能体能够提供低延迟、个性化以及持续无感知的用户体验。第二个趋势是专业化。最初人们是想让统一的模型去解决大多数问题,现在我们正在走向任务专业化,通过专业化智能体和多智能体框架来解决问题。第三个趋势,也是我认为对用户体验最重要的趋势,就是高度个性化。终端侧智能体不再是以前那种简单的对话类语音助手,而是变成能够充分理解用户意图、理解上下文、理解用户感知信息的真正懂你的AI助手。
我们再来详细看一下智能体AI的基础模块。智能体AI的基础模块包括感知模块、决策模块和执行模块。感知模块负责收集环境信息,决策模块负责根据收集到的信息进行决策,执行模块负责执行决策结果。
在过去,个人AI更多是以手机为中心,耳机、眼镜、手表等其他设备是作为手机的附属设备。未来,我们正迈向以AI和用户为中心的多终端体验。也就是说,AI不再绑定某一个具体的设备,而是通过个人AI或者智能体去理解用户的意图,再去执行用户的任务,这些任务是通过多个设备之间的灵活协同来完成的。未来个人AI体验一定是朝着打造更持续、更无感知的用户体验方向去演进。从我们的视角来看,个人AI一定是始于终端侧的,因为终端侧离用户最近,终端侧拥有用户的所有信息,因此能够在第一时间感知到用户个人的意图、上下文和偏好。
但是个人AI并不是孤立运行的,它可以通过混合AI的架构,在终端侧、本地边缘、网络边缘和中央云协同工作。高通在去年也发布了多款可以提供充分算力支持个人AI场景的产品,包括第五代骁龙8至尊版移动平台、骁龙X2 Elite计算平台等。大家已经可以在市场上看到非常多搭载上述骁龙平台的商用终端。
在数据中心领域,我们也在今年的MWC发布了基于Qualcomm® AI200和AI250芯片的加速卡和机架系统,为高速数据中心生成式AI推理提供机架级性能与卓越内存容量。尤其是AI250,它引入了一个创新的内存架构,为AI处理工作负载带来了效率的跨时代跃升。
最后,我想给大家总结一下高通在AI方面的整体布局。从手机、耳机、可穿戴设备、PC等消费电子产品,再到汽车、机器人,甚至到下一代的数据中心,我们都在用统一的AI架构去赋能所有的产品,核心就在于我们能够通过统一的技术路线,提供高性能、高能效的软硬件技术底座,让高通的AI能力得以从单个产品或者单颗芯片扩展成为规模化的跨终端、跨场景的平台级能力。
以上就是我今天所有的分享,非常感谢大家。
以上就是我今天所有的分享,非常感谢大家。

量子位的朋友们