江宇撰写,冰倩编辑
谷歌在3月26日的凌晨发布了其最新的语音和音频模型Gemini 3.1 Flash Live,这款模型已在Gemini应用、Search Live以及Google AI Studio中上线,其中包括一个开发者预览版本。
此次更新主要提升了实时语音代理的功能,语音可以直接控制应用开发,Gemini App的实时多模态对话功能也得到了加强,多项测试结果表明,该模型的表现优于其他同类产品。
随后,国外媒体透露,苹果计划在2026年的WWDC大会上重点展示AI技术,并计划推出新版Siri,苹果已经获得了谷歌Gemini模型的直接访问权限,计划通过蒸馏技术开发轻量级的端侧AI模型部署到iPhone上。

Gemini 3.1 Flash Live针对连续对话进行了全面优化,包括响应时间、上下文记忆、多语言处理和工具调用等关键性能的提升。
在Gemini Live中,上下文窗口扩大了一倍,Search Live在全球200多个国家和地区支持多语言实时交互,适用于连续对话和复杂任务场景。
据公开测试,此版本在语音代理的关键性能方面有显著改进。在ComplexFuncBench audio测试中,Gemini 3.1 Flash Live的函数调用准确率达到90.8%,远超先前版本的数据。

在Audio MultiChallenge音频输出榜单中,该模型得分为36.1%,领先于其他竞争对手。

该版本还特别优化了实时对话体验,模型对语调、语速和停顿的处理更加精细,在嘈杂环境中,背景噪音过滤能力增强,能更稳定地识别和执行用户指令,同时在复杂指令场景中,模型对系统约束的遵守能力也有所提升。
部分用户已经开始测试新功能,例如使用语音指令生成简短的演唱片段,这些功能可以在对话中被触发。
Gemini的API价格也已公布,文本输入每百万token约为0.5美元,输出约为4.5美元,音频输入约为3美元,输出约为12美元,支持多模态输入调用。

该模型一经发布,便引起了社区的初步反馈。一位网友评价这是“一次强大的更新”,并指出更快的语音响应在用户体验上是一个关键突破。
同时,也有用户对此持保留态度。一位开发者表示,他之前已经停止使用语音模型,因为其回复质量不如文本,对此次更新能否改变这一现状持怀疑态度。

智东西对这一功能进行了初步测试,发现其中文语音表现仍有些机械化,多轮对话过程中存在中断,目前的版本正在逐步推送,iOS和安卓用户已经开始收到更新。
一、语音驱动编程:UI、交互、风格全面革新
谷歌在此次发布中,展示了语音驱动应用开发这一场景,开发者可以在Google AI Studio里通过语音进行应用开发,使开发过程更加流畅。

用户可以通过语音连续调整界面。例如,用户可以直接提出修改:“把麦克风做大一点”,界面随即发生变化;随后补充说:“背景加点黄色波点”,页面背景立刻更新。
用户继续提出各种需求,如加入“鼠标悬停时的反馈效果”和“背景图案持续滚动”,所有改动都在对话中逐步完成。
用户一边说,界面一边变化。中途用户又改变主意:“干脆整体做成波普风”,模型随即在已有基础上重新设计视觉风格,整个过程类似于与设计师的一对一实时沟通。
二、设计协作、跨语言对话、角色扮演,三种场景同时实现
谷歌还展示了三种实际应用场景,包括设计协作、跨语言对话以及游戏中的角色互动。
在设计工具Stitch的案例中,语音可以直接参与到界面编辑流程中。用户先让界面跳到“练习模式”,再切到“歌曲库”,随后开始提问:“这些虚线和方形边框看着有点硬,能不能让数字更贴合圆形?”界面随即往更简洁的方向调整。紧接着又换了一种思路:“试一个偏棕色、木质一点的配色”,新的视觉版本便直接生成出来。
在AI硬件设备Ato的交互案例中,重点在于多语言对话的连续性,对话内容围绕日常问候和陪伴展开,用户可以自由切换语言,不会中断对话。
对话中一旦插入真实场景的信息,如“刚从医院出来有点累”,模型会根据语境回应,给出连续的交流。
在RPG游戏《Wit’s End》的案例中,语音被用来驱动角色本身。玩家提问时,模型会用设定的语气回应,保持在同一世界观内,不会跳出设定。
结语:谷歌打造“全栈语音Agent”,国内产品同步发展
从此次发布来看,谷歌正在构建一套完整的语音能力体系,覆盖编程场景、AI硬件交互和移动端Gemini App入口等多种形态,适用于不同的使用场景。
在产品形态上,Gemini App与国内的豆包等产品在对话为核心入口方面相似,但实际体验有所不同,豆包在中文表达、语气风格以及互动感上更具特色,更容易形成用户黏性。
相比之下,谷歌当前更侧重于能力的拓展,尤其是在语音驱动开发方面,vibe coding所体现的连续修改能力和实时交互节奏,已领先于现有产品。
同时,国内在语音模型能力上的进展也在加快,阶跃星辰Step-Audio R1.1在Artificial Analysis语音推理榜单中取得第一,以96.4%的准确率领先于其他模型。
一边是谷歌不断拓展能力,另一边是国内玩家在用户规模和模型能力两端同时推进,语音Agent的竞争态势正变得愈加激烈。
一边是谷歌不断拉高能力上限,尝试覆盖更多场景;另一边是国内玩家在用户规模与模型能力两端同时推进,语音Agent的竞争态势,正愈演愈烈。
