语音助手革命来袭！谷歌新品让对话变高效，或成Siri升级王牌？

作者：世界网2026年3月28日科技25 阅读

江宇撰写，冰倩编辑

谷歌在3月26日的凌晨发布了其最新的语音和音频模型Gemini 3.1 Flash Live，这款模型已在Gemini应用、Search Live以及Google AI Studio中上线，其中包括一个开发者预览版本。

此次更新主要提升了实时语音代理的功能，语音可以直接控制应用开发，Gemini App的实时多模态对话功能也得到了加强，多项测试结果表明，该模型的表现优于其他同类产品。

随后，国外媒体透露，苹果计划在2026年的WWDC大会上重点展示AI技术，并计划推出新版Siri，苹果已经获得了谷歌Gemini模型的直接访问权限，计划通过蒸馏技术开发轻量级的端侧AI模型部署到iPhone上。

Gemini 3.1 Flash Live针对连续对话进行了全面优化，包括响应时间、上下文记忆、多语言处理和工具调用等关键性能的提升。

在Gemini Live中，上下文窗口扩大了一倍，Search Live在全球200多个国家和地区支持多语言实时交互，适用于连续对话和复杂任务场景。

据公开测试，此版本在语音代理的关键性能方面有显著改进。在ComplexFuncBench audio测试中，Gemini 3.1 Flash Live的函数调用准确率达到90.8%，远超先前版本的数据。

在Audio MultiChallenge音频输出榜单中，该模型得分为36.1%，领先于其他竞争对手。

该版本还特别优化了实时对话体验，模型对语调、语速和停顿的处理更加精细，在嘈杂环境中，背景噪音过滤能力增强，能更稳定地识别和执行用户指令，同时在复杂指令场景中，模型对系统约束的遵守能力也有所提升。

部分用户已经开始测试新功能，例如使用语音指令生成简短的演唱片段，这些功能可以在对话中被触发。

Gemini的API价格也已公布，文本输入每百万token约为0.5美元，输出约为4.5美元，音频输入约为3美元，输出约为12美元，支持多模态输入调用。

该模型一经发布，便引起了社区的初步反馈。一位网友评价这是“一次强大的更新”，并指出更快的语音响应在用户体验上是一个关键突破。

同时，也有用户对此持保留态度。一位开发者表示，他之前已经停止使用语音模型，因为其回复质量不如文本，对此次更新能否改变这一现状持怀疑态度。

智东西对这一功能进行了初步测试，发现其中文语音表现仍有些机械化，多轮对话过程中存在中断，目前的版本正在逐步推送，iOS和安卓用户已经开始收到更新。

一、语音驱动编程：UI、交互、风格全面革新

谷歌在此次发布中，展示了语音驱动应用开发这一场景，开发者可以在Google AI Studio里通过语音进行应用开发，使开发过程更加流畅。

用户可以通过语音连续调整界面。例如，用户可以直接提出修改：“把麦克风做大一点”，界面随即发生变化；随后补充说：“背景加点黄色波点”，页面背景立刻更新。

用户继续提出各种需求，如加入“鼠标悬停时的反馈效果”和“背景图案持续滚动”，所有改动都在对话中逐步完成。

用户一边说，界面一边变化。中途用户又改变主意：“干脆整体做成波普风”，模型随即在已有基础上重新设计视觉风格，整个过程类似于与设计师的一对一实时沟通。

二、设计协作、跨语言对话、角色扮演，三种场景同时实现

谷歌还展示了三种实际应用场景，包括设计协作、跨语言对话以及游戏中的角色互动。

在设计工具Stitch的案例中，语音可以直接参与到界面编辑流程中。用户先让界面跳到“练习模式”，再切到“歌曲库”，随后开始提问：“这些虚线和方形边框看着有点硬，能不能让数字更贴合圆形？”界面随即往更简洁的方向调整。紧接着又换了一种思路：“试一个偏棕色、木质一点的配色”，新的视觉版本便直接生成出来。

在AI硬件设备Ato的交互案例中，重点在于多语言对话的连续性，对话内容围绕日常问候和陪伴展开，用户可以自由切换语言，不会中断对话。

对话中一旦插入真实场景的信息，如“刚从医院出来有点累”，模型会根据语境回应，给出连续的交流。

在RPG游戏《Wit’s End》的案例中，语音被用来驱动角色本身。玩家提问时，模型会用设定的语气回应，保持在同一世界观内，不会跳出设定。

结语：谷歌打造“全栈语音Agent”，国内产品同步发展

从此次发布来看，谷歌正在构建一套完整的语音能力体系，覆盖编程场景、AI硬件交互和移动端Gemini App入口等多种形态，适用于不同的使用场景。

在产品形态上，Gemini App与国内的豆包等产品在对话为核心入口方面相似，但实际体验有所不同，豆包在中文表达、语气风格以及互动感上更具特色，更容易形成用户黏性。

相比之下，谷歌当前更侧重于能力的拓展，尤其是在语音驱动开发方面，vibe coding所体现的连续修改能力和实时交互节奏，已领先于现有产品。

同时，国内在语音模型能力上的进展也在加快，阶跃星辰Step-Audio R1.1在Artificial Analysis语音推理榜单中取得第一，以96.4%的准确率领先于其他模型。

一边是谷歌不断拓展能力，另一边是国内玩家在用户规模和模型能力两端同时推进，语音Agent的竞争态势正变得愈加激烈。

一边是谷歌不断拉高能力上限，尝试覆盖更多场景；另一边是国内玩家在用户规模与模型能力两端同时推进，语音Agent的竞争态势，正愈演愈烈。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

语音助手革命来袭！谷歌新品让对话变高效，或成Siri升级王牌？

作者：世界网2026年3月28日科技25 阅读

江宇撰写，冰倩编辑

Gemini 3.1 Flash Live针对连续对话进行了全面优化，包括响应时间、上下文记忆、多语言处理和工具调用等关键性能的提升。

在Gemini Live中，上下文窗口扩大了一倍，Search Live在全球200多个国家和地区支持多语言实时交互，适用于连续对话和复杂任务场景。

在Audio MultiChallenge音频输出榜单中，该模型得分为36.1%，领先于其他竞争对手。

部分用户已经开始测试新功能，例如使用语音指令生成简短的演唱片段，这些功能可以在对话中被触发。

Gemini的API价格也已公布，文本输入每百万token约为0.5美元，输出约为4.5美元，音频输入约为3美元，输出约为12美元，支持多模态输入调用。

该模型一经发布，便引起了社区的初步反馈。一位网友评价这是“一次强大的更新”，并指出更快的语音响应在用户体验上是一个关键突破。

一、语音驱动编程：UI、交互、风格全面革新

谷歌在此次发布中，展示了语音驱动应用开发这一场景，开发者可以在Google AI Studio里通过语音进行应用开发，使开发过程更加流畅。

用户继续提出各种需求，如加入“鼠标悬停时的反馈效果”和“背景图案持续滚动”，所有改动都在对话中逐步完成。

二、设计协作、跨语言对话、角色扮演，三种场景同时实现

谷歌还展示了三种实际应用场景，包括设计协作、跨语言对话以及游戏中的角色互动。

在AI硬件设备Ato的交互案例中，重点在于多语言对话的连续性，对话内容围绕日常问候和陪伴展开，用户可以自由切换语言，不会中断对话。

对话中一旦插入真实场景的信息，如“刚从医院出来有点累”，模型会根据语境回应，给出连续的交流。

在RPG游戏《Wit’s End》的案例中，语音被用来驱动角色本身。玩家提问时，模型会用设定的语气回应，保持在同一世界观内，不会跳出设定。

结语：谷歌打造“全栈语音Agent”，国内产品同步发展

从此次发布来看，谷歌正在构建一套完整的语音能力体系，覆盖编程场景、AI硬件交互和移动端Gemini App入口等多种形态，适用于不同的使用场景。

相比之下，谷歌当前更侧重于能力的拓展，尤其是在语音驱动开发方面，vibe coding所体现的连续修改能力和实时交互节奏，已领先于现有产品。

同时，国内在语音模型能力上的进展也在加快，阶跃星辰Step-Audio R1.1在Artificial Analysis语音推理榜单中取得第一，以96.4%的准确率领先于其他模型。

一边是谷歌不断拓展能力，另一边是国内玩家在用户规模和模型能力两端同时推进，语音Agent的竞争态势正变得愈加激烈。

一边是谷歌不断拉高能力上限，尝试覆盖更多场景；另一边是国内玩家在用户规模与模型能力两端同时推进，语音Agent的竞争态势，正愈演愈烈。

“”

语音助手革命来袭！谷歌新品让对话变高效，或成Siri升级王牌？

语音助手革命来袭！谷歌新品让对话变高效，或成Siri升级王牌？

相关文章

相关文章