AI语音模型全面开启：实时聆听与行动，智能化交互新时代来临

作者：世界网2026年5月8日科技3 阅读

在美国当地时间周四，OpenAI向开发者发布了三款新的音频模型，以显著提升语音智能体的交互效果，并使其实现直接执行任务的功能。

新版API的开放标志着OpenAI正从传统的“语音转录”和“文本聊天”阶段迈向构建具有实时监听、翻译及执行能力的先进智能体的新阶段。

此次推出的三款核心模型包括GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisper，所有这些模型都已经在OpenAI的开发者测试平台上上线。

每个模型都有其独特的应用场景：

GPT-Realtime-2是一款主打复杂任务处理能力的旗舰产品。它能够精确调用外部工具，并能灵活应对对话中的中断情况，在长时间交流中保持语境的一致性。

GPT-Realtime-Translate专门用于跨语言沟通，支持70多种源语言实时转换成13种目标语言，适用于智能客服和在线教育等领域。

GPT-Realtime-Whisper则专注于实时语音识别。它可以边听边生成字幕或会议记录，并能自动触发后续的工作流程更新。

目前，包括Zillow、Priceline以及德国电信在内的多家企业正在对这些模型进行早期测试。

在费用方面，GPT-Realtime-2的音频输入成本为每百万Token 32美元起；而GPT-Realtime-Translate和GPT-Realtime-Whisper的收费标准则分别为每分钟0.034美元和0.017美元。

（本文由AI翻译，网易编辑负责校对）

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

AI语音模型全面开启：实时聆听与行动，智能化交互新时代来临

在美国当地时间周四，OpenAI向开发者发布了三款新的音频模型，以显著提升语音智能体的交互效果，并使其实现直接执行任务的功能。

新版API的开放标志着OpenAI正从传统的“语音转录”和“文本聊天”阶段迈向构建具有实时监听、翻译及执行能力的先进智能体的新阶段。

此次推出的三款核心模型包括GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisper，所有这些模型都已经在OpenAI的开发者测试平台上上线。

每个模型都有其独特的应用场景：

GPT-Realtime-2是一款主打复杂任务处理能力的旗舰产品。它能够精确调用外部工具，并能灵活应对对话中的中断情况，在长时间交流中保持语境的一致性。

GPT-Realtime-Translate专门用于跨语言沟通，支持70多种源语言实时转换成13种目标语言，适用于智能客服和在线教育等领域。

GPT-Realtime-Whisper则专注于实时语音识别。它可以边听边生成字幕或会议记录，并能自动触发后续的工作流程更新。

目前，包括Zillow、Priceline以及德国电信在内的多家企业正在对这些模型进行早期测试。

在费用方面，GPT-Realtime-2的音频输入成本为每百万Token 32美元起；而GPT-Realtime-Translate和GPT-Realtime-Whisper的收费标准则分别为每分钟0.034美元和0.017美元。

（本文由AI翻译，网易编辑负责校对）