
在美国当地时间周四,OpenAI向开发者发布了三款新的音频模型,以显著提升语音智能体的交互效果,并使其实现直接执行任务的功能。
新版API的开放标志着OpenAI正从传统的“语音转录”和“文本聊天”阶段迈向构建具有实时监听、翻译及执行能力的先进智能体的新阶段。
此次推出的三款核心模型包括GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisper,所有这些模型都已经在OpenAI的开发者测试平台上上线。
每个模型都有其独特的应用场景:
GPT-Realtime-2是一款主打复杂任务处理能力的旗舰产品。它能够精确调用外部工具,并能灵活应对对话中的中断情况,在长时间交流中保持语境的一致性。
GPT-Realtime-Translate专门用于跨语言沟通,支持70多种源语言实时转换成13种目标语言,适用于智能客服和在线教育等领域。
GPT-Realtime-Whisper则专注于实时语音识别。它可以边听边生成字幕或会议记录,并能自动触发后续的工作流程更新。
目前,包括Zillow、Priceline以及德国电信在内的多家企业正在对这些模型进行早期测试。
在费用方面,GPT-Realtime-2的音频输入成本为每百万Token 32美元起;而GPT-Realtime-Translate和GPT-Realtime-Whisper的收费标准则分别为每分钟0.034美元和0.017美元。
(本文由AI翻译,网易编辑负责校对)
