OpenAI接连发布三项突破性语音技术

作者：世界网2026年5月8日科技4 阅读

昨日深夜，OpenAI推出了三款音频技术产品：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。

新发布的模型旨在帮助开发者构建能够即时推理、翻译及转写的语音应用。目前，这三款工具已经面向开发者开放测试。

此次更新的重点在于各产品的具体应用场景划分。

GPT-Realtime-2专为实时语音代理设计，是首个具备“GPT-5级推理”能力的音频模型，能够在复杂请求处理、工具调用及长时间对话保持上下文方面提供支持。

面向实时翻译场景的是GPT-Realtime-Translate，它能够支持70多种输入语言到13种输出语言之间的转换。

GPT-Realtime-Whisper则专注于实时语音转录功能，在用户讲话时生成相应文本，适用于字幕制作、会议记录和工作流程更新等场景。

关于定价，GPT-Realtime-2按令牌计费，音频输入的起价为每百万令牌32美元，输出则为64美元；GPT-Realtime-Translate以分钟为单位收费，价格是0.034美元/分钟；而GPT-Realtime-Whisper同样根据使用时间计算费用，单价为0.017美元/分钟。

这标志着OpenAI在过去一年内语音技术路线的进一步扩展。

2024年，OpenAI率先将ChatGPT高级版中的低延迟语音功能提供给开发者；到了2025年8月，首个正式版本的Gpt-Realtime发布，并开始应用于生产级语音代理领域。

自今年二月份以来，Gpt-Realtime-1.5作为上一代核心模型用于语音代理和客户服务场景。如今推出的三个新版本则标志着从用户体验功能到企业API的一次重要升级。

从对话走向执行

GPT-Realtime-2是官方首次宣布的具有“GPT-5级推理”的音频模型，适用于处理复杂请求、工具调用及长时间对话中维持上下文等功能需求。

这些能力直接对应了语音代理实施过程中的常见挑战。

GPT-Realtime-2将上下文窗口从32K扩展到128K。这一改进对于处理长会话特别有用，如房地产咨询或机票改签时的多轮对话。

扩大后的上下文窗口让模型在长时间实时对话中能更好地记忆先前的信息、偏好和业务细节。

工具调用是此次更新的一个关键特性。通过RealtimeAPI构建的语音体验可以连接到外部系统，发送音频指令并接收反馈，从而实现持续互动。

美国房产网站Zillow成为了OpenAI首批合作企业之一。

Zillow利用GPT-Realtime-2开发了一款能够理解和安排房屋看房预约的语音助手。据称，在经过优化提示后，该系统在最艰难的情境测试中，通话成功率从69%提升至95%，并且符合美国公平住房法案的相关规定。

公平住房法禁止基于种族、宗教信仰等因素的歧视行为，要求房地产交易过程中不得有任何形式的区别对待。

GPT-Realtime-2不仅提升了语音代理的能力，还可能在行业内引发新的变革。

旅游预订平台Priceline也在测试GPT-Realtime-2系列模型的应用潜力。

Priceline表示，在旅行安排过程中涉及多个步骤的情况下，这款新工具有望将“问答”服务提升至“任务处理”的更高层次。

德国电信公司是另一个采用GPT-Realtime-2技术的客户实例。该行业通常需要大量的客服坐席、复杂的套餐选项以及多语言支持等特性，因此非常适合语音代理模型的应用场景。

GPT-Realtime-2还具备可调节推理强度的特点。

根据OpenAI发布的开发者文档介绍，在大多数生产环境中可以先使用较低的计算资源来保证通话响应速度；对于更复杂的任务，则可以通过增加推理强度获得更好的效果判断。

随着语音人工智能市场的持续升温，越来越多的企业开始重视这种技术带来的便利性和效率提升。

近年来，ElevenLabs作为该领域的一颗新星迅速崛起。该公司提供高度逼真的AI配音、多语种支持及企业级语音代理解决方案等服务，在成立之初即获得市场广泛关注。

在今年二月完成的D轮融资中，ElevenLabs估值达到110亿美元，并计划将资金用于全球扩张和技术创新方面。

近期该公司透露，其年化经常性收入已超过5亿美元，并且有多家机构和个人投资者参与了这轮投资。

随着市场需求的增长，语音AI技术已经不再局限于创作领域的应用。如今它被广泛应用于影视制作、游戏开发、教育培训和客户服务等多个行业。

Deepgram公司则是另一种商业模式的代表者，专注于为高频语音场景提供基础设施支持。

通过一系列创新产品和服务，Deepgram正努力打通从语音识别到语音合成再到文本转语音的一体化流程，使得企业可以更加高效地利用这些技术解决实际问题。

Cartesia公司则以低延迟和实时交互为主要卖点，致力于打造更快捷、更经济的多模态模型解决方案。

其产品Sonic系列能够支持42种语言，并具备音量控制等功能特点，在行业内颇具竞争力。

这些企业的共同作用使得文本转语音市场发生了显著变化。从早期的声音模仿能力竞争，到后来的语言覆盖范围、情绪表达及版权授权等方面的较量，再到如今企业级应用对实时性能的要求越来越高。

OpenAI在这一领域中最大的优势在于其集成化的模型栈技术，这为开发者提供了更高效便捷的开发环境。

然而面对强劲的竞争者如ElevenLabs、Deepgram和Cartesia等公司的挑战，OpenAI要想完全占领市场并非易事。

OpenAI创始人奥特曼对此次发布表示乐观，并强调GPT-Realtime-2进入API平台是公司向前迈进的一大步。同时他还透露将继续优化ChatGPT中的语音体验功能。

从当前各大企业争相测试的情况来看，OpenAI的新一代语音模型有望在未来一年内展现出强劲的市场表现力。

比如视频平台Vimeo、企业知识管理工具Glean、客服软件公司Intercom，以及面向企业语音Agent的BolnaAI，都出现在目前披露的相关案例中。

换句话说，GPT-Realtime系列已经成为了OpenAI的一个成熟的商业化版图，客户覆盖内容平台、企业办公、客服系统和语音Agent创业公司等多类开发者。

OpenAI展示的是一组真实业务中的场景：AI在通话中理解需求、调用系统、翻译语言，并把语音交互接进企业后台。

而这一切，正好发生在语音AI市场继续升温的周期里。

过去两年，语音AI赛道最受关注的公司之一是ElevenLabs。这家公司2022年成立，最早靠高度拟真的AI配音、声音克隆、多语言配音和内容本地化出圈，后来又把产品往企业语音Agent延伸。今年2月，ElevenLabs宣布完成5亿美元D轮融资，估值达到110亿美元。

这一估值较2025年1月的33亿美元大幅上升。公司称，这笔资金将用于全球扩张，并继续投入情感化对话模型、配音、转写和AI语音Agent等方向。

更近的动态是，ElevenLabs在近期披露，公司年化经常性收入已经超过5亿美元，并公布了更多参与D轮融资的新投资方。

其中既包括贝莱德、惠灵顿管理等大型机构，也包括英伟达、赛富时创投、德国电信等产业方。甚至演员Jamie Foxx、Eva Longoria以及《鱿鱼游戏》创作者黄东赫等个人投资者，也出现在这轮投资名单中。

面对着日益增长的需求，语音AI已经不只是创作者的配音工具。影视、广告、游戏、教育、企业培训、无障碍服务、内容出海和电话Agent，都在消耗更自然、更便宜、更可控的机器声音。

Deepgram代表另一种路线。

这家公司长期做语音识别基础设施，客户更多来自联络中心、会议、销售、医疗、金融等高频语音场景。近年，Deepgram开始补上文本转语音和语音Agent接口，试图打通语音模型的办事场景。

Deepgram披露的信息显示，旗下Aura-2文本转语音面向实时语音应用，流式延迟低于200毫秒，并支持对地址、电话号码、字母数字组合等结构化内容做更自然的朗读。

它还把语音识别、语音合成、实时情绪分析、话题检测和摘要能力，放进联络中心等企业场景。

Cartesia则主打低延迟和实时交互。

这家公司由前斯坦福AI实验室成员创办，技术标签是状态空间模型，主打更快、更低成本的实时多模态模型。

它的语音产品Sonic系列，核心卖点是低延迟文本转语音。Cartesia的Sonic 3文档称，它是一个流式文本转语音模型，强调高自然度、准确跟随文本和低延迟；Sonic 3支持42种语言，也支持音量、语速和情绪控制。

在Cartesia官网上，可以看到这家公司把90毫秒低延迟作为实时对话体验的卖点。

这些公司共同推动了TTS市场的变化。

早期TTS竞争主要看声音像不像真人。之后，行业开始比多语言覆盖、声音克隆、情绪表达、版权授权和配音效率。

现在，语音Agent把要求抬高了。企业不只要一个好听的声音，还要完整链路：语音识别要准，首字延迟要低，大模型要能理解上下文，工具调用要稳定，语音合成要自然，翻译要连续，转写还要能进入后续工作流。

一些行业材料也反映了这个趋势。Deepgram在TTS对比文章中提到，面向语音Agent的文本转语音，已经把“首段语音生成低于100毫秒”视为新的基线之一。

在行业内都在竞相卷“实时”的背景下，OpenAI最大的优势来自模型栈。

OpenAI可以把整个企业调用TTS的链路，放到同一个开发者平台里。对开发者来说，少接几个供应商，就少一些延迟、集成和运维成本。对企业来说，统一平台也更容易做权限管理、日志留存、数据策略和安全审查。

不过，OpenAI想要通吃企业语音市场，也没那么容易。

ElevenLabs已跑到110亿美元估值、超过5亿美元年化收入；Deepgram今年1月完成1.3亿美元融资，估值13亿美元，服务1300多家客户；Cartesia也在2025年完成6400万美元A轮融资，Sonic模型据称已有1万多客户使用，并以90毫秒模型延迟、42种语言主打实时语音。

OpenAI有模型栈优势，但语音市场并不缺少强势玩家。

奥特曼对这次发布的公开表态很短。他在X上称，GPT-Realtime-2进入API是“相当大的一步前进”，同时OpenAI还在继续改进ChatGPT里的语音体验。

只是从各大企业用户争相测试的情况来看，OpenAI的新一代语音模型，足以让人期待他在接下来这一年的市场表现。

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

OpenAI接连发布三项突破性语音技术

作者：世界网2026年5月8日科技4 阅读

昨日深夜，OpenAI推出了三款音频技术产品：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。

新发布的模型旨在帮助开发者构建能够即时推理、翻译及转写的语音应用。目前，这三款工具已经面向开发者开放测试。

此次更新的重点在于各产品的具体应用场景划分。

面向实时翻译场景的是GPT-Realtime-Translate，它能够支持70多种输入语言到13种输出语言之间的转换。

GPT-Realtime-Whisper则专注于实时语音转录功能，在用户讲话时生成相应文本，适用于字幕制作、会议记录和工作流程更新等场景。

这标志着OpenAI在过去一年内语音技术路线的进一步扩展。

2024年，OpenAI率先将ChatGPT高级版中的低延迟语音功能提供给开发者；到了2025年8月，首个正式版本的Gpt-Realtime发布，并开始应用于生产级语音代理领域。

从对话走向执行

GPT-Realtime-2是官方首次宣布的具有“GPT-5级推理”的音频模型，适用于处理复杂请求、工具调用及长时间对话中维持上下文等功能需求。

这些能力直接对应了语音代理实施过程中的常见挑战。

GPT-Realtime-2将上下文窗口从32K扩展到128K。这一改进对于处理长会话特别有用，如房地产咨询或机票改签时的多轮对话。

扩大后的上下文窗口让模型在长时间实时对话中能更好地记忆先前的信息、偏好和业务细节。

工具调用是此次更新的一个关键特性。通过RealtimeAPI构建的语音体验可以连接到外部系统，发送音频指令并接收反馈，从而实现持续互动。

美国房产网站Zillow成为了OpenAI首批合作企业之一。

公平住房法禁止基于种族、宗教信仰等因素的歧视行为，要求房地产交易过程中不得有任何形式的区别对待。

GPT-Realtime-2不仅提升了语音代理的能力，还可能在行业内引发新的变革。

旅游预订平台Priceline也在测试GPT-Realtime-2系列模型的应用潜力。

Priceline表示，在旅行安排过程中涉及多个步骤的情况下，这款新工具有望将“问答”服务提升至“任务处理”的更高层次。

GPT-Realtime-2还具备可调节推理强度的特点。

随着语音人工智能市场的持续升温，越来越多的企业开始重视这种技术带来的便利性和效率提升。

在今年二月完成的D轮融资中，ElevenLabs估值达到110亿美元，并计划将资金用于全球扩张和技术创新方面。

近期该公司透露，其年化经常性收入已超过5亿美元，并且有多家机构和个人投资者参与了这轮投资。

随着市场需求的增长，语音AI技术已经不再局限于创作领域的应用。如今它被广泛应用于影视制作、游戏开发、教育培训和客户服务等多个行业。

Deepgram公司则是另一种商业模式的代表者，专注于为高频语音场景提供基础设施支持。

Cartesia公司则以低延迟和实时交互为主要卖点，致力于打造更快捷、更经济的多模态模型解决方案。

其产品Sonic系列能够支持42种语言，并具备音量控制等功能特点，在行业内颇具竞争力。

OpenAI在这一领域中最大的优势在于其集成化的模型栈技术，这为开发者提供了更高效便捷的开发环境。

然而面对强劲的竞争者如ElevenLabs、Deepgram和Cartesia等公司的挑战，OpenAI要想完全占领市场并非易事。

OpenAI创始人奥特曼对此次发布表示乐观，并强调GPT-Realtime-2进入API平台是公司向前迈进的一大步。同时他还透露将继续优化ChatGPT中的语音体验功能。

从当前各大企业争相测试的情况来看，OpenAI的新一代语音模型有望在未来一年内展现出强劲的市场表现力。

比如视频平台Vimeo、企业知识管理工具Glean、客服软件公司Intercom，以及面向企业语音Agent的BolnaAI，都出现在目前披露的相关案例中。

换句话说，GPT-Realtime系列已经成为了OpenAI的一个成熟的商业化版图，客户覆盖内容平台、企业办公、客服系统和语音Agent创业公司等多类开发者。

OpenAI展示的是一组真实业务中的场景：AI在通话中理解需求、调用系统、翻译语言，并把语音交互接进企业后台。

而这一切，正好发生在语音AI市场继续升温的周期里。

这一估值较2025年1月的33亿美元大幅上升。公司称，这笔资金将用于全球扩张，并继续投入情感化对话模型、配音、转写和AI语音Agent等方向。

更近的动态是，ElevenLabs在近期披露，公司年化经常性收入已经超过5亿美元，并公布了更多参与D轮融资的新投资方。

Deepgram代表另一种路线。

它还把语音识别、语音合成、实时情绪分析、话题检测和摘要能力，放进联络中心等企业场景。

Cartesia则主打低延迟和实时交互。

这家公司由前斯坦福AI实验室成员创办，技术标签是状态空间模型，主打更快、更低成本的实时多模态模型。

在Cartesia官网上，可以看到这家公司把90毫秒低延迟作为实时对话体验的卖点。

这些公司共同推动了TTS市场的变化。

早期TTS竞争主要看声音像不像真人。之后，行业开始比多语言覆盖、声音克隆、情绪表达、版权授权和配音效率。

一些行业材料也反映了这个趋势。Deepgram在TTS对比文章中提到，面向语音Agent的文本转语音，已经把“首段语音生成低于100毫秒”视为新的基线之一。

在行业内都在竞相卷“实时”的背景下，OpenAI最大的优势来自模型栈。

不过，OpenAI想要通吃企业语音市场，也没那么容易。

OpenAI有模型栈优势，但语音市场并不缺少强势玩家。

奥特曼对这次发布的公开表态很短。他在X上称，GPT-Realtime-2进入API是“相当大的一步前进”，同时OpenAI还在继续改进ChatGPT里的语音体验。

只是从各大企业用户争相测试的情况来看，OpenAI的新一代语音模型，足以让人期待他在接下来这一年的市场表现。

“”

OpenAI接连发布三项突破性语音技术

OpenAI接连发布三项突破性语音技术

相关文章

相关文章