南通海绵胶 AI有嘴了，OpenAI连发三语音模型

新闻资讯 | 2026-05-12 09:35

文 | 字母 AI南通海绵胶

昨天凌晨，OpenAI 发布了三款音频模型：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。

OpenAI 官网的表述是，新模型可以让开发者构建能在用户说话时"理、翻译和转写"的实时语音产品。三款模型已经开放给开发者测试。

这次新的在于三款模型不同场景分工。

GPT-Realtime-2 面向实时语音 Agent 场景，它是 OpenAI 个具备" GPT-5 理"的语音模型，可以处理复杂请求，调用工具，处理中途断，并在长语音会话中维持上下文。

GPT-Realtime-Translate 面向实时语音翻译场景，支持 70 多种输入语言到 13 种输出语言。

GPT-Realtime-Whisper 面向实时语音转写，可以在人说话时生成文本，用于字幕、会议记录和工作流新。

价格也同步公布。GPT-Realtime-2 按 token 计费，音频输入起价为 32 美元 / 百万 token，音频输出为 64 美元 / 百万 token；GPT-Realtime-Translate 按分钟计费，价格为 0.034 美元 / 分钟；GPT-Realtime-Whisper 同样按分钟计费，价格为 0.017 美元 / 分钟。

相关报道显示，些企业用户包括 Zillow、Priceline 和德国电信在内的知名厂商已经在测试这些模型。

这是 OpenAI 过去年语音路线的次延伸。

2024 年，OpenAI 先把 ChatGPT 语音模式背后的低延迟语音能力开放给开发者；2025 年 8 月，OpenAI 出个正式版 Gpt-Realtime，开始面向生产语音 Agent。

今年 2 月，Gpt-Realtime-1.5 成为上代主力模型，用于语音 Agent 和客服场景。再到今天的 2.0 版本的三大模型矩阵，这像 Realtime 产品线从体验走向企业 API 的次版本升。

从对话走向执行

先来看 GPT-Realtime-2南通海绵胶，按照 OpenAI 官的说法，这是款具备" GPT-5 理"的语音模型。这个模型被设计用于处理复杂请求、调用工具、处理中断，并在长的语音会话里保持上下文。

这些能力对应的是语音 Agent 落地时常见的问题。

GPT-Realtime-2 把上下文窗口从 32K 提升到 128K。这个参数对长会话场景有直接意义。比如个用户想要针对某套房产做咨询、或者想要改签机票，这些场景都可能包含大量条件和多轮确认。

上下文窗口扩大后，模型可以在长的实时对话里保留前面出现过的限制、偏好和业务信息。

工具调用也是这次新里的关键词。RealtimeAPI 可以用于构建会调用工具的语音体验。应用可以保持实时会话连接，连续发送音频，接收模型事件，新会话状态，并把外部系统返回的结果再交给模型继续回应。

美国房地产信息查询网站 Zillow，成为了 OpenAI 官的批企业案例。

OpenAI 在官网中提到，Zillow 正在用 GPT-Realtime-2 构建可以理解住房条件并安排看房的语音助手。Zillow 面表示，在困难的对抗测试中，经过 prompt 优化后，电话任务成功率从 69 提升到 95，FairHousing 相关规表现也稳定。

Fair Housing 指美国住房交易中的反歧视规要求，房产平台不能在买、租赁、贷款或经纪服务中，基于种族、宗教、别、残障、庭状况、国籍等因素区别对待用户。

从"能说"到"会说"，这可能是 GPT-Realtime-2 给予行业的大震撼。

Booking 子公司、知名旅行优惠平台 Priceline，则代表另类语音模型的落地场景。

据了解，Priceline 也在测试 GPT-Realtime-2 系列。旅游预订的链条很长，用户可能要查航班、订酒店、调整日期、处理延误、比较价格，还可能在境外需要翻译。语音 Agent 如果能稳定接入后台系统，就有机会把"问答"进到"办事"。

奥力斯 pvc管道管件胶批发联系人：王经理手机：15226765735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

OpenAI 提到的另个已知客户是德国电信。电信行业有大规模坐席、复杂套餐、故障处理、多语言服务和账单解释，也是语音模型落地的场景。

GPT-Realtime-2 还有个细节是可调理强度。

OpenAI 开发者文档提到，GPT-Realtime-2 把理能力带入语音到语音工作流。多数生产场景可以先使用较低的理强度南通海绵胶，优先保证通话里的响应速度；遇到复杂的客服、预订、排障任务，再提理强度，用多计换取完整的判断。

这个细节很重要。语音交互比文字聊天怕停顿。用户在电话里等待两秒，会明显感到卡顿。理越强，延迟压力越大。在能和响应的平衡上，不同的开发者在这个问题上会有定取舍。。

官也给出了些测试数据。OpenAI 称，GPT-Realtime-2 在 Big Bench Audio 上比 GPT-Realtime-1.5 15.2，在 Audio MultiChallenge 上 13.8。这两个指标用于衡量模型在音频输入、多轮语音、复杂指令和上下文整面的能力。

二款模型是 GPT-Realtime-Translate。

按 OpenAI 面向开发者的示例说明，GPT-Realtime-Translate 主实时语音到语音翻译，适广播、直播、电话和对话。它会自动识别输入语言，并输出翻译后的语音和文本。开发者只需要设定目标语言。

这个模型支持 70 多种输入语言到 13 种输出语言。OpenAI 称，它可以在说话人讲话时跟上节奏。开发者文档还提到，传统语音翻译常常要求说话人停顿，系统等句话结束后再翻译；而 GPT-Realtime-Translate 接近连续口译的形态。

OpenAI 把它的场景分成两类。

类是广播式翻译，比如直播、网络研讨会、讲座、财报电话会和大型会议演讲。另类是对话式翻译，比如呼叫中心、通话和电话工作流。这两个类别基本覆盖了企业愿意付费的跨语言场景：客服、教育、会议、内容平台、跨境销售和企业培训。

三款模型是 GPT-Realtime-Whisper。

GPT-Realtime-Whisper 强调实时流式转写。它可以在说话人讲话时生成字幕、会议记录和工作流新。相比起前两个模型，Whisper 的商业门槛低。它的价格仅为 0.017 美元 / 分钟。

三款模型放在起看，OpenAI 已经把实时音频拆成了三个明确入口：GPT-Realtime-2 处理语音 Agent，GPT-Realtime-Translate 处理跨语言沟通，GPT-Realtime-Whisper 处理实时文本化。

三者的价格、延迟要求和客户场景都不同，奥特曼想要在差异化路线上"通吃"语音 AI 市场。

TTS 市场卷完"声音质量"卷"实时"

这次发布还有个很清楚的商业信号：OpenAI 正在把语音 AI 能力，PVC管道管件粘结胶向 API 市场和企业工作流。

除了 OpenAI 官提到的 Zillow、Priceline 和德国电信三大测试客户，多公司也在把这批语音模型接进自己的产品。

比如平台 Vimeo、企业知识管理工具 Glean、客服软件公司 Intercom南通海绵胶，以及面向企业语音 Agent 的 BolnaAI，都出现在目前披露的相关案例中。

换句话说，GPT-Realtime 系列已经成为了 OpenAI 的个成熟的商业化版图，客户覆盖内容平台、企业办公、客服系统和语音 Agent 创业公司等多类开发者。

OpenAI 展示的是组真实业务中的场景：AI 在通话中理解需求、调用系统、翻译语言，并把语音交互接进企业后台。

而这切，正好发生在语音 AI 市场继续升温的周期里。

过去两年，语音 AI 赛道受关注的公司之是 ElevenLabs。这公司 2022 年成立，早靠度拟真的 AI 配音、声音克隆、多语言配音和内容本地化出圈，后来又把产品往企业语音 Agent 延伸。今年 2 月，ElevenLabs 宣布完成 5 亿美元 D 轮融资，估值达到 110 亿美元。

这估值较 2025 年 1 月的 33 亿美元大幅上升。公司称，这笔资金将用于全球扩张，并继续投入情感化对话模型、配音、转写和 AI 语音 Agent 等向。

近的动态是，ElevenLabs 在近期披露，公司年化经常收入已经过 5 亿美元，并公布了多参与 D 轮融资的新投资。

其中既包括贝莱德、惠灵顿管理等大型机构，也包括英伟达、赛富时创投、德国电信等产业。甚至演员 Jamie Foxx、Eva Longoria 以及《鱿鱼游戏》创作者黄东赫等个人投资者，也出现在这轮投资名单中。

面对着日益增长的需求，语音 AI 已经不只是创作者的配音工具。影视、广告、游戏、教育、企业培训、障碍服务、内容出海和电话 Agent，都在消耗自然、便宜、可控的机器声音。

Deepgram 代表另种路线。

这公司长期做语音识别基础设施，客户多来自联络中心、会议、销售、医疗、金融等频语音场景。近年，Deepgram 开始补上文本转语音和语音 Agent 接口，试图通语音模型的办事场景。

Deepgram 披露的信息显示，旗下 Aura-2 文本转语音面向实时语音应用，流式延迟低于 200 毫秒，并支持对地址、电话号码、字母数字组等结构化内容做自然的朗读。

它还把语音识别、语音成、实时情绪分析、话题检测和摘要能力，放进联络中心等企业场景。

Cartesia 则主低延迟和实时交互。

这公司由前斯坦福 AI 实验室成员创办，技术标签是状态空间模型，主快、低成本的实时多模态模型。

它的语音产品 Sonic 系列，核心点是低延迟文本转语音。Cartesia 的 Sonic 3 文档称，它是个流式文本转语音模型，强调自然度、准确跟随文本和低延迟；Sonic 3 支持 42 种语言，也支持音量、语速和情绪控制。

在 Cartesia 官网上，可以看到这公司把 90 毫秒低延迟作为实时对话体验的点。

这些公司共同动了 TTS 市场的变化。

早期 TTS 竞争主要看声音像不像真人。之后，行业开始比多语言覆盖、声音克隆、情绪表达、版权授权和配音率。

现在，语音 Agent 把要求抬了。企业不只要个好听的声音，还要完整链路：语音识别要准，字延迟要低，大模型要能理解上下文，工具调用要稳定，语音成要自然，翻译要连续，转写还要能进入后续工作流。

些行业材料也反映了这个趋势。Deepgram 在 TTS 对比文章中提到，面向语音 Agent 的文本转语音，已经把"段语音生成低于 100 毫秒"视为新的基线之。

在行业内都在竞相卷"实时"的背景下，OpenAI 大的优势来自模型栈。

OpenAI 可以把整个企业调用 TTS 的链路，放到同个开发者平台里。对开发者来说，少接几个供应商，就少些延迟、集成和运维成本。对企业来说，统平台也容易做权限管理、日志留存、数据策略和安全审查。

不过，OpenAI 想要通吃企业语音市场，也没那么容易。

ElevenLabs 已跑到 110 亿美元估值、过 5 亿美元年化收入；Deepgram 今年 1 月完成 1.3 亿美元融资，估值 13 亿美元，服务 1300 多客户；Cartesia 也在 2025 年完成 6400 万美元 A 轮融资，Sonic 模型据称已有 1 万多客户使用，并以 90 毫秒模型延迟、42 种语言主实时语音。

OpenAI 有模型栈优势，但语音市场并不缺少强势玩。

奥特曼对这次发布的公开表态很短。他在 X 上称，GPT-Realtime-2 进入 API 是"相当大的步前进"，同时 OpenAI 还在继续改进 ChatGPT 里的语音体验。

只是从各大企业用户争相测试的情况来看，OpenAI 的新代语音模型，足以让人期待他在接下来这年的市场表现。

相关词条:铁皮保温施工隔热条设备锚索离心玻璃棉万能胶生产厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定南通海绵胶，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

上一篇：枣庄家具封边胶日本市内阁动设立“国情报局”影响几何分析

下一篇：海东海绵胶英国地选举过后，英镑汇率或将承压走弱