T
traeai
登录
返回首页
宝玉(@dotey)

OpenAI 在 Realtime API 里上线了三款新语音模型

8.9Score
OpenAI 在 Realtime API 里上线了三款新语音模型

TL;DR · AI 摘要

OpenAI发布了三款新语音模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper,显著提升了对话、翻译和实时转录能力。

核心要点

  • GPT-Realtime-2在Big Bench Audio智能测试上从81.4%提升到96.6%,支持更复杂的任务编排。
  • GPT-Realtime-Translate支持70多种输入语言和13种输出语言,跨境客服场景表现优异。
  • GPT-Realtime-Whisper是流式版Whisper,边说边出字幕,适用于会议、直播等场景。

结构提纲

按章节快速跳转。

  1. OpenAI发布了三款新的语音模型,分别用于对话、翻译和实时转录。

  2. GPT-Realtime-2具备GPT-5级别的推理能力,性能大幅提升。

  3. GPT-Realtime-Translate支持多语言实时翻译,特别适合跨境客服场景。

  4. GPT-Realtime-Whisper是流式版Whisper,适用于会议和直播的实时转录。

  5. 三款模型有不同的定价策略,开发者可以根据需求选择合适的模型。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • OpenAI新语音模型
    • GPT-Realtime-2
      • 性能提升
      • 复杂任务编排
    • GPT-Realtime-Translate
      • 多语言支持
      • 跨境客服
    • GPT-Realtime-Whisper
      • 流式转录
      • 会议和直播

金句 / Highlights

值得收藏与分享的关键句。

  • GPT-Realtime-2在Big Bench Audio智能测试上从81.4%提升到96.6%,Audio MultiChallenge多轮对话指令跟随从34.7%涨到48.5%。

    第2段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • GPT-Realtime-Translate支持70多种输入语言和13种输出语言,德国电信已在测试中使用。

    第3段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • GPT-Realtime-Whisper是流式版Whisper,边说边出字幕,适用于会议和直播场景。

    第4段

    ⬇︎ 下载 PNG𝕏 分享到 X
#OpenAI#语音模型#API
打开原文

【1】主角:GPT-Realtime-2

号称带 GPT-5 级别的推理能力。比上一代 GPT-Realtime-1.5,在 Big Bench Audio 智能测试上从 81.4% 涨到 96.6%,Audio" / X

OpenAI 在 Realtime API 里上线了三款新语音模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,分别管对话、翻译和实时转录。 【1】主角:GPT-Realtime-2 号称带 GPT-5 级别的推理能力。比上一代 GPT-Realtime-1.5,在 Big Bench Audio 智能测试上从 81.4% 涨到 96.6%,Audio MultiChallenge 多轮对话指令跟随从 34.7% 涨到 48.5%。 几个实际变化: 开口前会先垫一句。执行长任务前先说"我查一下""稍等一下",避免用户对着空气以为它死机了。 工具调用透明化。能同时调多个工具,过程会被念出来,比如"正在查你的日历""正在搜索",让用户听到 agent 在干什么。 上下文窗口从 32K 扩到 128K,能撑更长的对话和更复杂的任务编排。 开发者可以在 minimal 到 xhigh 五档推理强度里选,默认 low。简单问答用低延迟,复杂任务挂高推理。 出错时会说"这块我现在处理不了",不再直接卡死或乱讲。 【2】Translate 和 Whisper GPT-Realtime-Translate 支持 70 多种输入语言、13 种输出语言的实时语音翻译,主打跨境客服、教育、直播场景。德国电信已经在测;BolnaAI 在印地语、泰米尔语、泰卢固语等印度方言场景下报告错词率比其他模型低 12.5%。 GPT-Realtime-Whisper 是流式版 Whisper,边说边出字幕,主打会议、直播、客服转录。 【3】价格 GPT-Realtime-2:每百万音频输入 token $32(缓存 $0.40),输出 token $64。 GPT-Realtime-Translate:每分钟 $0.034。 GPT-Realtime-Whisper:每分钟 $0.017。 三款都已在 Realtime API 上线,Playground 可以直接试 GPT-Realtime-2。

Quote

Image 1: Square profile picture

OpenAI

@OpenAI

21h

Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice agents. Voice agents are now real-time collaborators that can listen, reason, and solve complex problems as conversations unfold. Now available in the API

Image 2

AI 可能会生成不准确的信息,请核实重要内容