在 Codex/Claude Code 等 Coding Agents 领域，文字是主要的输入输出方式；而在更广泛的通用 Agents 领域，特别是陪伴、实时交互等 Agents 方面，实时语音交互非常重要

meng shao(@shao__meng)

meng shao(@shao__meng)2026年5月21日

在 Codex/Claude Code 等 Coding Agents 领域，文字是主要的输入输出方式；而在更广泛的通用 Agents 领域，特别是陪伴、实时交互等 Agents 方面，实时语音交互非常重要

8.5Score

TL;DR · AI 摘要

构建Voice Agent需结合ASR、VOD、TTS、LLM及WebRTC，Agora Skills可快速集成实现低延迟实时语音交互，响应仅1秒。

核心要点

使用Agora Skills可在2-3分钟内安装并集成RTC、RTM等组件，支持快速开发Voice Agent
实时语音交互的Voice Agent响应延迟仅1秒，启动时间2-3秒，接近人类通话体验
开发者可利用Agora Skills创建陪伴型AI、虚拟伴侣或智能硬件语音交互场景

结构提纲

按章节快速跳转。

§输入输出方式对比
对比编码代理与通用代理的输入输出方式差异，强调语音交互在实时场景的重要性
·Voice Agent技术架构
解析Voice Agent所需ASR/VOD/TTS/LLM模型组合及WebRTC通信基础
·Agora Skills集成方案
详细说明Agora Skills的安装流程、功能模块及认证机制实现
·实时演示与性能验证
展示基于Codex的完整Demo开发过程及关键性能指标测试结果
·应用场景建议
提出Voice Agent在虚拟伴侣、智能硬件等领域的具体应用方向

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Voice Agent构建方案
- 技术组件
- 通信协议
- 应用场景

金句 / Highlights

值得收藏与分享的关键句。

整个 RTC、RTM、Conversational AI 启动过程在2-3秒内，很快
— 第4段
⬇︎ 下载 PNG 𝕏 分享到 X
从我说话结束，到 Voice Agent 首个语音包输出（我听到声音），1秒左右
— 第5段
⬇︎ 下载 PNG 𝕏 分享到 X
Agora Skills 的使用涉及到 Agora Token 认证，在 CLI 中也可以快速完成登录和环境变量设置保存
— 第3段
⬇︎ 下载 PNG 𝕏 分享到 X

#Voice Agent#Agora Skills#WebRTC#LLM#实时交互

打开原文

Voice Agent https://t.co/RiIgL8zyZ4" / X

在 Codex/Claude Code 等 Coding Agents 领域，文字是主要的输入输出方式；而在更广泛的通用 Agents 领域，特别是陪伴、实时交互等 Agents 方面，实时语音交互非常重要，语音的仿真生动程度、语音响应的及时性，这些都是 Voice Agent 在 LLM 基础之上要考虑的重点。 Voice Agent 的搭建过程，模型主要包括 ASR、VOD、TTS、LLM 等，而通信基础主要依靠 WebRTC 这个在直播和在线会议场景最通用的方案，前几天 OpenAI 也针对实时语音发布了 WebRTC 相关的技术方案。在 WebRTC 领域，有一个非常常用的方案团队：Agora，他们也推出了 Agora Skills，让 AI Agent 可以快速安装和理解、使用。今天咱们就看看基于 Codex 安装使用 Agora Skills 的完整过程。首先是 Agora Skills 安装，我只需要告诉 Codex：“安装 Agora Skills：github.com/AgoraIO/skills”，1-2 分钟后 Codex 自动安装完成。安装完成它向 Codex 展示 Skills 的主要内容，包括了 Agora 的 RTC、RTM、Conversational AI、CLI 等多个产品的直接集成。因为 Agora Skills 的使用涉及到 Agora Token 认证，在 CLI 中也可以快速完成登录和环境变量设置保存，在网页端登录一次后，就不需要再离开 Codex 了。然后我让 Codex 帮我用 Agora Skills 写一个 Demo：用 Agora Skills 帮我搭一个浏览器里的 voice AI agent demo，从登录 Agora、创建项目到本地跑通，把关键log和性能数据展示出来。也是完全 Codex 自动读取 Skills 后完整，我没有介入，说明 Skills 中各种能力的编排和集成做的还是很到位，也是2-3 分钟后，Demo 就写完并运行起来了。这个 Demo 的功能主要是语音实时对话，从对话体感上看，很流畅，接近于人和人之间语音通话的响应延迟，语音包和 LLM 都可以切换，这里我只做了默认集成。看几个关键数据： · 整个 RTC、RTM、Conversational AI 启动过程在2-3秒内，很快 · 从我说话结束，到 Voice Agent 首个语音包输出（我听到声音），1秒左右如果你在做 Voice Agent 方面的探索，可以接入 Agora Skills 快速验证你的想法，让你的 Agent 能实时和你对话。抛砖几个场景，朋友们可以去尝试回来再交流：给 Agent 做一个会说话的陪伴形象、虚拟男女友、把声音和形象装进智能硬件。。 github.com/AgoraIO/skills