在 Codex/Claude Code 等 Coding Agents 领域,文字是主要的输入输出方式;而在更广泛的通用 Agents 领域,特别是陪伴、实时交互等 Agents 方面,实时语音交互非常重要

TL;DR · AI 摘要
构建Voice Agent需结合ASR、VOD、TTS、LLM及WebRTC,Agora Skills可快速集成实现低延迟实时语音交互,响应仅1秒。
核心要点
- 使用Agora Skills可在2-3分钟内安装并集成RTC、RTM等组件,支持快速开发Voice Agent
- 实时语音交互的Voice Agent响应延迟仅1秒,启动时间2-3秒,接近人类通话体验
- 开发者可利用Agora Skills创建陪伴型AI、虚拟伴侣或智能硬件语音交互场景
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Voice Agent构建方案
- 技术组件
- 通信协议
- 应用场景
金句 / Highlights
值得收藏与分享的关键句。
整个 RTC、RTM、Conversational AI 启动过程在2-3秒内,很快
从我说话结束,到 Voice Agent 首个语音包输出(我听到声音),1秒左右
Agora Skills 的使用涉及到 Agora Token 认证,在 CLI 中也可以快速完成登录和环境变量设置保存
Voice Agent https://t.co/RiIgL8zyZ4" / X
在 Codex/Claude Code 等 Coding Agents 领域,文字是主要的输入输出方式;而在更广泛的通用 Agents 领域,特别是陪伴、实时交互等 Agents 方面,实时语音交互非常重要,语音的仿真生动程度、语音响应的及时性,这些都是 Voice Agent 在 LLM 基础之上要考虑的重点。 Voice Agent 的搭建过程,模型主要包括 ASR、VOD、TTS、LLM 等,而通信基础主要依靠 WebRTC 这个在直播和在线会议场景最通用的方案,前几天 OpenAI 也针对实时语音发布了 WebRTC 相关的技术方案。 在 WebRTC 领域,有一个非常常用的方案团队:Agora,他们也推出了 Agora Skills,让 AI Agent 可以快速安装和理解、使用。 今天咱们就看看基于 Codex 安装使用 Agora Skills 的完整过程。 首先是 Agora Skills 安装,我只需要告诉 Codex:“安装 Agora Skills:github.com/AgoraIO/skills”,1-2 分钟后 Codex 自动安装完成。 安装完成它向 Codex 展示 Skills 的主要内容,包括了 Agora 的 RTC、RTM、Conversational AI、CLI 等多个产品的直接集成。因为 Agora Skills 的使用涉及到 Agora Token 认证,在 CLI 中也可以快速完成登录和环境变量设置保存,在网页端登录一次后,就不需要再离开 Codex 了。 然后我让 Codex 帮我用 Agora Skills 写一个 Demo:用 Agora Skills 帮我搭一个浏览器里的 voice AI agent demo,从登录 Agora、创建项目到本地跑通,把关键log和性能数据展示出来。 也是完全 Codex 自动读取 Skills 后完整,我没有介入,说明 Skills 中各种能力的编排和集成做的还是很到位,也是2-3 分钟后,Demo 就写完并运行起来了。 这个 Demo 的功能主要是语音实时对话,从对话体感上看,很流畅,接近于人和人之间语音通话的响应延迟,语音包和 LLM 都可以切换,这里我只做了默认集成。 看几个关键数据: · 整个 RTC、RTM、Conversational AI 启动过程在2-3秒内,很快 · 从我说话结束,到 Voice Agent 首个语音包输出(我听到声音),1秒左右 如果你在做 Voice Agent 方面的探索,可以接入 Agora Skills 快速验证你的想法,让你的 Agent 能实时和你对话。抛砖几个场景,朋友们可以去尝试回来再交流:给 Agent 做一个会说话的陪伴形象、虚拟男女友、把声音和形象装进智能硬件。。 github.com/AgoraIO/skills