蓝图:将意识流语音转化为可执行任务清单

TL;DR · AI 摘要
Doist 推出 Ramble 功能,利用 Gemini 将用户即兴语音实时转化为结构化任务列表,突破多语言、低延迟等技术挑战。
核心要点
- Gemini Flash 模型支持端到端语音理解与工具调用,实现无需转录的实时任务生成。
- Ramble 克服了跨浏览器音频处理、多语言俚语识别与会话恢复等关键技术难题。
- 该功能推动 Doist 在 B2C 和 B2B 场景下探索更多 AI 增强生产力应用。
结构提纲
按章节快速跳转。
介绍 Google Cloud 客户如何用 AI 解决行业挑战。
捕捉无序口语并转化为清晰任务列表的技术难点。
包括实时通信、多语言支持、非确定性测试与跨浏览器音频处理。
使用 Gemini Live API 实现端到端语音理解与自动工具调用。
PCM 音频直连模型,统一完成语种检测、识别与语义解析。
功能成功上线,推动 AI 在生产力工具中的深度集成。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Ramble: 语音转任务系统
- 核心技术挑战
- 实时通信
- 多语言与口音支持
- 非确定性输出测试
- 跨浏览器音频处理
- 解决方案架构
- Gemini Enterprise Agent Platform
- Live API 流式处理
- 端到端语音理解
- 自主工具调用
- 成果与影响
- 高精度任务提取
- 与 Google 深化合作
- 拓展至 B2B 生产力场景
金句 / Highlights
值得收藏与分享的关键句。
Just talk and let Todoist do the organizing.
Gemini handles language detection, speech recognition, and semantic understanding in a single pass, reducing latency.
It then invokes our purposefully designed tools (`addTask`, `editTask`, `deleteTask`, etc) autonomously as the user speaks, without waiting for explicit commands.
None hit our internal quality bar as consistently as Gemini.
We developed a deeper, more proactive partnership with Google, ensuring long-term sustainability.
Beyond task creation, we’re considering several opportunities across the productivity journey, from capture to planning and even automation.
标题:将意识流转化为实际行动
来源网址:http://cloud.google.com/blog/topics/startups/the-blueprint-doist-stream-of-consciousness-ai-task-list-creation/
发布时间:2026-05-06
Markdown 内容: 欢迎阅读《蓝图》(The Blueprint),这是我们推出的新栏目,旨在展示 Google Cloud 客户如何利用最新的 AI 和云技术应对各行各业中独特且普遍的挑战。我们希望为那些致力于在工作中创新的人们带来启发。
- * *
Doist 成立于 2007 年,是异步和远程优先工作模式的先驱,致力于通过诸如用于任务管理的 Todoist 和团队沟通工具 Twist 等应用,简化生活中的复杂事务。
**面临的挑战:**
我们推出了 Ramble 功能,旨在将广受欢迎的 Todoist 应用提升到新高度——捕捉不间断的、意识流式的语音输入。我们的灵感来源于电影《穿普拉达的女王》中的一个场景:米兰达·普利斯特利快速地向助理下达十几个任务指令。我们不禁思考:如果任何人都能以这种方式记录任务会怎样?无需打字,无需精心格式化,只需说话,剩下的整理工作交给 Todoist 自动完成。这一使用场景成为了我们的核心目标。
项目初期,我们识别出四大关键技术难题:
- 我们需要具备工具调用能力的实时通信,且必须快速而准确。
- 需要大规模支持多语言,同时对俚语、口音等有良好识别能力。
- 传统的基于断言的测试方法不适用于我们的平台,因此我们必须找到实现非确定性输出测试和语义验证的方法。
- 必须在各种浏览器中可靠、无差错地处理音频。
**解决方案:**
我们基于 Gemini 企业级代理平台 及其前身 Vertex AI 构建了 Ramble,具体使用的是 Agent Platform 来访问 Gemini Flash 模型。我们之所以选择这些技术而非其他选项,主要是因为 Google 的最先进模型质量出色,并且在隐私保护方面提供了明确的条款和保障。
Ramble 的核心实时交互功能和关键能力(包括原生音频流、主动工具调用、会话恢复以及多语言理解)均由 Gemini Live API(通过 Agent Platform 访问)驱动。
Ramble 将原始 PCM 音频直接发送给模型,无需预先转录。Gemini 在单次推理过程中完成语言检测、语音识别和语义理解,显著降低了延迟。随后,它会在用户讲话过程中自动调用我们专门设计的工具(如 addTask、editTask、deleteTask 等),无需等待明确指令。
Agent Platform 中的 API 提供了会话恢复令牌,允许用户暂停并继续会话,这对可能切换应用或网络中断的移动用户至关重要。
最终结果是生成一份清晰简洁的任务列表,无论用户说了多少内容、表达多么杂乱无章或混乱不清。
**架构设计:**

**成果:**
Ramble 的成功高度依赖于 Google AI 模型的质量,尤其是 Gemini Flash 强大的推理能力和近乎即时的音频处理能力。虽然其他平台和模型也提供类似功能,我们也内置了对它们的支持,但没有任何一个能像 Gemini 这样持续达到我们内部的质量标准。当面对用户非结构化的“絮叨”以及填补信息空白的需求时,Gemini 展现出比我们测试过的所有模型都更出色的智能水平。这带来了最清晰、最一致的任务分解效果,正是我们想要创造的那种“魔法般”的用户体验。
在早期 alpha 测试期间,由于意外的高使用量导致了一次速率限制事件后,我们与 Google 建立了更深入、更主动的合作关系,确保了长期可持续发展以及对我们高频 API 使用所需的支持。自那以后,每当出现问题,我们都能够轻松地直接联系到 Google Cloud 团队(包括工程师)获得帮助。
在 Doist,Ramble 无论是在定性还是定量层面都取得了巨大成功。它已成为我们产品体验的一个标志性功能,激励我们探索更多得体的 AI 应用方式,以增强我们在 B2C 和 B2B 领域的现有产品体验。除了任务创建之外,我们还在考虑生产力流程中的多个机会,涵盖从信息捕获、计划制定乃至自动化等多个环节。
**细节说明:**
我们构建了后端架构以支持未来的语音功能。该架构包含一个与供应商无关的流媒体层;一个用于单向音频的听写模块;Ramble(我们的“思维倾倒”模块);以及一个对话模块,用于支持双向音频流和未来的对话功能。
这种分层设计使我们能够在几乎无需额外基础设施工作的情况下快速上线新的语音功能。同时也提供了供应商灵活性:尽管目前生产环境使用的是 Gemini 企业级代理平台,但我们的抽象层也能轻松支持其他解决方案。
除了帮助我们解决了四项关键技术挑战中的三项外,Agent Platform 还带来了一些惊喜。首先,会话恢复比预期更容易实现。我们最初认为跨重新连接维持对话状态需要复杂的服务器端会话管理。但一旦理解了 Agent Platform 的恢复令牌机制(API 提供令牌,并随每次上下文更新而变化),在所有平台上实现起来都非常简单。
其次,上下文注入首次尝试即告成功。我们花费大量时间设计如何向模型提供用户上下文(项目、标签、偏好等)。我们曾探索复杂的检索策略和动态上下文窗口。最终却发现最简单的“v1”方法——直接在系统提示中传入大部分用户元数据——效果异常出色。
在测试方面,我们结合了结构化验证(任务数量、优先级、日期是否存在等)和语义验证(模型是否理解了用户的意图?),采用“以大模型作为评判者”(LLM-as-judge)的方法。另一个 Gemini 模型会评估输出结果是否在语义上匹配预期结果。我们全球团队的母语使用者用各自的语言和本地口音录制了真实场景(共 15 种以上语言变体,总计超过 100 条录音),每个场景都有预期的语义结果(例如:“应创建 3 项任务:一项关于给家人打电话,一项关于购物,一项关于周六上午 11 点锻炼”)。
然后我们为整个测试套件设定了明确的通过率阈值,同时监控每种语言的表现,以便发现性能退化情况。这种方法让我们可以系统性地评估新模型版本,不仅了解整体表现,还能识别哪些特定语言的体验有所提升或下降,从而做出数据驱动的决策。
最终,Ramble 在帮助用户应对日常生活的混乱方面取得了巨大成功。它与 Todoist 已有的自然语言任务输入功能“快速添加”(Quick Add)并列,成为同类中最优秀的任务捕捉方式之一。
发布分类: