个人生活自动化 Agent 工具栈:OpenAI Codex + Google 全家桶

TL;DR · AI 摘要
Nicolas Bustamante 展示其个人生活自动化 Agent:以 OpenAI Codex 为核心,整合 Google 工具链与 Drive 为数据源,通过 Skills 实现跨 App 编排;关键在于将 Drive 作为真相源、联系人 CSV 为枢纽,并建立「批准门控」与「反馈闭环」保障可靠性。
核心要点
- Agent 核心是跨 App 编排而非回答问题,如介绍邮件流程需联动 WhatsApp/Gmail/网页查融资等 5 个工具
- Drive + Markdown/CSV 是 Agent 友好的数据形态,优于 Notion 的嵌套结构与权限限制
- 工具优先级为 API/CLI > 本地文件 > 浏览器自动化 > 屏幕/UI 自动化,浏览器自动化仅作兜底
结构提纲
按章节快速跳转。
Agent 不是问答模型,而是跨应用编排执行者;用户只需 10 秒提需求,Agent 完成人工约 20 分钟的上下文切换任务。
介绍邮件涉及 5 个工具协同(WhatsApp→Gmail→网页查融资→起草→审批→发信),车牌更新体现行政连续性——同一信息在多系统保持一致。
刻意将知识从 Notion 迁至 Google Drive,因 Drive + Markdown/CSV 支持搜索、diff、可编辑、可引用 file ID,更适配 Agent 工具路径。
工具优先级为 API/CLI > 本地文件 > 浏览器自动化 > 屏幕/UI 自动化;Skills 是可迭代操作手册,如 inbox-zero 包含归档策略、回复建议、签名规范等。
高风险操作必须经「读上下文→起草→展示→批准→执行→确认」四步;失误后更新 Skill 或写入 AGENTS.md,形成闭环迭代。
「What did I miss?」扫描收件箱是最高价值工作流;复现清单包括:安装运行时、集中数据、谨慎授权、编写 operating rules、开发 Skills 并迭代。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- 个人生活自动化 Agent 工具栈
- 核心定位
- 跨 App 编排执行者(非问答)
- 降低上下文切换成本(人工20分钟→用户10秒)
- 关键技术组件
- Agent 引擎:OpenAI Codex
- 工具层:Google全家桶+WhatsApp/Telegram+浏览器自动化
- 数据层:Drive(Source of Truth)+ CSV/Markdown
- 架构决策
- 数据形态:纯文本/表格/JSON命令 → Agent友好
- 工具优先级:API/CLI > 文件 > 浏览器 > UI
- Skill 设计:操作手册式可迭代规则
- 信任与反馈机制
- 批准门控:低风险直接执行,高风险四步走
- 反馈闭环:工具失败→修工具;判断错→更新Skill;遗忘偏好→写入AGENTS.md
- 杀手级工作流
- What did I miss?:定期扫描多源收件箱
- 收件箱分诊:识别urgent/stale/ignore/建日历/查文档
金句 / Highlights
值得收藏与分享的关键句。
Notion 对人友好,对 Agent 不友好——嵌套页面、数据库属性、权限、UI 原生结构阻碍自动化;Drive + Markdown/CSV 才是 Agent 友好形态。
联系人 CSV 被作者称为「最佳投资之一」,因其是跨渠道 lookup 的枢纽,支撑电话/邮箱/LinkedIn 等多维关联查询。
工具优先级:API / CLI > 本地文件 > 浏览器自动化 > 屏幕/UI 自动化;浏览器自动化是兜底方案,非主路径,确保可靠性上限由工具面决定。
+ Tools: Google 全家桶、WhatsApp、电报、浏览器自动化等 + Data: Google Drive、Notion、AGENTS.md 等 + Skills: inbox-zero、contacts 等 == 个人生活自动化 Agent 工具栈
@nicbstme 提出的两个典型工作流
- 介绍邮件(跨 5 个工具的「胶水活」)
朋友 WhatsApp 求助 → 搜 https://t.co/6Jqiq3DyIo" / X
Agent: OpenAI Codex + Tools: Google 全家桶、WhatsApp、电报、浏览器自动化等 + Data: Google Drive、Notion、AGENTS.md 等 + Skills: inbox-zero、contacts 等 == 个人生活自动化 Agent 工具栈
提出的两个典型工作流 1. 介绍邮件(跨 5 个工具的「胶水活」) 朋友 WhatsApp 求助 → 搜 WhatsApp/Gmail 找邮箱 → 网页查公司融资 → 起草介绍信 → 等批准 → 发邮件 → WhatsApp 告知完成。 人工约 20 分钟、大量上下文切换;用户侧约 10 秒提需求。Agent 做的是跨 App 的编排,不是回答问题。 2. 车牌更新(行政连续性) 发照片给 Agent → 更新 Drive 里的 Markdown 车辆档案 → 保留 VIN、保险等字段 → 上传回 Drive → 必要时用浏览器自动化同步到 FasTrak、停车 App、保险门户等无 API 的系统。 体现的是行政连续性:同一份信息在多处保持一致,而非一次性问答。 最重要的架构决策:Drive 作为 Source of Truth Nicolas 刻意把知识从 Notion 迁到 Google Drive,原因很务实: · Notion 对人友好,对 Agent 不友好(嵌套页面、数据库属性、权限、UI 原生结构) · Drive + Markdown/CSV:可搜索、可 diff、可编辑、可上传、可引用 file ID · gogcli 提供统一的 CLI 面(Gmail、Drive、Calendar、Docs、Sheets 等) 组织知识不应只为人类 UI,而应面向 Agent 的工具路径。 稳定 file ID、纯文本、表格、返回 JSON 的命令——这些才是 Agent 友好的数据形态。 联系人 CSV(电话、邮箱、LinkedIn 等)被作者称为「最佳投资之一」,因为它是跨渠道 lookup 的枢纽。 工具优先级(可靠性层级) API / CLI > 本地文件 > 浏览器自动化 > 屏幕/UI 自动化 Agent 的可靠性上限取决于工具面。gog gmail messages list --json 比让模型在网页上点来点去更稳定、可重试、可推理。浏览器和屏幕自动化是必要时的兜底,不是主路径。 Skills:Agent 的「习惯」与「品味」 Skill 不是 fancy 架构,就是可迭代的操作手册。以 inbox-zero 为例: · 列出收件箱 → 区分自动归档 / 需人工审阅 · 展示重要邮件、引用原文、建议归档或回复 · 起草后等明确批准再发送 · 保留所有收件人、回复简短、不主动建议电话、签名用 "Nicolas" 没有 Skill,每次都要重新 prompt 所有偏好;有了 Skill,说「run inbox zero」即可。个人 Agent 的个性化,来自操作品味的累积,而非 cute voice。 反馈闭环: · 工具失败 → 修工具或加 guardrail · 判断失误 → 更新 Skill · 忘记偏好 → 写入 memory / AGENTS.md · 工作流重复 → 体系 compound 改进 批准门控:信任分级才是产品 Nicolas 明确反对「YOLO 全自动」: · 低 stakes 可直接发(如「告诉 Hugo 我下周在西雅图」) · 高 stakes 必须:读上下文 → 起草 → 展示 → 等批准 → 执行 → 确认。 有用 vs 可怕的分界,在于是否在正确时刻问人。 「杀手级」工作流:What did I miss? 比单点邮件更重要的,是生活收件箱 triage: · 每隔几小时问一句「我漏了什么?」→ Agent 扫描 WhatsApp、Telegram、Gmail、SMS、Calendar、Drive 变更 → 汇总:谁需要回复、什么 urgent、什么 stale、什么可忽略、什么该建日历、什么要查文档。 特点:上下文重、重复、跨工具、充满小决策——人讨厌做第一遍扫描,Agent 擅长第一遍,判断权仍在人。 复现清单(Nicolas 给出的路径) 1. 装 Agent 运行时 + 各渠道 CLI/连接器 2. 集中数据:Drive 为真相源,联系人 CSV,重要文档可搜索化 3. 谨慎授权:Full Disk Access、Screen Recording、Accessibility——必须配合同级 approval gates 4. 写 operating rules(AGENTS.md):draft before send、工具路由、隐私边界等 5. 为重复流程写 Skills,并在每次失误后更新
Quote
Nicolas Bustamante

@nicbstme
May 30
My Agent Stack For Automating My Personal Life
My agent manages my emails, SMS, Whatsapp, Telegram and pretty much everything to automate my personal life. People keep asking me how I use agents in real life. I mean the actual boring things that...