Data Agent Kit 将数据技能和工具引入您的 IDE 或 CLI

TL;DR · AI 摘要
Google Cloud 推出的 Data Agent Kit 是一个开源工具集,通过 MCP 协议将 BigQuery 等数据平台直接集成到 IDE 或 CLI 中,利用预定义的智能技能实现意图驱动的数据工程,解决了上下文窗口限制和工具碎片化问题。
核心要点
- Data Agent Kit 通过 MCP 工具提供 VS Code、Claude Code 等 IDE 与 BigQuery、AlloyDB 的安全连接。
- 内置预编码的智能技能库,涵盖查询优化、ML 最佳实践、数据漂移检查等企业级指南。
- 智能路由功能自动选择 BigQuery 或 Spark 等最优计算引擎,无需手动编写复杂管道代码。
结构提纲
按章节快速跳转。
当前构建智能体的工具碎片化,导致数据访问困难、安全风险增加及开发者体验受损。
提供智能技能、MCP 工具和 IDE 插件,将企业数据无缝集成到开发环境中。
整合数据库、编排管道和任务到单一视图,支持从发现到生产的全流程管理。
基于 Google Cloud 专业经验提供预定义技能,将企业级数据智能注入工作流。
在统一数据基础上,直接在工作空间内提供原生对话式分析能力。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Data Agent Kit
- 核心组件
- Agentic Skills
- MCP Tools
- IDE Plugins
- 关键优势
- 意图驱动开发
- 智能路由
- 消除上下文税
- 集成环境
- VS Code
- Claude Code
- BigQuery
金句 / Highlights
值得收藏与分享的关键句。
Data Agent Kit effectively serves as a comprehensive harness for agentic context, memory, and personalization.
Developers can now configure connection parameters for their cloud datasets and data processing engines without having to manage complex, manual pipeline code.
Data Agent Kit’s intelligent routing automatically chooses the optimal compute engine for your task — whether that’s BigQuery for SQL-native analytics and ELT, or Spark for custom Python transformatio
现代软件开发不仅仅发生在一个单一平面上——它正在整个智能体工具生态系统中发生。智能体正以前所未有的规模被开发,这些智能体需要直接访问企业数据以获取上下文和基础。
然而,目前用于构建智能体和管理数据的工具高度分散。这可能导致数据访问困难,增加安全风险,并导致糟糕的开发者体验,从而阻碍创新。
为了应对这一挑战,我们最近推出了 Data Agent Kit,这是一个统一的、开源的数据工程和数据科学技能、工具及插件集合,可直接集成到从业者已经使用的环境中,例如 VS Code、Claude Code、Codex、Gemini CLI 和 Antigravity CLI。通过将这些核心工具和技能与您的企业数据无缝结合,Data Agent Kit 有效地充当了智能体上下文、记忆和个性化的综合纽带。它提供:
- 智能体技能: 与您的数据资产交互的预编码路径,涵盖查询优化、机器学习最佳实践、数据验证、数据漂移检查、治理和故障排除。
- 模型上下文协议 (MCP) 工具: 智能体工作流与 BigQuery、AlloyDB 和 Google Cloud Storage 等云数据平台之间的安全连接。开发者现在可以为其云数据集和数据处理引擎配置连接参数,而无需管理复杂的手动管道代码。
- 插件和扩展: 原生 IDE 集成,支持丰富的、上下文感知的开发者交互。
总而言之,这些 Data Agent Kit 功能帮助数据从业者从手动编写代码转向意图驱动的数据科学和工程:定义所需的业务成果、约束条件和成功标准,并让 AI 增强系统弄清楚如何执行它。这种转变至关重要,因为如今,在构建能够导航复杂数据架构的智能体应用程序时,通常存在“上下文窗口税”,即开发者必须手动将大量架构元数据粘贴到提示词中,这会消耗 token 限制并增加延迟。同时,数据从业者往往缺乏关于如何高效查询、优化和排除云数据故障的指导,而专门的、分散的开发环境无法跨整个数据资产进行查看。Data Agent Kit 有助于解决这些挑战和其他问题,为数据从业者提供了一种新的智能体工作方式所需的基础能力。
请继续阅读,了解 Data Agent Kit 的功能和优势概述、如何安装它并将本地环境连接到您的数据资产,以及一个意图驱动的工程示例。
您的数据资产和生命周期的统一中心
Data Agent Kit 让您的整个数据资产在单一视图中可用。这不仅仅是为 BigQuery、AlloyDB 和 Spanner 等数据库提供简单的目录;相反,它将数据工程和科学任务、编排管道和作业集成到单一界面中。这允许从业者管理其整个数据工作流——从发现到生产——而无需切换上下文。Data Agent Kit 的智能路由会自动为您的任务选择最佳的计算引擎——无论是用于原生 SQL 分析和 ELT 的 BigQuery,还是用于自定义 Python 转换和分布式 ML 训练的 Spark。

您的整个数据资产和生命周期的统一中心
生态系统主导的智能:编码化的智能体技能
Data Agent Kit 提供了一个基于 Google Cloud 数据工程和科学专业知识的预定义智能体技能库(例如,ML 最佳实践、ELT、构建数据应用程序)。它不是依赖通用的 LLM 提示词,而是将规范性指南编码到您的工作流中。这使您能够将企业级数据智能直接注入到您的 IDE 或 CLI 中。

浏览预定义的智能体数据工程和科学技能列表
通过自然语言转变数据探索
基于这些统一的数据,Data Agent Kit 直接在您的工作区中提供原生的对话式分析,使数据探索变得简单。由我们在第一方智能体(例如对话式 BigQuery 和 Looker)中发现的相同 Gemini 自然语言转 SQL 技术提供支持,Data Agent Kit 允许您运行自然语言查询来分析、搜索和可视化您的数据集。

在 Data Agent Kit 中,您可以使用对话式分析来探索您的数据
实践演练:统一数据和构建模型
为了了解 Data Agent Kit 的技能和 MCP 工具如何协同工作,我们来看一个金融服务场景:你的公司正面临日益增多的欺诈索赔。你的交易数据存储在 Cloud Storage 中,你需要构建一个高置信度的欺诈检测模型并调度编排管道。传统上,这需要在多个控制台之间进行数小时的数据整理。而使用 Data Agent Kit,你可以在几分钟内直接在你的 IDE 或 CLI 中完成这一切。下面我们来看看具体如何操作。
入门:一分钟快速设置
你可以在一分钟内通过集成的设置流程开始使用 Data Agent Kit。
为此,你可以在 IDE 的市场(VS Code)中搜索 "Google Cloud Data Agent Kit",或在 CLI(Gemini、Antigravity、Claude、Codex)中通过 GitHub 仓库进行安装,链接见下方的“立即开始”部分。Data Agent Kit 会自动配置依赖项并检查你的 Google Cloud 登录状态。

点击活动栏中的 Google Cloud 图标,通过 IAM 进行身份验证。登录后,你的 Cloud Storage、数据库和目录资产会立即出现在你的工作区中。
使用 设置 菜单来设置项目 ID、区域并验证 MCP 状态,以确保所有后端服务均已获得授权。Data Agent Kit 还包含一个关于如何使用其工具和技能的快速入门指南。

一个意图驱动的数据工程示例
安装 Data Agent Kit 后,你可以跳过手动的 ETL 样板代码,直接用自然语言向你的编码助手(例如 Claude Code、GitHub Copilot)描述你的高级目标。助手会利用 Data Agent Kit 的技能来规划和执行工作流。
提示:
我的原始交易日志存放在GCS存储桶 gs://fin-clearing-raw/ 中。
首先,创建一个 Spark Notebook,然后 (1)摄取这些日志到 BigQuery 的Iceberg 表中。
其次,创建一个 dbt 项目来 (2)去重,(3)移除交易 ID 无效的交易并将它们存储在另一个 Iceberg 表中,(4)标准化时间戳并执行任何其他必要的清理任务,(5)将输出同步到另一个 Iceberg 表,(6) 将此输出表与包含付款方和收款方身份的表进行连接,并将结果写入最终的 Iceberg 表。
第三,我希望你使用 Spark Notebook 训练一个机器学习模型来检测输出表中的欺诈交易。我正在考虑使用 LightGBM 模型,但我愿意接受你可能有的任何建议。请使用项目中的相关数据集。
最后,使用 Spark Notebook 创建一个推理步骤添加到上述管道中,以执行批量推理并将标记为欺诈的交易写入 Spanner 表。
创建一个编排管道,首先运行摄取,然后运行 dbt,最后运行推理 Notebook。
**幕后:数据管道步骤**
在幕后,Data Agent Kit 会规划一个稳健的多步骤编排流程,涵盖整个数据生命周期,从数据探索到推理。
步骤 1:创建 Notebook、数据摄取与初始存储
找到你的青铜数据——即未经处理的原始金融交易数据——在进行转换之前,将其导入 Iceberg 表中。
- 自动创建一个 Notebook 来从 Cloud Storage 摄取原始日志。
- 编写必要的 SQL 语句,并将摄取的数据存储到 BigQuery 的 Iceberg 表 中。

将数据摄取到青铜表
步骤 2:转换
现在,将青铜数据清洗为银表和金表:
- 数据准备:对交易日志进行去重。
- 过滤无效 ID:识别 ID 无效的交易,并将其存储在单独的 Iceberg 表中。
- 清理和标准化:标准化时间戳并执行其他必要的清理任务。
- 同步:利用 BigQuery MCP 服务器,将清理后的数据输出到另一个 Iceberg 表。
- 数据丰富:将清理后的表与付款方和收款方身份表进行连接。
- 最终输出:将连接后的数据集写入最终的 Iceberg 表。

数据转换以创建银表和金表
步骤 3:机器学习与推理
金表准备就绪后,就到了数据科学环节:模型训练和推理。在这里,代理会将上一步的干净数据交给模型,以发现欺诈模式。
- 训练:使用 Spark Notebook 训练一个机器学习模型。
- 推理:创建一个 Spark Notebook 推理步骤用于批量处理。
- 存储:利用 Spanner MCP,将所有标记为欺诈的交易写入 Spanner 表。

机器学习与推理
步骤 4:编排与执行
最后,你就可以投入生产环境并调度整个编排管道了:摄取 -> 转换 -> 推理。

编排流水线和调度运行
当出现意外时:智能体事件管理与智能恢复
如果编排流水线失败,别担心,Data Agent Kit 会利用其智能事件管理功能来简化解决方案:
- 智能诊断: 自动进行根因分析,精确定位故障源
- 自主修复: 起草并测试修复方案,绕过手动调试
- 自动恢复: 通过自动化的 Git 工作流验证并部署修复方案

问题诊断与修复
至此,你只需几分钟,就能从初步探索转变为一个全自动的欺诈检测机器,而且所有操作都在同一个用户体验(UX)界面中完成。无需在多个浏览器标签页、IDE 界面之间来回切换,也无需学习数据工程和数据科学的最佳实践——Data Agent Kit 利用各种 MCP 工具和编码化的技能,编排了一个简洁的端到端流程。最终,这种方法能帮助你实现最重要的目标:大规模地交付创新、高性能的数据应用程序。
**立即开始**
Data Agent Kit 现已提供预览版。首先,在你喜欢的 IDE 或 CLI 中安装它:
然后,请访问文档以了解更多信息并开始使用。
发布于