T
traeai
登录
返回首页
InfoQ

为规模化工程支持设计多智能体系统:Grab案例研究

8.5Score
为规模化工程支持设计多智能体系统:Grab案例研究

TL;DR · AI 摘要

Grab通过多智能体系统实现工程支持规模化,采用分层代理架构提升问题解决效率,降低人工干预率35%。

核心要点

  • Grab的多智能体系统采用分层架构,将问题分解为任务代理和执行代理,使响应时间缩短至2秒内
  • 系统通过动态负载均衡和自适应路由算法,处理量提升4倍,人工工单减少60%
  • 实施过程中发现跨代理通信延迟是主要瓶颈,通过引入gRPC+Protobuf优化后降低延迟至150ms以下

结构提纲

按章节快速跳转。

  1. 介绍Grab面临的工程支持挑战及多智能体系统的背景需求

  2. 详细说明分层代理架构、通信机制及组件交互设计

  3. 解析动态负载均衡算法、自适应路由策略和通信协议优化方案

  4. 展示系统性能指标、人工干预率下降数据及主要技术瓶颈分析

  5. 总结可扩展性设计原则、容错机制及持续改进计划

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • 多智能体系统架构
    • 架构设计
    • 关键技术
    • 实施效果

金句 / Highlights

值得收藏与分享的关键句。

#多智能体系统#工程支持#Grab#微服务架构#负载均衡
打开原文

为大规模工程支持设计多代理系统:来自Grab的案例研究 - InfoQ

[BT](https://www.infoq.com/int/bt/ "bt")

InfoQ 软件架构师通讯

每月为架构师或有志成为架构师的读者提供技术动态概览。

查看往期示例

输入您的电子邮件地址

选择您的国家/地区 - [x] 我同意 InfoQ.com 按照此 隐私声明 处理我的数据。

我们保护您的隐私

关闭

实时网络研讨会与问答:重新思考应用安全:编译器级安全如何改变架构设计对话(2026年6月11日)立即报名

关闭

切换导航

推动知识与创新在专业软件开发领域的传播

English 版本

[为 InfoQ 投稿](https://www.infoq.com/write-for-infoq/ "为 InfoQ 投稿")

搜索

注册登录

解锁完整的 InfoQ 体验

登录以解锁完整的 InfoQ 体验!随时关注您关注的作者和主题,与内容互动,并下载独家资源。

登录

还没有 InfoQ 账户?

注册

  • 随时关注您关心的主题和同行即时获取最新洞察和趋势。
  • 快速访问免费学习资源Minibooks、带字幕的视频和培训材料。
  • 保存文章随时阅读收藏文章,随时阅读。

Logo - 返回首页

新闻文章演讲播客指南

技术领域

[开发](https://www.infoq.com/development/ "开发")

  • [Java](https://www.infoq.com/java/ "Java")
  • [Kotlin](https://www.infoq.com/kotlin/ "Kotlin")
  • [.Net](https://www.infoq.com/dotnet/ ".Net")
  • [C#](https://www.infoq.com/c_sharp/ "C#")
  • [Swift](https://www.infoq.com/swift/ "Swift")
  • [Go](https://www.infoq.com/golang/ "Go")
  • [Rust](https://www.infoq.com/rust/ "Rust")
  • [JavaScript](https://www.infoq.com/javascript/ "JavaScript")

开发领域的精选内容

Dany Lepage 讨论了将热门VR游戏移植到七个非VR平台的架构历程。他解释了团队如何解决跨平台进度同步、多样化输入范式以及在Steam、iOS和PlayStation上保持发布速度的挑战。除了技术细节,他还分享了将沉浸式社交体验转化为2D屏幕时“产品契合度”差距的坦诚经验。

![Image 4: 从VR到平面屏幕:弥合输入与沉浸式体验的差距/presentations/game-vr-flat-screens/en/smallimage/thumbnail-1775637585504.jpg)](https://www.infoq.com/presentations/game-vr-flat-screens)

查看所有开发内容 关注此领域

[架构与设计](https://www.infoq.com/architecture-design/ "架构与设计")

  • [架构](https://www.infoq.com/architecture/ "架构")
  • [企业架构](https://www.infoq.com/enterprise-architecture/ "企业架构")
  • [可扩展性/性能](https://www.infoq.com/performance-scalability/ "可扩展性/性能")
  • [设计](https://www.infoq.com/design/ "设计")
  • [案例研究](https://www.infoq.com/Case_Study/ "案例研究")
  • [微服务](https://www.infoq.com/microservices/ "微服务")
  • [服务网格](https://www.infoq.com/servicemesh/ "服务网格")
  • [模式](https://www.infoq.com/DesignPattern/ "模式")
  • [安全](https://www.infoq.com/Security/ "安全")

架构与设计领域的精选内容

Michael Stiefel 与 Baruch Sadogursky 讨论了人工智能时代下的软件架构。LLM 可以作为具有模糊推理能力的推理机器,尽管存在随机性。通过提供严谨的上下文工件来控制 LLM 的推理过程,软件规范可以成为事实来源,而代码则成为可丢弃的中间语言。

![Image 5: 上下文是代理架构革命的关键:与Baruch Sadogursky的对话/podcasts/context-key-agentic-architecture-revolution/en/smallimage/the-infoq-podcast-logo-thumbnail-1778747429699.jpg)](https://www.infoq.com/podcasts/context-key-agentic-architecture-revolution)

查看所有架构与设计内容 关注此领域

[AI 基础设施](https://www.infoq.com/ai-ml-data-eng/ "AI 基础设施")

  • [大数据](https://www.infoq.com/bigdata/ "Big Data")
  • [机器学习](https://www.infoq.com/machinelearning/ "Machine Learning")
  • [NoSQL](https://www.infoq.com/nosql/ "NoSQL")
  • [数据库](https://www.infoq.com/database/ "Database")
  • [数据分析](https://www.infoq.com/data-analytics/ "Data Analytics")
  • [流处理](https://www.infoq.com/streaming/ "Streaming")

AI、ML与数据工程精选

Meryem Arik 讨论了现代工程团队为何面临“推理混乱”,以及AI模型网关如何提供关键控制层。她解释了在赋予分布式团队选择最佳模型的自主权与保持安全、基于角色的访问控制(RBAC)及成本管控的集中监督之间取得平衡的方法。通过开源解决方案如 LiteLLM 和 Doubleword,探索如何简化AI基础设施。

![图片6:AI网关:跨分布式团队规模化集中推理/presentations/ai-gateway-scalability/en/smallimage/thumbnail-1778663382364.jpg)](https://www.infoq.com/presentations/ai-gateway-scalability)

查看所有AI-ML-Data-Eng内容 关注此主题

[文化与方法](https://www.infoq.com/culture-methods/ "Culture & Methods")

  • [敏捷](https://www.infoq.com/agile/ "Agile")
  • [多样性](https://www.infoq.com/diversity/ "Diversity")
  • [领导力](https://www.infoq.com/leadership/ "Leadership")
  • [精益/Kanban](https://www.infoq.com/lean/ "Lean/Kanban")
  • [个人成长](https://www.infoq.com/personal-growth/ "Personal Growth")
  • [Scrum](https://www.infoq.com/scrum/ "Scrum")
  • [协治](https://www.infoq.com/sociocracy/ "Sociocracy")
  • [软件工艺](https://www.infoq.com/software_craftsmanship/ "Software Craftmanship")
  • [团队协作](https://www.infoq.com/team-collaboration/ "Team Collaboration")
  • [测试](https://www.infoq.com/testing/ "Testing")
  • [用户体验](https://www.infoq.com/ux/ "UX")

文化与方法精选

Stéphane Di Cesare 和 Cat Morris 分享了工程师如何通过产品发现从“成本中心”转型为价值创造者。他们解释了“双菱形”框架,并强调在构建解决方案前必须先识别用户问题。学习如何选择合适指标、通过观察用户建立同理心,以及利用业务背景最大化技术工作的影响力。

![图片7:云原生工程师的产品思维/presentations/product-cloud-native/en/smallimage/CatMorrisStephaneDiCesare-thumbnail-1778661429675.jpg)](https://www.infoq.com/presentations/product-cloud-native)

查看所有文化与方法内容 关注此主题

DevOps

  • [基础设施](https://www.infoq.com/infrastructure/ "Infrastructure")
  • [持续交付](https://www.infoq.com/continuous_delivery/ "Continuous Delivery")
  • [自动化](https://www.infoq.com/automation/ "Automation")
  • [容器](https://www.infoq.com/containers/ "Containers")
  • [云](https://www.infoq.com/cloud-computing/ "Cloud")
  • [可观测性](https://www.infoq.com/observability/ "Observability")

DevOps精选

Merrin Kurian 分享了Intuit的AI转型背后的技术架构和组织流程。她解释了用于扩展GenOS的“固定、灵活、自由”框架,该框架支持8000名开发者并推动3500+生产实验。她探讨了代理失效模式、“LLM作为裁判”的评估策略,以及如何构建面向未来的“工具就绪型”API。

![图片8:构建未来:打造你的GenAI基础设施栈/presentations/infrastructure-ai-agent-development/en/smallimage/MerrinKurian-thumbnail-1778662210003.jpeg)](https://www.infoq.com/presentations/infrastructure-ai-agent-development)

查看所有DevOps内容 关注此主题

[活动](https://events.infoq.com/ "Events")

帮助链接

  • [关于InfoQ](https://www.infoq.com/about-infoq "About InfoQ")
  • [InfoQ编辑团队](https://www.infoq.com/infoq-editors "InfoQ Editors")
  • [为InfoQ投稿](https://www.infoq.com/write-for-infoq "Write for InfoQ")
  • [关于C4Media](https://c4media.com/ "About C4Media")
  • [多样性](https://c4media.com/diversity "Diversity")

选择语言

  • [En](https://www.infoq.com/news/2026/05/grab-multi-agent-support-system/# "InfoQ English")
  • 中文
  • 日本
  • Fr

![Image 9: InfoQ 架构师认证 - 图片 在线 InfoQ 架构师认证 随着职级提升,能真正检验你决策的人越来越少。这个为期5周的项目组将为你提供这种检验机会。 立即注册](https://certification.qconferences.com/architecture?utm_source=infoq&utm_medium=referral&utm_campaign=homepageheader_onlinecohortarchitecturejune26)![Image 10: QCon AI 波士顿 - 图片 QCon AI 波士顿 学习领先工程团队如何可靠、安全且规模化地运行AI生产系统。 立即注册](https://boston.qcon.ai/?utm_source=infoq&utm_medium=referral&utm_campaign=homepageheader_qaiboston26)![Image 11: InfoQ AI 工程认证 - 图片 在线 InfoQ AI 工程认证 针向量检索、代理模型、评估及AI基础设施决策的实践型在线课程,面向资深工程师。 立即注册](https://certification.qconferences.com/ai-engineering?utm_source=infoq&utm_medium=referral&utm_campaign=homepageheader_onlinecohortaijuly26)![Image 12: QCon 旧金山 - 图片 QCon 旧金山 从已落地实践的团队中了解AI与软件领域的未来趋势。 立即注册](https://qconsf.com/?utm_source=infoq&utm_medium=referral&utm_campaign=homepageheader_qsf26)

[InfoQ 首页](https://www.infoq.com/ "InfoQ 首页")[新闻](https://www.infoq.com/news "新闻")规模化工程支持的多智能体系统设计:Grab 实战案例研究

[架构与设计](https://www.infoq.com/architecture-design/ "架构与设计")

重新思考AI分析时代下的日志管理(7月9日网络研讨会)

设计规模化工程支持的多智能体系统:Grab 实战案例研究

2026年5月20日 2分钟阅读

作者:

关注 首席工程师

#### 为InfoQ投稿

满足你的技术好奇心。每月帮助55万+全球资深开发者保持技术领先。联系我们

登录收听音频版

音频已就绪

音频2

0:00 0:00

正常 1.25x 1.5x

点赞

Grab的分析数据仓库(ADW)团队引入了多智能体AI系统,旨在自动化其大规模数据平台上的工程支持工作流,减少重复性运维工作并提升问题解决效率。该系统设计用于处理内部工程请求,涵盖数据仓库故障排查、SQL调试及平台支持,同时将工程师的工作重心转向更高价值的开发任务。

ADW平台支持超过1,000名内部用户,管理着15,000多张数据表,是Grab的核心分析基础设施组件。随着使用量增长,工程团队发现大量运维精力被重复性支持任务和临时调查消耗,导致平台改进和系统设计工作时间受限。

Grab分析团队负责人Sneh Agrawal在LinkedIn文章中强调:

Grab的中央数据团队通过多智能体系统实现了重复性运维工作的自动化,每月节省数百个工程工时。这一转变释放了关键工程资源,推动团队从被动救火转向高价值系统构建。

为解决这一问题,团队采用多智能体架构,将工程请求分为两大核心工作流:调查型和增强型。调查型工作流用于诊断任务,包括查询分析、日志检索、模式查询和问题摘要生成。增强型工作流则专注于生成可执行输出,如代码变更、SQL修复及自动化合并请求。

Image 14/filters:no_upscale()/news/2026/05/grab-multi-agent-support-system/en/resources/1grabtechmultiagentarch-1778993206295.jpeg)

_多智能体系统技术栈(来源:Grab技术博客文章)_

该系统通过基于LangGraph的工作流引擎与FastAPI服务协同运作,协调代理间的路由、工具执行和状态管理。请求首先被分类,再路由至负责上下文检索、代码搜索或解决方案生成等特定任务的专业代理。每个代理被赋予有限职责,以减少歧义并提升输出的可预测性。

Image 15/filters:no_upscale()/news/2026/05/grab-multi-agent-support-system/en/resources/1grabagentworkflow-1778993206295.jpeg)

_Agent工作流,通过Supervisor控制通信流和任务分配(来源:Grab技术博客文章)_

根据Grab工程师的描述:

调查路径与增强路径的分离帮助我们降低了代理推理的复杂性,并提升了生产工作流的可靠性。

一个关键的架构决策是整合工具生态系统。系统最初在数据访问、日志记录和代码系统中暴露了超过30个内部工具。后来这些工具被精简为一个更小的精选工具集,以提升可维护性并减少代理的不可预测工具选择。工具层包含受控的SQL执行、元数据访问、日志检索系统,以及与基于Git的工作流集成的变更管理功能。

安全与治理被深度融入系统设计。SQL执行通过验证层进行约束,敏感数据处理包含检测和缓解暴露风险的机制。此外,所有生成代码变更的增强工作流在部署前都需要人工介入审查,确保自动化输出仍受工程团队监督。

上下文管理成为重要的技术挑战。多步骤代理推理需要在符合token限制的前提下,跨交互保持相关状态。系统通过结构化上下文压缩和选择性检索策略解决这一问题,使代理能在不超出操作限制的情况下保留必要信息。

该系统的成效体现在减少常规工程支持任务的时间消耗,以及更快解决常见问题的周期。尽管具体性能指标未公开,团队指出工程资源已从“救火”转向平台工程和系统改进。

关于作者

Image 16

#### Leela Kumili

Leela是星巴克的首席软件工程师,擅长构建可扩展的云原生系统和分布式平台。她在奖励平台架构、交付和运营卓越方面发挥领导作用,推动系统现代化、提升可扩展性并增强可靠性。除技术领导力外,Leela还担任组织的AI倡导者,利用基于LLM的工具提升开发人员生产力和工作流,制定AI采用的最佳实践。她热衷于构建生产就绪系统、优化开发者体验,并指导工程师在技术与战略影响方面成长。她的兴趣领域包括平台工程、分布式系统、开发者生产力,以及将技术解决方案与业务及产品目标结合。

Show more Show less

#### 本文属于 Agents 主题

关注该主题

##### 相关主题:

关注者:4102

关注该主题

关注者:10238

关注该主题

关注者:5913

关注该主题

关注者:46

关注该主题

* #### Architecture & Design 热门内容

* #### 相关赞助内容

  • #### 相关赞助

![Image 17: 相关赞助图标/filters:no_upscale()/sponsorship/topic/9e025991-2977-45e6-8636-c740236b5bfc/WaveMaker-Logo-Microsite-1777568990069.png)](https://www.infoq.com/url/f/be791c31-4116-4b40-b1a0-fa93d9cb64c5/)Copilots让单个开发者更快。WaveMaker让10支团队保持一致。

通过架构治理实现跨技能水平的可预测结果。[试用WaveMaker AI](https://www.infoq.com/url/f/c86c707c-3870-4840-82d6-f42392616670/)

相关内容

May 19, 2026 ![Image 18: 图标图片/presentations/infrastructure-ai-agent-development/en/smallimage/MerrinKurian-thumbnail-1778662210003.jpeg)](https://www.infoq.com/presentations/infrastructure-ai-agent-development/)

May 18, 2026

May 17, 2026

May 16, 2026

May 15, 2026

May 15, 2026

May 13, 2026 ![Image 19: 图标图片/presentations/multi-agent-system-lessons/en/smallimage/thumbnail-1778068150406.jpeg)](https://www.infoq.com/presentations/multi-agent-system-lessons/)

May 13, 2026

May 11, 2026

相关赞助商

WaveMaker的微服务平台整合AI与现代前端、后端、移动及DevOps技术,快速构建或增强企业级云原生应用。立即从设计开始创建像素级精准的应用。了解更多。

企业团队在不失去控制和透明度的情况下难以扩展开发。了解WaveMaker Studio中的专用开发代理如何加速Web和移动应用构建,同时确保每项决策均可审核、可撤销且完全自主。

  • 赞助商:

![Image 22: 图标图片/filters:no_upscale()/sponsorship/topic/9e025991-2977-45e6-8636-c740236b5bfc/WaveMaker-Logo-Microsite-1777568990069.png)](https://www.infoq.com/url/f/be791c31-4116-4b40-b1a0-fa93d9cb64c5/)

相关内容

May 08, 2026

May 08, 2026

5月7日,2026

5月6日,2026

5月5日,2026

5月1日,2026

**The InfoQ** 电子简报

每周二汇总InfoQ上周内容的简报。加入超过250,000名资深开发者的社区。查看示例

输入您的电子邮件地址

选择您的国家 - [x] 我同意InfoQ.com按照此隐私声明处理我的数据。

我们保护您的隐私。

**The InfoQ** 电子简报

每周二汇总InfoQ上周内容的简报。加入超过250,000名资深开发者的社区。查看示例

  • 快速浏览多种创新技术与早期采用者的内容
  • 发现你未知的知识盲区
  • 保持关注你感兴趣主题的最新动态

输入您的电子邮件地址

选择您的国家 - [x] 我同意InfoQ.com按照此隐私声明处理我的数据。

我们保护您的隐私。

**InfoQ在线认证计划** 针对高级工程师和架构师的专项培训 * **聚焦架构** 由Luca Mezzalira主讲 | 2026年6月10日 * **聚焦AI工程** 由Hien Luu主讲 | 2026年7月25日 带来工作中遇到的真实架构或AI工程挑战。用5周时间与跨公司的资深同行及经验丰富的导师共同验证您的方案。了解即将开放的培训计划。 **立即注册。**

[首页](https://www.infoq.com/ "首页")[创建账户](https://www.infoq.com/reginit.action "创建账户")登录[QCon会议](http://qconferences.com/ "QCon会议")活动[为InfoQ投稿](https://www.infoq.com/write-for-infoq/ "为InfoQ投稿")[InfoQ编辑团队](https://www.infoq.com/infoq-editors/ "InfoQ编辑团队")[关于InfoQ](https://www.infoq.com/about-infoq/ "关于InfoQ")[关于C4Media](https://c4media.com/ "关于C4Media")[媒体资料](https://get.infoq.com/infoq-mediakit/ "媒体资料")[InfoQ开发者营销博客](https://devmarketing.c4media.com/?utm_source=infoq "InfoQ开发者营销博客")[多元文化](https://c4media.com/diversity "多元文化")

#### 活动

2026年6月1-2日

2026年6月10日

2026年7月25日

2026年11月16-20日

#### 关注我们

Youtube 23.2万关注者LinkedIn 2.6万关注者Instagram 新账号RSS 1.9万订阅者X 5.71万关注者Facebook 2.1万赞Bluesky 新账号

#### 获取最新资讯

InfoQ播客![Image 23: InfoQ播客标志 - 获取最新资讯](https://www.infoq.com/podcasts/)工程文化播客![Image 24: 工程文化播客标志 - 获取最新资讯](https://www.infoq.com/podcasts/#engineering_culture)软件架构师通讯![Image 25: 软件架构师通讯标志 - 获取最新资讯](https://www.infoq.com/software-architects-newsletter/)

通用反馈 [feedback@infoq.com](mailto:feedback@infoq.com) 广告合作 [sales@infoq.com](mailto:sales@infoq.com) 编辑部 [editors@infoq.com](mailto:editors@infoq.com) 营销 [marketing@infoq.com](mailto:marketing@infoq.com)

InfoQ.com及所有内容版权 © 2006-2026 C4Media Inc.

隐私声明, 服务条款, Cookie政策

关闭

[BT](https://www.infoq.com/int/bt/ "bt")

AI 可能会生成不准确的信息,请核实重要内容