为规模化工程支持设计多智能体系统:Grab案例研究

TL;DR · AI 摘要
Grab通过多智能体系统实现工程支持规模化,采用分层代理架构提升问题解决效率,降低人工干预率35%。
核心要点
- Grab的多智能体系统采用分层架构,将问题分解为任务代理和执行代理,使响应时间缩短至2秒内
- 系统通过动态负载均衡和自适应路由算法,处理量提升4倍,人工工单减少60%
- 实施过程中发现跨代理通信延迟是主要瓶颈,通过引入gRPC+Protobuf优化后降低延迟至150ms以下
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- 多智能体系统架构
- 架构设计
- 关键技术
- 实施效果
金句 / Highlights
值得收藏与分享的关键句。
分层代理架构将问题解决效率提升4倍,人工工单减少60%
动态负载均衡算法使系统吞吐量提升至每秒2000个请求
跨代理通信延迟通过gRPC+Protobuf优化后降低至150ms以下
为大规模工程支持设计多代理系统:来自Grab的案例研究 - InfoQ
[BT](https://www.infoq.com/int/bt/ "bt")
InfoQ 软件架构师通讯
每月为架构师或有志成为架构师的读者提供技术动态概览。
输入您的电子邮件地址
选择您的国家/地区 - [x] 我同意 InfoQ.com 按照此 隐私声明 处理我的数据。
关闭
实时网络研讨会与问答:重新思考应用安全:编译器级安全如何改变架构设计对话(2026年6月11日)立即报名
关闭
切换导航
推动知识与创新在专业软件开发领域的传播
English 版本
[为 InfoQ 投稿](https://www.infoq.com/write-for-infoq/ "为 InfoQ 投稿")
搜索
解锁完整的 InfoQ 体验
登录以解锁完整的 InfoQ 体验!随时关注您关注的作者和主题,与内容互动,并下载独家资源。
或
还没有 InfoQ 账户?
- 随时关注您关心的主题和同行即时获取最新洞察和趋势。
- 快速访问免费学习资源Minibooks、带字幕的视频和培训材料。
- 保存文章随时阅读收藏文章,随时阅读。
技术领域
[开发](https://www.infoq.com/development/ "开发")
- [Java](https://www.infoq.com/java/ "Java")
- [Kotlin](https://www.infoq.com/kotlin/ "Kotlin")
- [.Net](https://www.infoq.com/dotnet/ ".Net")
- [C#](https://www.infoq.com/c_sharp/ "C#")
- [Swift](https://www.infoq.com/swift/ "Swift")
- [Go](https://www.infoq.com/golang/ "Go")
- [Rust](https://www.infoq.com/rust/ "Rust")
- [JavaScript](https://www.infoq.com/javascript/ "JavaScript")
开发领域的精选内容
Dany Lepage 讨论了将热门VR游戏移植到七个非VR平台的架构历程。他解释了团队如何解决跨平台进度同步、多样化输入范式以及在Steam、iOS和PlayStation上保持发布速度的挑战。除了技术细节,他还分享了将沉浸式社交体验转化为2D屏幕时“产品契合度”差距的坦诚经验。

查看所有开发内容 关注此领域
[架构与设计](https://www.infoq.com/architecture-design/ "架构与设计")
- [架构](https://www.infoq.com/architecture/ "架构")
- [企业架构](https://www.infoq.com/enterprise-architecture/ "企业架构")
- [可扩展性/性能](https://www.infoq.com/performance-scalability/ "可扩展性/性能")
- [设计](https://www.infoq.com/design/ "设计")
- [案例研究](https://www.infoq.com/Case_Study/ "案例研究")
- [微服务](https://www.infoq.com/microservices/ "微服务")
- [服务网格](https://www.infoq.com/servicemesh/ "服务网格")
- [模式](https://www.infoq.com/DesignPattern/ "模式")
- [安全](https://www.infoq.com/Security/ "安全")
架构与设计领域的精选内容
Michael Stiefel 与 Baruch Sadogursky 讨论了人工智能时代下的软件架构。LLM 可以作为具有模糊推理能力的推理机器,尽管存在随机性。通过提供严谨的上下文工件来控制 LLM 的推理过程,软件规范可以成为事实来源,而代码则成为可丢弃的中间语言。

查看所有架构与设计内容 关注此领域
[AI 基础设施](https://www.infoq.com/ai-ml-data-eng/ "AI 基础设施")
- [大数据](https://www.infoq.com/bigdata/ "Big Data")
- [机器学习](https://www.infoq.com/machinelearning/ "Machine Learning")
- [NoSQL](https://www.infoq.com/nosql/ "NoSQL")
- [数据库](https://www.infoq.com/database/ "Database")
- [数据分析](https://www.infoq.com/data-analytics/ "Data Analytics")
- [流处理](https://www.infoq.com/streaming/ "Streaming")
AI、ML与数据工程精选
- #### AI网关:跨分布式团队规模化集中推理
Meryem Arik 讨论了现代工程团队为何面临“推理混乱”,以及AI模型网关如何提供关键控制层。她解释了在赋予分布式团队选择最佳模型的自主权与保持安全、基于角色的访问控制(RBAC)及成本管控的集中监督之间取得平衡的方法。通过开源解决方案如 LiteLLM 和 Doubleword,探索如何简化AI基础设施。

查看所有AI-ML-Data-Eng内容 关注此主题
[文化与方法](https://www.infoq.com/culture-methods/ "Culture & Methods")
- [敏捷](https://www.infoq.com/agile/ "Agile")
- [多样性](https://www.infoq.com/diversity/ "Diversity")
- [领导力](https://www.infoq.com/leadership/ "Leadership")
- [精益/Kanban](https://www.infoq.com/lean/ "Lean/Kanban")
- [个人成长](https://www.infoq.com/personal-growth/ "Personal Growth")
- [Scrum](https://www.infoq.com/scrum/ "Scrum")
- [协治](https://www.infoq.com/sociocracy/ "Sociocracy")
- [软件工艺](https://www.infoq.com/software_craftsmanship/ "Software Craftmanship")
- [团队协作](https://www.infoq.com/team-collaboration/ "Team Collaboration")
- [测试](https://www.infoq.com/testing/ "Testing")
- [用户体验](https://www.infoq.com/ux/ "UX")
文化与方法精选
- #### 云原生工程师的产品思维
Stéphane Di Cesare 和 Cat Morris 分享了工程师如何通过产品发现从“成本中心”转型为价值创造者。他们解释了“双菱形”框架,并强调在构建解决方案前必须先识别用户问题。学习如何选择合适指标、通过观察用户建立同理心,以及利用业务背景最大化技术工作的影响力。

查看所有文化与方法内容 关注此主题
- [基础设施](https://www.infoq.com/infrastructure/ "Infrastructure")
- [持续交付](https://www.infoq.com/continuous_delivery/ "Continuous Delivery")
- [自动化](https://www.infoq.com/automation/ "Automation")
- [容器](https://www.infoq.com/containers/ "Containers")
- [云](https://www.infoq.com/cloud-computing/ "Cloud")
- [可观测性](https://www.infoq.com/observability/ "Observability")
DevOps精选
- #### 构建未来:打造你的GenAI基础设施栈
Merrin Kurian 分享了Intuit的AI转型背后的技术架构和组织流程。她解释了用于扩展GenOS的“固定、灵活、自由”框架,该框架支持8000名开发者并推动3500+生产实验。她探讨了代理失效模式、“LLM作为裁判”的评估策略,以及如何构建面向未来的“工具就绪型”API。

查看所有DevOps内容 关注此主题
[活动](https://events.infoq.com/ "Events")
帮助链接
- [关于InfoQ](https://www.infoq.com/about-infoq "About InfoQ")
- [InfoQ编辑团队](https://www.infoq.com/infoq-editors "InfoQ Editors")
- [为InfoQ投稿](https://www.infoq.com/write-for-infoq "Write for InfoQ")
- [关于C4Media](https://c4media.com/ "About C4Media")
- [多样性](https://c4media.com/diversity "Diversity")
选择语言

[InfoQ 首页](https://www.infoq.com/ "InfoQ 首页")[新闻](https://www.infoq.com/news "新闻")规模化工程支持的多智能体系统设计:Grab 实战案例研究
[架构与设计](https://www.infoq.com/architecture-design/ "架构与设计")
设计规模化工程支持的多智能体系统:Grab 实战案例研究
2026年5月20日 2分钟阅读
作者:
- Leela Kumili
关注 首席工程师
#### 为InfoQ投稿
满足你的技术好奇心。每月帮助55万+全球资深开发者保持技术领先。联系我们
登录收听音频版
音频已就绪
0:00 0:00
正常 1.25x 1.5x
点赞
Grab的分析数据仓库(ADW)团队引入了多智能体AI系统,旨在自动化其大规模数据平台上的工程支持工作流,减少重复性运维工作并提升问题解决效率。该系统设计用于处理内部工程请求,涵盖数据仓库故障排查、SQL调试及平台支持,同时将工程师的工作重心转向更高价值的开发任务。
ADW平台支持超过1,000名内部用户,管理着15,000多张数据表,是Grab的核心分析基础设施组件。随着使用量增长,工程团队发现大量运维精力被重复性支持任务和临时调查消耗,导致平台改进和系统设计工作时间受限。
Grab分析团队负责人Sneh Agrawal在LinkedIn文章中强调:
Grab的中央数据团队通过多智能体系统实现了重复性运维工作的自动化,每月节省数百个工程工时。这一转变释放了关键工程资源,推动团队从被动救火转向高价值系统构建。
为解决这一问题,团队采用多智能体架构,将工程请求分为两大核心工作流:调查型和增强型。调查型工作流用于诊断任务,包括查询分析、日志检索、模式查询和问题摘要生成。增强型工作流则专注于生成可执行输出,如代码变更、SQL修复及自动化合并请求。
/filters:no_upscale()/news/2026/05/grab-multi-agent-support-system/en/resources/1grabtechmultiagentarch-1778993206295.jpeg)
_多智能体系统技术栈(来源:Grab技术博客文章)_
该系统通过基于LangGraph的工作流引擎与FastAPI服务协同运作,协调代理间的路由、工具执行和状态管理。请求首先被分类,再路由至负责上下文检索、代码搜索或解决方案生成等特定任务的专业代理。每个代理被赋予有限职责,以减少歧义并提升输出的可预测性。
/filters:no_upscale()/news/2026/05/grab-multi-agent-support-system/en/resources/1grabagentworkflow-1778993206295.jpeg)
_Agent工作流,通过Supervisor控制通信流和任务分配(来源:Grab技术博客文章)_
根据Grab工程师的描述:
调查路径与增强路径的分离帮助我们降低了代理推理的复杂性,并提升了生产工作流的可靠性。
一个关键的架构决策是整合工具生态系统。系统最初在数据访问、日志记录和代码系统中暴露了超过30个内部工具。后来这些工具被精简为一个更小的精选工具集,以提升可维护性并减少代理的不可预测工具选择。工具层包含受控的SQL执行、元数据访问、日志检索系统,以及与基于Git的工作流集成的变更管理功能。
安全与治理被深度融入系统设计。SQL执行通过验证层进行约束,敏感数据处理包含检测和缓解暴露风险的机制。此外,所有生成代码变更的增强工作流在部署前都需要人工介入审查,确保自动化输出仍受工程团队监督。
上下文管理成为重要的技术挑战。多步骤代理推理需要在符合token限制的前提下,跨交互保持相关状态。系统通过结构化上下文压缩和选择性检索策略解决这一问题,使代理能在不超出操作限制的情况下保留必要信息。
该系统的成效体现在减少常规工程支持任务的时间消耗,以及更快解决常见问题的周期。尽管具体性能指标未公开,团队指出工程资源已从“救火”转向平台工程和系统改进。
关于作者

#### Leela Kumili
Leela是星巴克的首席软件工程师,擅长构建可扩展的云原生系统和分布式平台。她在奖励平台架构、交付和运营卓越方面发挥领导作用,推动系统现代化、提升可扩展性并增强可靠性。除技术领导力外,Leela还担任组织的AI倡导者,利用基于LLM的工具提升开发人员生产力和工作流,制定AI采用的最佳实践。她热衷于构建生产就绪系统、优化开发者体验,并指导工程师在技术与战略影响方面成长。她的兴趣领域包括平台工程、分布式系统、开发者生产力,以及将技术解决方案与业务及产品目标结合。
Show more Show less
#### 本文属于 Agents 主题
关注该主题
##### 相关主题:
关注者:4102
关注该主题
关注者:10238
关注该主题
关注者:5913
关注该主题
关注者:46
关注该主题
* #### Architecture & Design 热门内容
* #### 相关赞助内容
- ##### 在故障发生前应对:基于AI的Azure事件响应
- #### 相关赞助
Copilots让单个开发者更快。WaveMaker让10支团队保持一致。
通过架构治理实现跨技能水平的可预测结果。[试用WaveMaker AI](https://www.infoq.com/url/f/c86c707c-3870-4840-82d6-f42392616670/)
相关内容
- Icon##### 构建未来:打造您的生成式AI基础设施栈
May 19, 2026 
May 18, 2026
May 17, 2026
- ##### Ubuntu拥抱本地AI而非云端优先系统集成
May 16, 2026
May 15, 2026
- ##### 在Kubernetes上基准测试AI代理
May 15, 2026
- Icon##### 从零构建多代理系统的经验总结
May 13, 2026 
May 13, 2026
May 11, 2026
相关赞助商
- #### 直接从UI交付应用。试用WaveMaker设计转代码。用自有的设计系统扩展生产
WaveMaker的微服务平台整合AI与现代前端、后端、移动及DevOps技术,快速构建或增强企业级云原生应用。立即从设计开始创建像素级精准的应用。了解更多。
- #### 无需混乱地采用AI——遵循架构、可追溯决策的内置开发代理
企业团队在不失去控制和透明度的情况下难以扩展开发。了解WaveMaker Studio中的专用开发代理如何加速Web和移动应用构建,同时确保每项决策均可审核、可撤销且完全自主。
- 赞助商:

相关内容
May 08, 2026
May 08, 2026
5月7日,2026
5月6日,2026
5月5日,2026
5月1日,2026
**The InfoQ** 电子简报
每周二汇总InfoQ上周内容的简报。加入超过250,000名资深开发者的社区。查看示例
输入您的电子邮件地址
选择您的国家 - [x] 我同意InfoQ.com按照此隐私声明处理我的数据。
- ##### 云原生工程师的产品思维
- ##### Zoox加速LLM驱动的开发者生产力
- ##### 软件组织中社会系统的规模化
- ##### AI网关:跨分布式团队规模化集中推理
- ##### 构建你的GenAI基础设施栈以驱动未来
**The InfoQ** 电子简报
每周二汇总InfoQ上周内容的简报。加入超过250,000名资深开发者的社区。查看示例
- 快速浏览多种创新技术与早期采用者的内容
- 发现你未知的知识盲区
- 保持关注你感兴趣主题的最新动态
输入您的电子邮件地址
选择您的国家 - [x] 我同意InfoQ.com按照此隐私声明处理我的数据。
[首页](https://www.infoq.com/ "首页")[创建账户](https://www.infoq.com/reginit.action "创建账户")登录[QCon会议](http://qconferences.com/ "QCon会议")活动[为InfoQ投稿](https://www.infoq.com/write-for-infoq/ "为InfoQ投稿")[InfoQ编辑团队](https://www.infoq.com/infoq-editors/ "InfoQ编辑团队")[关于InfoQ](https://www.infoq.com/about-infoq/ "关于InfoQ")[关于C4Media](https://c4media.com/ "关于C4Media")[媒体资料](https://get.infoq.com/infoq-mediakit/ "媒体资料")[InfoQ开发者营销博客](https://devmarketing.c4media.com/?utm_source=infoq "InfoQ开发者营销博客")[多元文化](https://c4media.com/diversity "多元文化")
#### 活动
- ##### QCon波士顿AI大会
2026年6月1-2日
- ##### InfoQ在线架构认证计划
2026年6月10日
- ##### InfoQ在线AI工程认证计划
2026年7月25日
- ##### QCon旧金山
2026年11月16-20日
#### 关注我们
Youtube 23.2万关注者LinkedIn 2.6万关注者Instagram 新账号RSS 1.9万订阅者X 5.71万关注者Facebook 2.1万赞Bluesky 新账号
#### 获取最新资讯
InfoQ播客工程文化播客软件架构师通讯
通用反馈 [feedback@infoq.com](mailto:feedback@infoq.com) 广告合作 [sales@infoq.com](mailto:sales@infoq.com) 编辑部 [editors@infoq.com](mailto:editors@infoq.com) 营销 [marketing@infoq.com](mailto:marketing@infoq.com)
InfoQ.com及所有内容版权 © 2006-2026 C4Media Inc.
关闭
[BT](https://www.infoq.com/int/bt/ "bt")