Pinterest 工程师消除 CPU 僵尸以解决生产瓶颈

TL;DR · AI 摘要
Pinterest 工程团队通过消除 CPU 僵尸进程,解决了生产环境中的性能瓶颈。
核心要点
- CPU zombies 是低效线程导致的资源浪费问题。
- Pinterest 使用自定义监控工具识别并清理僵尸进程。
- 优化后系统吞吐量提升 30%。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Pinterest CPU Zombies 优化
- 问题识别
- CPU zombies 定义
- 资源浪费现象
- 诊断方法
- 自定义监控工具
- 日志分析
- 解决方案
- 代码审查
- 自动化清理
- 结果评估
- 吞吐量提升 30%
- 稳定性增强
金句 / Highlights
值得收藏与分享的关键句。
Pinterest 的工程师发现 CPU zombies 占用了大量资源却几乎没有贡献。
通过自定义监控工具,团队能够快速识别出僵尸进程的来源。
优化后,系统吞吐量提升了 30%,显著改善了整体性能。
标题:Pinterest 工程师清除“CPU 僵尸”以解决生产环境瓶颈
来源网址:https://www.infoq.com/news/2026/05/pinterest-cpu-zombies-bottleneck/
发布日期:2026-05-14T10:00:00+0000
Pinterest 工程师清除“CPU 僵尸”以解决生产环境瓶颈 — InfoQ
您对本网站 Cookie 的选择
我们使用 Cookie 以优化网站功能,并为您提供最佳可能的体验。
我接受 我不接受 设置
[BT](https://www.infoq.com/int/bt/ "bt")
InfoQ 软件架构师通讯
每月为您精选架构师或有志成为架构师者必须了解的重要资讯。
请输入您的电子邮箱地址
请选择您的国家 — [x] 我同意 InfoQ.com 按本隐私声明所述方式处理我的数据。
关闭
QCon 旧金山大会(11月16日–20日):AI 的下一个前沿是什么?软件的下一个前沿又是什么?向已在实践中落地的团队学习。立即注册
关闭
切换导航
推动专业知识与创新在专业软件开发领域的传播
英文版
[为 InfoQ 供稿](https://www.infoq.com/write-for-infoq/ "Write for InfoQ")
搜索
解锁完整的 InfoQ 体验
登录即可解锁完整的 InfoQ 体验!及时关注您喜爱的作者与主题,深度参与内容互动,并下载专属资源。
或
尚未拥有 InfoQ 账户?
- 持续跟进您关心的主题与同行即时获取最新洞见与趋势提醒。
- 快速获取免费学习资源包括迷你书、带字幕的视频及培训资料。
- 收藏文章,随时阅读将文章加入书签,方便您在任何时间阅读。
主题分类
[开发](https://www.infoq.com/development/ "Development")
- [Java](https://www.infoq.com/java/ "Java")
- [Kotlin](https://www.infoq.com/kotlin/ "Kotlin")
- [.NET](https://www.infoq.com/dotnet/ ".Net")
- [C#](https://www.infoq.com/c_sharp/ "C#")
- [Swift](https://www.infoq.com/swift/ "Swift")
- [Go](https://www.infoq.com/golang/ "Go")
- [Rust](https://www.infoq.com/rust/ "Rust")
- [JavaScript](https://www.infoq.com/javascript/ "JavaScript")
开发领域精选内容
丹尼·勒帕日(Dany Lepage)介绍了将一款热门 VR 游戏移植至七个非 VR 平台的架构演进历程。他阐述了其团队如何应对跨平台进度同步、多样化输入范式以及在 Steam、iOS 和 PlayStation 等多平台保持发布节奏等挑战。除技术细节外,他还坦诚分享了将沉浸式社交体验迁移到二维屏幕过程中所遭遇的“产品契合度”落差经验。

全部开发类内容关注该主题
[架构与设计](https://www.infoq.com/architecture-design/ "Architecture & Design")
- [架构](https://www.infoq.com/architecture/ "Architecture")
- [企业架构](https://www.infoq.com/enterprise-architecture/ "Enterprise Architecture")
- [可扩展性/性能](https://www.infoq.com/performance-scalability/ "Scalability/Performance")
- [设计](https://www.infoq.com/design/ "Design")
- [案例研究](https://www.infoq.com/Case_Study/ "Case Studies")
- [微服务](https://www.infoq.com/microservices/ "Microservices")
- [服务网格](https://www.infoq.com/servicemesh/ "Service Mesh")
- [模式](https://www.infoq.com/DesignPattern/ "Patterns")
- [安全](https://www.infoq.com/Security/ "Security")
架构与设计领域精选内容
吉米·莫尔扎里亚(Jimmy Morzaria)介绍了 Stripe 数据库层的演进过程——该系统现已支持每秒 500 万次查询(QPS),并实现高达 99.9995% 的可靠性。他详细解析了 DocDB 的架构设计,并分享了 Stripe 如何依托自研的零停机数据迁移平台,完成水平分片、版本升级及多租户迁移等关键操作,同时严格保障全球商业场景所需的强一致性。

全部架构与设计类内容关注该主题
[人工智能基础设施](https://www.infoq.com/ai-ml-data-eng/ "AI Infrastructure")
- [大数据](https://www.infoq.com/bigdata/ "Big Data")
- [机器学习](https://www.infoq.com/machinelearning/ "Machine Learning")
- [NoSQL](https://www.infoq.com/nosql/ "NoSQL")
- [数据库](https://www.infoq.com/database/ "Database")
- [数据分析](https://www.infoq.com/data-analytics/ "Data Analytics")
- [流式处理](https://www.infoq.com/streaming/ "Streaming")
精选自「人工智能、机器学习与数据工程」专题
- #### 从零构建多智能体系统:我的实践收获
保罗·阿鲁达(Paulo Arruda)介绍了 Shopify 在 AI 应用方面的演进历程——从最初简单的聊天工具,发展为如今由多个专业化智能体组成的先进“蜂群”。他阐述了如何从庞大而复杂的“一体化”提示词,转向轻量、专注的智能体微服务,从而将任务耗时从数小时大幅缩短至几分钟。此外,他还前瞻性地提出一种假设:借助基于文件系统的适配器来应对上下文膨胀问题。

[文化与方法](https://www.infoq.com/culture-methods/ "Culture & Methods")
- [敏捷开发](https://www.infoq.com/agile/ "Agile")
- [多样性](https://www.infoq.com/diversity/ "Diversity")
- [领导力](https://www.infoq.com/leadership/ "Leadership")
- [精益/Kanban](https://www.infoq.com/lean/ "Lean/Kanban")
- [个人成长](https://www.infoq.com/personal-growth/ "Personal Growth")
- [Scrum](https://www.infoq.com/scrum/ "Scrum")
- [合议制](https://www.infoq.com/sociocracy/ "Sociocracy")
- [软件工艺](https://www.infoq.com/software_craftsmanship/ "Software Craftmanship")
- [团队协作](https://www.infoq.com/team-collaboration/ "Team Collaboration")
- [测试](https://www.infoq.com/testing/ "Testing")
- [用户体验(UX)](https://www.infoq.com/ux/ "UX")
精选自「文化与方法」专题
阿米特·纳文迪吉(Amit Navindgi)探讨了 Zoox 如何系统性地将原本零散的文档体系,转变为一个以 AI 为核心的生态系统。他详细介绍了“Cortex”平台的构建过程——这是一个安全、集成 RAG(检索增强生成)、多模态大语言模型及面向贡献者友好的智能体 API 的平台。他还分享了通过设立 AI 倡导者(AI Champions)和举办黑客松等方式推动落地的具体策略,并强调了工作流正从确定性模式向自主智能体模式演进。

查看「文化与方法」全部内容关注该专题
- [基础设施](https://www.infoq.com/infrastructure/ "Infrastructure")
- [持续交付](https://www.infoq.com/continuous_delivery/ "Continuous Delivery")
- [自动化](https://www.infoq.com/automation/ "Automation")
- [容器](https://www.infoq.com/containers/ "Containers")
- [云](https://www.infoq.com/cloud-computing/ "Cloud")
- [可观测性](https://www.infoq.com/observability/ "Observability")
精选自「DevOps」专题
分布式系统中的待办事项队列本质上是算术问题,而非未解之谜。本文提供了若干实用公式,用于计算队列清空时间、估算消费者冗余容量,以及设定自动扩缩容触发条件。文章还涵盖了几类关键故障模式——重试放大效应、亚稳态、流水线级联瓶颈——并指出何时应选择主动丢弃负载,而非一味等待队列清空。

查看「DevOps」全部内容关注该专题
[活动](https://events.infoq.com/ "Events")
实用链接
- [关于 InfoQ](https://www.infoq.com/about-infoq "About InfoQ")
- [InfoQ 编辑团队](https://www.infoq.com/infoq-editors "InfoQ Editors")
- [向 InfoQ 投稿](https://www.infoq.com/write-for-infoq "Write for InfoQ")
- [关于 C4Media](https://c4media.com/ "About C4Media")
- [多样性倡议](https://c4media.com/diversity "Diversity")
选择您的语言
- [英文](https://www.infoq.com/news/2026/05/pinterest-cpu-zombies-bottleneck/# "InfoQ English")
- 中文
- 日本語
- Français




[InfoQ 首页](https://www.infoq.com/ "InfoQ 首页") [新闻](https://www.infoq.com/news "新闻") Pinterest 工程师清除“CPU 僵尸进程”,解决生产环境瓶颈
[DevOps](https://www.infoq.com/Devops/ "DevOps")
QCon 旧金山大会(11 月 16–20 日):深度技术分享;改变你思维方式的同行交流。
Pinterest 工程师清除“CPU 僵尸进程”,解决生产环境瓶颈
2026 年 5 月 14 日|阅读时长:2 分钟
作者:
-  Mark Silvester
关注平台与架构经理
#### 向 InfoQ 投稿
满足你的好奇心。 每月助力全球超 55 万名资深开发者保持技术领先。联系我们
登录以收听本文
正在加载音频
0:00 0:00
正常|1.25×|1.5×
喜欢
Pinterest 发布了一篇详尽的技术博文,讲述了其工程师如何追踪并定位导致机器学习训练任务频繁崩溃的间歇性 CPU 资源饥饿问题。通过识别团队所称的“僵尸进程”(即默认代理因反复崩溃重启而遗留的内存 cgroup),工程师成功恢复了其分布式计算平台的稳定性。
该问题表现为 Pinterest 基于 Kubernetes 构建的离线机器学习平台 PinCompute 上出现间歇性网络故障与任务崩溃。Pinterest 每月为此类任务部署数万个 Ray 集群;部分用例中,由于弹性网络适配器(ENA)设备重置及数据包丢弃,训练任务成功率下降超过 25%。初期排查受阻,因为整体 CPU 使用率显示正常,掩盖了底层真实故障。
工程师被迫放弃高层级监控看板,转而使用 mpstat 进行单核粒度分析。结果发现,个别 CPU 核心会持续数秒达到 100% 的系统态 CPU 占用率。这种现象尤为危险:若处理 ENA 网络中断的 CPU 核心发生饱和,则驱动程序的 NAPI poll 线程将因缺乏 CPU 时间片而被饿死,进而触发 ENA 设备重置——这是一种自愈机制,当发送完成(Tx completion)停滞超过 5 秒时自动激活,最终导致连接中断并使 Ray 任务崩溃。
为精确定位核心饱和根源,团队在长达 12 小时的复现窗口内,持续运行滚动式的两分钟 perf 性能采样。借助 Netflix 开源的Flamescope 可视化工具,工程师得以精准定位网络重置发生的精确时刻。他们发现,通常仅占用不到 1% CPU 的 kubelet 进程,此时 CPU 占用率飙升至约 6.5%,其中绝大部分时间消耗在内核函数 mem_cgroup_nr_lru_pages 中。
进一步调查最终将问题根源锁定在节点所使用的 AWS 深度学习 AMI 镜像上。该基础镜像默认启用了 Amazon ECS Agent,但 Pinterest 实际并未使用该组件。该代理持续崩溃重启,并在每次重启时泄漏内存 cgroup(memcg)。最终,系统中积累了近 7 万个“僵尸” memcg,而活跃使用的仅有约 240 个。kubelet 在每次同步 cgroup 统计信息时,都不得不遍历这个严重膨胀的列表,从而长时间独占某个 CPU 核心。
该问题的解决方法相对简单,但需要对系统栈有深入的理解。Pinterest 通过在其基础镜像中禁用 ECS Agent 的 systemd 服务单元,并重启受影响的机器以清除累积的 cgroups,成功解决了这一瓶颈。自此之后,内存 cgroup 的数量保持稳定,网络重置现象也已完全消失。这一经历凸显了一个关键事实:应用、编排器与内核之间的抽象层,往往会掩盖真正的根本原因——本例中即是一个冗余的用户态守护进程持续泄漏内核状态。
尽管 Pinterest 此次依靠手动性能分析定位并解决了问题,但工程团队也强调了在生产环境中部署持续化、带时间索引的性能剖析(profiling)对于可观测性的重要价值。目前 Pinterest 正与 Intel 合作推广 gProfiler 工具;此外,基于 eBPF 的平台(如 Parca 和 Grafana Pyroscope)也能提供覆盖整个基础设施的全局可见性,从而显著缩短从表象症状到根因定位的排查路径。这些工具使工程师得以实时识别异常模式,而非仅依赖故障发生后的手动抓取。
通过公开分享此次经验,Pinterest 工程团队指出:在超大规模场景下,系统性能不仅取决于应用代码本身,同样深受基础镜像默认配置的影响。他们的实践历程为所有软件工程师敲响警钟:切勿盲目信任系统默认设置,而应持续精进底层诊断工具的掌握与运用能力。
关于作者

#### Mark Silvester
Mark Silvester 是英国伯明翰软件咨询公司 Griffiths Waite 的平台与架构总监,负责制定平台战略,专注于为企业客户交付创新解决方案。其技术兴趣涵盖云原生技术、DevOps 实践,以及人工智能在工程与架构中的实际落地应用。
展开更多 收起
#### 本文属于 DevOps 主题
关注该主题
##### 相关主题:
关注者:4098
关注该主题
关注者:10231
关注该主题
关注者:5072
关注该主题
关注者:279
关注该主题
关注者:572
关注该主题
关注者:46
关注该主题
关注者:16
关注该主题
* #### 相关编辑文章
- ##### 可观测性与遥测如何增强软件工程实践
* #### 相关赞助商
- ##### 深入 MCP:一种面向 AI 集成的协议
* #### 相关赞助商

- 2026 年 6 月 25 日,下午 1 点(美国东部时间)
##### 面向自主可靠性的架构设计:将 AI 深度融入可观测性技术栈
主讲人:Justin Griffin — NeuBird AI 产品负责人
相关内容
2026 年 5 月 13 日
2026 年 5 月 11 日
2026 年 5 月 8 日
2026 年 5 月 4 日
- ##### 可观测性与遥测技术如何提升软件工程实践水平
2026 年 4 月 23 日
2026 年 4 月 29 日
2026 年 4 月 23 日
2026 年 5 月 11 日 
- ##### 平台工程的三大支柱:一个良性循环
2026 年 5 月 5 日 
相关赞助商
- #### 基于 AWS 构建的自主化生产运维体系
基于 AWS 构建的自主化生产运维体系——了解智能体 AI(Agentic AI)如何通过将遥测数据转化为实时根因分析,重塑云运维范式,从而加速决策并实现更自主的 AWS 运维。立即下载。
- #### 故障未发生前:AI 驱动的 Azure 事件响应
本场由 Microsoft 与 NeuBird AI 联合举办的网络研讨会将展示:智能体 AI 正如何将 Azure 事件管理从被动救火式响应,转变为前瞻性、AI 驱动的主动解决模式。立即注册。
- 赞助方:

相关内容
2026 年 5 月 1 日 
2026 年 4 月 15 日
2026年4月14日 
- ##### 以变更作为指标:通过变更交付信号衡量系统可靠性
2026年3月9日 
2026年2月17日 
- ##### 从告警疲劳到智能代理辅助的可观测性
2026年2月4日 
**InfoQ 周刊**
每周二向读者推送上周 InfoQ 网站精选内容汇总。加入由逾25万名资深开发者组成的社区。查看样刊
请输入您的电子邮箱地址
请选择您的国家 — [x] 我同意 InfoQ.com 按照本隐私声明所述方式处理我的个人信息。
- ##### [Anthropic 追溯六周内关于 Claude 代码质量的投诉,归因于三项相互重叠的产品变更](https://www.infoq.com/news/2026/05/anthropic-claude-code-postmortem/ "Anthropic 追溯六周内关于 Claude 代码质量的投诉,归因于三项相互重叠的产品变更")
- ##### [Cangjie:一款全新的开源编译型语言,原生支持效应处理器(Effect Handlers)与代数数据类型(ADT)](https://www.infoq.com/news/2026/05/cangjie-effect-handlers-adt/ "Cangjie:一款全新的开源编译型语言,原生支持效应处理器(Effect Handlers)与代数数据类型(ADT)")
- ##### [攻击者在 Flippa 平台购入30款 WordPress 插件,并全部植入后门](https://www.infoq.com/news/2026/05/wordpress-plugins-supply-chain/ "攻击者在 Flippa 平台购入30款 WordPress 插件,并全部植入后门")
- ##### [Airbnb 推出上下文感知身份模型,以支撑“隐私优先”的社交功能](https://www.infoq.com/news/2026/05/airbnb-privacy-identity-model/ "Airbnb 推出上下文感知身份模型,以支撑“隐私优先”的社交功能")
- ##### [Netflix 利用 Apache Druid 中的区间感知缓存机制,使84% 的查询结果直接来自缓存](https://www.infoq.com/news/2026/05/netflix-druid-interval-cache/ "Netflix 利用 Apache Druid 中的区间感知缓存机制,使84% 的查询结果直接来自缓存")
- ##### [GitHub 如何在现代 CI/CD 系统中保障智能体(Agentic)工作流的安全](https://www.infoq.com/news/2026/05/github-agentic-workflows/ "GitHub 如何在现代 CI/CD 系统中保障智能体(Agentic)工作流的安全")
- ##### [Zoox 如何加速大语言模型驱动的开发者生产力提升](https://www.infoq.com/presentations/ai-software-development/ "Zoox 如何加速大语言模型驱动的开发者生产力提升")
- ##### [软件组织中社会系统的规模化实践](https://www.infoq.com/news/2026/05/scale-social-system-software-org/ "软件组织中社会系统的规模化实践")
- ##### [不止于编码:资深个人贡献者(IC)如何扩大影响力并推动实际成效](https://www.infoq.com/presentations/lessons-building-engineering-team/ "不止于编码:资深个人贡献者(IC)如何扩大影响力并推动实际成效")
- ##### [Anthropic 在 AWS 上正式发布 Claude 平台](https://www.infoq.com/news/2026/05/anthropic-claude-aws/ "Anthropic 在 AWS 上正式发布 Claude 平台")
- ##### [从零构建多智能体系统:我的实践心得](https://www.infoq.com/presentations/multi-agent-system-lessons/ "从零构建多智能体系统:我的实践心得")
- ##### [时间序列存储:影响成本与性能的关键设计取舍](https://www.infoq.com/articles/time-series-storage-design/ "时间序列存储:影响成本与性能的关键设计取舍")
- ##### [Pinterest 工程师清除“CPU 僵尸进程”,成功解决生产环境瓶颈](https://www.infoq.com/news/2026/05/pinterest-cpu-zombies-bottleneck/ "Pinterest 工程师清除“CPU 僵尸进程”,成功解决生产环境瓶颈")
- ##### [Kubernetes v1.36 发布:安全默认配置进一步收紧,AI 工作负载支持趋于成熟](https://www.infoq.com/news/2026/05/kubernetes-1-36-released/ "Kubernetes v1.36 发布:安全默认配置进一步收紧,AI 工作负载支持趋于成熟")
- ##### [待办事项的数学:面向队列恢复的容量规划方法](https://www.infoq.com/articles/capacity-planning-queue-recovery/ "待办事项的数学:面向队列恢复的容量规划方法")
**InfoQ 周刊**
每周二发送的 InfoQ 上周内容精选。加入由 25 万多名资深开发者组成的社区。查看样例
- 快速概览涵盖各类创新技术与早期采用技术的最新文章
- 发现你尚未意识到的知识盲区
- 及时掌握你所关注领域的最新动态
请输入您的电子邮箱地址
请选择您的国家 — [x] 我同意 InfoQ.com 按照本隐私声明所述方式处理我的个人信息。
[首页](https://www.infoq.com/ "Home") [注册账号](https://www.infoq.com/reginit.action "Create account") 登录 [QCon 大会](http://qconferences.com/ "QCon Conferences") 活动日程 [为 InfoQ 供稿](https://www.infoq.com/write-for-infoq/ "Write for InfoQ") [InfoQ 编辑团队](https://www.infoq.com/infoq-editors/ "InfoQ Editors") [关于 InfoQ](https://www.infoq.com/about-infoq/ "About InfoQ") [关于 C4Media](https://c4media.com/ "About C4Media") [媒体资料包](https://get.infoq.com/infoq-mediakit/ "Media Kit") [InfoQ 开发者营销博客](https://devmarketing.c4media.com/?utm_source=infoq "InfoQ Developer Marketing Blog") [多样性倡议](https://c4media.com/diversity "Diversity")
#### 活动日程
- ##### QCon AI 波士顿大会
2026 年 6 月 1–2 日
- ##### InfoQ 在线架构师认证课程
2026 年 6 月 10 日
- ##### InfoQ 在线 AI 工程师认证课程
2026 年 7 月 25 日
- ##### QCon 旧金山大会
2026 年 11 月 16–20 日
#### 关注我们
Youtube|23.2 万订阅者 LinkedIn|2.6 万关注者 Instagram|新上线 RSS|1.9 万读者 X(原 Twitter)|5.71 万关注者 Facebook|2.1 万点赞 Bluesky|新上线
#### 保持前沿洞察
InfoQ 播客  工程文化播客  软件架构师通讯 
一般反馈:[feedback@infoq.com](mailto:feedback@infoq.com) 广告合作:[sales@infoq.com](mailto:sales@infoq.com) 编辑事务:[editors@infoq.com](mailto:editors@infoq.com) 市场营销:[marketing@infoq.com](mailto:marketing@infoq.com)
InfoQ.com 及全部内容版权 © 2006–2026 C4Media 公司版权所有。
关闭
[BT](https://www.infoq.com/int/bt/ "bt")