Discord Rebuilds Database Operations Around Automation to Manage ScyllaDB at Massive Scale

TL;DR · AI 摘要
Discord重构数据库运维体系,围绕自动化管理大规模ScyllaDB集群,通过自研运维平台实现零停机升级、自动故障恢复和弹性扩缩容,支撑其千万级用户规模的实时通信服务。
核心要点
- Discord基于ScyllaDB构建了自动化运维平台,支持零停机升级和自动故障恢复
- 通过自研工具实现数据库集群的弹性扩缩容,应对流量波动
- 自动化运维体系显著降低了人工干预需求,提升系统稳定性
结构提纲
按章节快速跳转。
Discord面临大规模ScyllaDB集群管理挑战,传统手动运维方式无法满足业务增长需求。
Discord重新设计数据库运维流程,将自动化作为核心原则来管理ScyllaDB集群。
通过自动化工具实现ScyllaDB在大规模部署下的高效管理和维护。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Discord ScyllaDB自动化运维
- 自动化运维体系
- 零停机升级
- 自动故障恢复
- ScyllaDB集群管理
- 弹性扩缩容
- 大规模部署
- 运维效率提升
- 减少人工干预
- 系统稳定性
金句 / Highlights
值得收藏与分享的关键句。
Discord Rebuilds Database Operations Around Automation to Manage ScyllaDB at Massive Scale
Discord 围绕自动化重建数据库操作以大规模管理 ScyllaDB - InfoQ
关于本站 Cookie 的选择
我们使用 Cookie 来优化网站功能,并为您提供尽可能好的体验。
我接受 我不接受 设置
[BT](https://www.infoq.com/int/bt/ "bt")
InfoQ 软件架构师通讯
作为架构师或有志成为架构师的人士,每月了解您需要知道的内容概览。
输入您的电子邮件地址
选择您的国家 - [x] 我同意 InfoQ.com 按照此 隐私声明 处理我的数据。
关闭
实时网络研讨会和问答:更快交付,更多破坏:重新思考 AI 时代的交付系统(2026年5月28日)预订您的席位
关闭
切换导航
促进专业软件开发中的知识与创新传播
英文版
[为 InfoQ 投稿](https://www.infoq.com/write-for-infoq/ "为 InfoQ 投稿")
搜索
解锁完整的 InfoQ 体验
通过登录解锁完整的 InfoQ 体验!关注您喜欢的作者和主题,参与内容互动,并下载独家资源。
或
还没有 InfoQ 账户?
- 关注对您重要的主题和同行接收最新见解和趋势的即时提醒。
- 快速访问免费资源以持续学习小册子、带文字记录的视频和培训材料。
- 保存文章并随时阅读收藏文章,在您准备就绪时随时阅读。
主题
[开发](https://www.infoq.com/development/ "开发")
- [Java](https://www.infoq.com/java/ "Java")
- [Kotlin](https://www.infoq.com/kotlin/ "Kotlin")
- [.Net](https://www.infoq.com/dotnet/ ".Net")
- [C#](https://www.infoq.com/c_sharp/ "C#")
- [Swift](https://www.infoq.com/swift/ "Swift")
- [Go](https://www.infoq.com/golang/ "Go")
- [Rust](https://www.infoq.com/rust/ "Rust")
- [JavaScript](https://www.infoq.com/javascript/ "JavaScript")
开发精选
Dany Lepage 讨论了将一款热门 VR 游戏移植到七个非 VR 平台的架构之旅。他解释了团队如何解决跨平台进度同步、多样化输入范式以及在 Steam、iOS 和 PlayStation 上保持发布速度的挑战。除了技术层面,他还分享了将沉浸式社交存在感转化为 2D 屏幕时关于"产品适配"差距的坦率经验教训。

开发全部内容关注主题
[架构与设计](https://www.infoq.com/architecture-design/ "架构与设计")
- [架构](https://www.infoq.com/architecture/ "架构")
- [企业架构](https://www.infoq.com/enterprise-architecture/ "企业架构")
- [可扩展性/性能](https://www.infoq.com/performance-scalability/ "可扩展性/性能")
- [设计](https://www.infoq.com/design/ "设计")
- [案例研究](https://www.infoq.com/Case_Study/ "案例研究")
- [微服务](https://www.infoq.com/microservices/ "微服务")
- [服务网格](https://www.infoq.com/servicemesh/ "服务网格")
- [模式](https://www.infoq.com/DesignPattern/ "模式")
- [安全](https://www.infoq.com/Security/ "安全")
架构与设计精选
Michael Stiefel 与 Baruch Sadogursky 探讨了智能体 AI 时代的软件架构。LLM 可以发挥作用,尽管是随机的,但可以作为能够解释人类模糊性的推理机器。有了适当的严格上下文工件来控制 LLM 的推理,软件规格说明可以成为事实来源,而代码则成为可丢弃的中间语言。

架构设计全部内容关注主题
[AI 基础设施](https://www.infoq.com/ai-ml-data-eng/ "AI Infrastructure")
- [大数据](https://www.infoq.com/bigdata/ "Big Data")
- [机器学习](https://www.infoq.com/machinelearning/ "Machine Learning")
- [NoSQL](https://www.infoq.com/nosql/ "NoSQL")
- [数据库](https://www.infoq.com/database/ "Database")
- [数据分析](https://www.infoq.com/data-analytics/ "Data Analytics")
- [流处理](https://www.infoq.com/streaming/ "Streaming")
AI、ML 和数据工程精选
- #### AI 原生工程
Ian Thomas 分享了在 Meta 的 Reality Labs 中采用 AI 原生工程的案例研究。他解释了"评估与成长"框架,这是一个成熟度模型,旨在帮助团队从手动工作转向 AI 集成创新。他讨论了实际成果——包括在创纪录的时间内达到 90% 的代码覆盖率——同时解决了高级人员的担忧,如"代码质量下降"、审查疲劳和保持质量的问题。

[文化与方法](https://www.infoq.com/culture-methods/ "Culture & Methods")
- [敏捷](https://www.infoq.com/agile/ "Agile")
- [多元化](https://www.infoq.com/diversity/ "Diversity")
- [领导力](https://www.infoq.com/leadership/ "Leadership")
- [精益/Kanban](https://www.infoq.com/lean/ "Lean/Kanban")
- [个人成长](https://www.infoq.com/personal-growth/ "Personal Growth")
- [Scrum](https://www.infoq.com/scrum/ "Scrum")
- [社会管理](https://www.infoq.com/sociocracy/ "Sociocracy")
- [软件工艺](https://www.infoq.com/software_craftsmanship/ "Software Craftmanship")
- [团队协作](https://www.infoq.com/team-collaboration/ "Team Collaboration")
- [测试](https://www.infoq.com/testing/ "Testing")
- [用户体验](https://www.infoq.com/ux/ "UX")
文化与方法精选
- #### 云原生工程师的产品思维
Stéphane Di Cesare 和 Cat Morris 分享了工程师如何通过产品发现从"成本中心"转变为价值驱动者。他们解释了"双钻"框架以及为什么识别用户问题必须先于构建解决方案。了解如何选择正确的指标,通过观察建立客户同理心,并利用业务背景最大化技术工作的影响力。

- [基础设施](https://www.infoq.com/infrastructure/ "Infrastructure")
- [持续交付](https://www.infoq.com/continuous_delivery/ "Continuous Delivery")
- [自动化](https://www.infoq.com/automation/ "Automation")
- [容器](https://www.infoq.com/containers/ "Containers")
- [云](https://www.infoq.com/cloud-computing/ "Cloud")
- [可观测性](https://www.infoq.com/observability/ "Observability")
DevOps 精选
- #### A^2 I^2 的讽刺
J. Paul Reed 讨论了"自动化的讽刺"——一个 40 年前的概念现在被 AI 放大了。他解释了先进系统如何往往使人类操作员更加重要,而不是更不重要,同时却降低了干预所需的技能。分享"AI 驱动"事件的真实故事,他分享了过度依赖 AI 如何使恢复时间加倍以及如何保持弹性。

全部 devops关注话题
[活动](https://events.infoq.com/ "Events")
有用链接
- [关于 InfoQ](https://www.infoq.com/about-infoq "About InfoQ")
- [InfoQ 编辑](https://www.infoq.com/infoq-editors "InfoQ Editors")
- [为 InfoQ 写作](https://www.infoq.com/write-for-infoq "Write for InfoQ")
- [关于 C4Media](https://c4media.com/ "About C4Media")
- [多元化](https://c4media.com/diversity "Diversity")
选择您的语言

[InfoQ 首页](https://www.infoq.com/ "InfoQ 首页")[新闻](https://www.infoq.com/news "新闻")Discord 围绕自动化重建数据库操作以大规模管理 ScyllaDB
[DevOps](https://www.infoq.com/Devops/ "DevOps")
Discord 围绕自动化重建数据库操作以大规模管理 ScyllaDB
2026年5月22日 3分钟阅读
作者
- Craig Risi
关注 软件架构师 | 游戏设计师 | 作家 | 演讲者
#### 为 InfoQ 投稿
满足你的好奇心。帮助每月 55 万+ 全球高级开发人员保持领先。联系我们
登录收听本文
音频准备播放
0:00 0:00
正常 1.25x 1.5x
喜欢
Discord 详细介绍了它如何围绕一个新的内部编排框架 Scylla Control Plane (SCP) 重建其数据库操作,使其小型基础设施团队能够自动化大规模 ScyllaDB 集群管理任务,这些任务以前需要数天的手动工作。该平台现在可以跨数百个数据库节点自动执行复杂的操作,如滚动升级、集群扩展、影子集群配置和节点恢复,大大减少了操作开销和风险。
这一举措反映了超大规模平台面临的日益增长的挑战:用相对较小的工程团队运营日益复杂的分布式数据库。Discord 的持久化基础设施团队管理着数十个包含数百个节点的 ScyllaDB 集群,存储核心平台数据,包括消息、频道和服务器。历史上,这些操作依赖于脆弱的 Python 和 Shell 脚本,需要深入的机构知识和持续的手动监督。根据 Discord 的说法,随着基础设施规模和复杂性的增加,操作负担已经变得不可持续。
为了解决这个问题,Discord 开发了 SCP 作为一个通用的编排和自动化框架,围绕可重用任务、工作流和可恢复作业构建。该系统允许工程师在 YAML 中声明性地定义集群范围的操作,同时自动强制执行安全检查、重试、依赖验证、并发控制和回滚保护。
该框架专门设计用于解决公司早期工具中的三个主要弱点:不安全的执行顺序、无法从中断中恢复,以及难以将自动化扩展到新的操作场景。SCP 引入了明确的前置条件、通过 SQLite 进行状态持久化、错误分类、webhook 驱动的告警和可配置的并行性,确保操作即使在故障或中断后也能安全恢复。
其中最显著的改进之一涉及 Discord 对影子集群的使用——临时的全生产副本接收真实流量,以便在影响实时系统之前验证 ScyllaDB 升级和基础设施变更。以前,配置这些环境需要广泛的协调,包括节点配置、复制设置、验证和拆除。SCP 现在自动化了大部分此过程,将曾经消耗超过一天工程师注意力的操作减少到基本可以无人值守运行的工作流。
这种自动化尤其重要,因为 Discord 经常遇到边缘情况,这些情况只有在平台的规模和流量模式下才会出现。据该公司称,一些与升级相关的问题只有在集群中的每个节点都更新后才会显现,因此在将变更部署到生产环境之前进行真实生产模拟至关重要。
该系统的一个关键重点是确保在分布式环境中操作安全,因为在这些环境中错误可能会在集群间级联传播。SCP 使用可配置的并发控制,允许工程师定义诸如"永远不要同时重启多个可用区中的节点"之类的规则,在维护操作期间保护集群法定数量和可用性。该框架还强制任务的幂等性,确保中断的作业可以安全重试而不会损坏状态或重复操作。
Discord 强调,该系统最大的好处不仅仅是速度,而是减少了认知负担。工程师不再需要手动逐步监督长时间运行的维护程序;相反,工作流会自动执行,仅在需要人工干预时才显示问题。
Discord 的工作反映了超大规模组织中一个更大的趋势,即为有状态基础设施构建内部控制平面和编排系统。运营大型分布式数据库的公司越来越多地认识到,随着系统规模扩大,临时脚本和手动运行手册会成为操作负债。在管理基于 Cassandra 和 ScyllaDB 基础设施的公司中也可以看到类似的举措,其中编排、自动化和故障恢复正成为核心工程优先事项。
更广泛的 Cassandra 和 ScyllaDB 社区长期以来一直在讨论大规模管理分布式 NoSQL 系统的操作复杂性。Reddit 上工程社区的讨论经常指出修复、压缩、法定安全和滚动升级方面的挑战,特别是在拥有数百个或数千个节点的环境中。Discord 的 SCP 计划展示了平台团队如何通过基于策略驱动的自动化层来抽象操作复杂性,而不是依赖个人专业知识和程序纪律来回应这一挑战。
最终,Discord 的 Scylla 控制平面突显了基础设施工程的更广泛演进:从脚本驱动的操作转向声明式的、具有弹性的编排系统。随着分布式数据库成为现代平台的基础,能够安全地自动化升级、恢复、扩展和验证的能力正变得与数据库本身一样重要。
对于 Discord 而言,结果是显著的操作转变。曾经需要持续人工关注超过一天的任务现在可以启动、监控并以最少的干预安全恢复,将数据库操作从脆弱的手动流程转变为可重复的、可信的工作流。
关于作者

#### Craig Risi
Craig Risi 是一个多才多艺的人,但不知道如何运用这些才能。他本可以出去改变世界,但更喜欢制作软件。他对软件设计充满热情,更重要的是对软件质量充满热情,并在技术多样化且不断发展的技术世界中设计系统。Craig 还是《Quality By Design: Designing Quality Software Systems》一书的作者,并定期在他的博客网站和世界各地的其他技术网站上撰写文章。当不玩软件时,他经常在写作、设计棋盘游戏或毫无明显理由地长距离跑步。
显示更多 显示更少
#### 此内容属于 DevOps 主题
关注主题
##### 相关主题:
关注者:5076
关注主题
关注者:5918
关注主题
关注者:602
关注主题
关注者:807
关注主题
关注者:273
关注主题
关注者:458
关注主题
* #### 相关编辑内容
- ##### 数据湖屋巴别塔:处理跨数据库引擎的标识符解析规则
* #### 相关赞助商
- ##### 基于 AWS 构建的自主生产运维
- ##### MCP 内部:AI 集成协议
- #### 相关赞助商
测试。保护。重复。Guardsquare 结合移动应用测试和保护,提供最大安全性且零性能损失。[申请报价](https://www.infoq.com/url/f/f07340f4-e545-469d-9a56-36913cc0af72/)。
相关内容
2026年4月30日
- ##### 湖仓巴别塔:处理跨数据库引擎的标识符解析规则
2026年4月17日 
- 图标##### 如何构建无服务器数据库
2026年1月7日 
- ##### 时序存储:塑造成本和性能的设计选择
2026年5月12日 
- 图标##### A^2 I^2 的讽刺
2026年5月21日 
2026年5月13日
2026年5月1日
2026年4月30日 
2026年4月30日
相关赞助商
- #### 现代移动应用安全中实时威胁监控与分析的必要性
通过实时洞察提升移动安全。这份 Guardsquare 报告展示了为什么传统的客户端防护在面对持续威胁时显得力不从心,以及持续的威胁监控和分析如何为团队提供可操作的可见性来保护应用程序、用户和收入。
- 
#### 重新思考应用安全:为什么编译器级别的安全性改变了架构对话(现场网络研讨会 6 月 11 日)- 预订您的席位
构建过程后添加的安全措施会增加脆弱性和盲点。在编译时嵌入保护可以提高性能和韧性。本次会议比较了包装器、运行时和编译器方法,帮助您选择安全措施在 SDLC 中的合适位置。
- 由以下公司赞助

相关内容
- 图标
##### 如何构建交易所:云中的亚毫秒响应时间和 24/7 正常运行时间
2026 年 4 月 23 日 
- ##### 布隆过滤器:理论、工程权衡和 Go 语言实现
2026 年 4 月 7 日 
- 图标
##### 开源、社区和后果:MongoDB 的故事
2026 年 3 月 26 日 
- ##### 读拷贝更新(RCU):无锁性能的秘密
2026 年 3 月 6 日 
- ##### Kubernetes 中边缘应用的主动自动扩展
2026 年 2 月 17 日 
- ##### 从警报疲劳到代理辅助智能可观测性
2026 年 2 月 4 日 
**InfoQ** 通讯
每周二发送的 InfoQ 上周内容摘要。加入超过 25 万高级开发者的社区。查看示例
输入您的电子邮件地址
选择您的国家 - [x] 我同意 InfoQ.com 按照此隐私声明处理我的数据。
- ##### [Pip 26.1 发布依赖冷却和实验性锁定文件支持以对抗供应链攻击](https://www.infoq.com/news/2026/05/pip-261-dependency-cooldowns/ "Pip 26.1 Ships Dependency Cooldowns and Experimental Lockfile Support to Combat Supply Chain Attacks")
- ##### [Cloudflare 和 Stripe 允许 AI 代理创建账户、购买域名并部署到生产环境](https://www.infoq.com/news/2026/05/cloudflare-stripe-agent-commerce/ "Cloudflare and Stripe Let AI Agents Create Accounts, Buy Domains, and Deploy to Production")
- ##### [Google 推出 Cloud Fraud Defense 作为 reCAPTCHA 的继任者](https://www.infoq.com/news/2026/05/cloud-fraud-defense-recaptcha/ "Google Introduces Cloud Fraud Defense as Successor to reCAPTCHA")
- ##### [Uber 使用实时信号和列表排序改进餐厅推荐](https://www.infoq.com/news/2026/05/uber-eats-ranking-system/ "Uber Improves Restaurant Recommendations Using Real-Time Signals and Listwise Ranking")
- ##### [大规模工程支持的多智能体系统设计:Grab 的案例研究](https://www.infoq.com/news/2026/05/grab-multi-agent-support-system/ "大规模工程支持的多智能体系统设计:Grab 的案例研究")
- ##### [OpenAI 阐述用于大规模低延迟语音 AI 的 WebRTC 架构](https://www.infoq.com/news/2026/05/openai-voice-ai-scale/ "OpenAI 阐述用于大规模低延迟语音 AI 的 WebRTC 架构")
- ##### [如何使用平台工程中的黄金积木实现快速平滑交付](https://www.infoq.com/news/2026/05/platform-golden-bricks/ "如何使用平台工程中的黄金积木实现快速平滑交付")
- ##### [云原生工程师的产品思维](https://www.infoq.com/presentations/product-cloud-native/ "云原生工程师的产品思维")
- ##### [在 Zoox 加速基于 LLM 的开发者生产力](https://www.infoq.com/presentations/ai-software-development/ "在 Zoox 加速基于 LLM 的开发者生产力")
- ##### [InfoQ 推出面向高级软件从业者的在线 AI 工程培训课程和认证](https://www.infoq.com/news/2026/05/ai-engineering-certification-pro/ "InfoQ 推出面向高级软件从业者的在线 AI 工程培训课程和认证")
- ##### [xAI 发布 Grok Skills 并更新工具调用响应 API](https://www.infoq.com/news/2026/05/xai-grok-skills/ "xAI 发布 Grok Skills 并更新工具调用响应 API")
- ##### [AI 原生工程](https://www.infoq.com/presentations/ai-native-engineering/ "AI 原生工程")
- ##### [Discord 围绕自动化重建数据库操作以大规模管理 ScyllaDB](https://www.infoq.com/news/2026/05/discord-scylladb-automation/ "Discord 围绕自动化重建数据库操作以大规模管理 ScyllaDB")
- ##### [A^2 I^2 的讽刺](https://www.infoq.com/presentations/automation-incidents-ai/ "A^2 I^2 的讽刺")
- ##### [OpenTofu 1.12:Terraform 从未发布的功能](https://www.infoq.com/news/2026/05/opentofu-release-terraform/ "OpenTofu 1.12:Terraform 从未发布的功能")
**InfoQ** 通讯
每周二发送的 InfoQ 上周内容摘要。加入超过 25 万名高级开发者的社区。查看示例
- 快速了解在各种创新者和早期采用者技术上发布的内容
- 学习你不知道自己不知道的知识
- 及时了解你感兴趣主题的最新信息
输入您的电子邮件地址
选择您的国家 - [x] 我同意 InfoQ.com 按照此隐私声明处理我的数据。
[首页](https://www.infoq.com/ "首页")[创建账户](https://www.infoq.com/reginit.action "创建账户")登录[QCon 大会](http://qconferences.com/ "QCon 大会")活动[为 InfoQ 写作](https://www.infoq.com/write-for-infoq/ "为 InfoQ 写作")[InfoQ 编辑](https://www.infoq.com/infoq-editors/ "InfoQ 编辑")[关于 InfoQ](https://www.infoq.com/about-infoq/ "关于 InfoQ")[关于 C4Media](https://c4media.com/ "关于 C4Media")[媒体包](https://get.infoq.com/infoq-mediakit/ "媒体包")[InfoQ 开发者营销博客](https://devmarketing.c4media.com/?utm_source=infoq "InfoQ 开发者营销博客")[多元化](https://c4media.com/diversity "多元化")
#### 活动
- ##### QCon AI 波士顿
2026 年 6 月 1-2 日
- ##### 在线 InfoQ 架构认证
2026 年 6 月 10 日
- ##### 在线 InfoQ AI 工程认证
2026 年 7 月 25 日
- ##### QCon 旧金山
2026 年 11 月 16-20 日
#### 关注我们
Youtube 23.2万关注者Linkedin 2.6万关注者Instagram 新增RSS 1.9万读者X 5.71万关注者Facebook 2.1万点赞Bluesky 新增
#### 保持了解
InfoQ 播客工程文化播客软件架构师通讯
一般反馈 [feedback@infoq.com](mailto:feedback@infoq.com) 广告 [sales@infoq.com](mailto:sales@infoq.com) 编辑 [editors@infoq.com](mailto:editors@infoq.com) 市场营销 [marketing@infoq.com](mailto:marketing@infoq.com)
InfoQ.com 及所有内容版权 © 2006-2026 C4Media Inc.
关闭
[BT](https://www.infoq.com/int/bt/ "bt")