为 MHHS 扩容:Octopus Energy 如何实现 margin 数据工程 50 倍成本下降
Octopus Energy 通过三流分离架构 + Delta Lake CDF 增量处理,应对 MHHS 政策带来的 48 倍数据增长,实现 50 倍成本下降,日处理行数从 250 亿降至 3 亿。
入选理由:采用三流分离架构(Settlement/Half-Hourly/Monthly)适配不同结算粒度,避免单体流水线重复处理未变更数据。
产品
别名:Delta
构建在 Apache Parquet 之上的开源数据湖文件格式,提供事务性、时间旅行与统一治理能力。
已跟踪 13 条高相关材料
最近变化
2026-06-02 · 统一 Delta Lake、Databricks SQL、Notebook 等多引擎的细粒度访问控制,减少配置复杂度。
为什么值得关注
Delta Lake 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
Scaling for MHHS: how Octopus Energy achieved a 50x cost reduction in margin data engineering
Databricks · 9.2 分
Octopus Energy 通过重构数据架构,将 MHHS(全英市场半小时间隔结算)带来的 48 倍数据量增长转化为 50 倍成本下降,核心在于三流分离架构 + Delta Lake CDF 增量处理,使每日处理行数从 250 亿降至 3 亿。
Observability for any agent, anywhere: Production-ready tracing with OpenTelemetry & Unity Catalog on Databricks
Databricks · 8.7 分
Databricks 推出基于 Unity Catalog 和 OpenTelemetry 的生产级 AI Agent 可观测性方案,将 traces 以 Delta 表形式统一存储于 Lakehouse,实现低成本长期保留、SQL 分析、PII 治理与 MLflow 评估闭环...
Debunking 8 data layout myths: why Liquid Clustering outperforms partitioning
Databricks · 8.5 分
Liquid Clustering 在现代 Lakehouse 中优于传统分区,因为它动态优化数据布局、避免小文件问题,并支持多维聚类和自动选择键,而传统分区在75%以上场景中导致过度分区和性能下降。
已收录 13 条与 Delta Lake 相关的内容,按评分排序。
Octopus Energy 通过三流分离架构 + Delta Lake CDF 增量处理,应对 MHHS 政策带来的 48 倍数据增长,实现 50 倍成本下降,日处理行数从 250 亿降至 3 亿。
入选理由:采用三流分离架构(Settlement/Half-Hourly/Monthly)适配不同结算粒度,避免单体流水线重复处理未变更数据。
Databricks 推出基于 Unity Catalog 和 OpenTelemetry 的 AI Agent 可观测性方案,将 traces 以 Delta 表形式统一存储于 Lakehouse,实现低成本长期保留、SQL 分析、PII 治理与 MLflow 评估闭环。
入选理由:Databricks 支持通过 OTLP/gRPC 将 OpenTelemetry traces 实时写入 Unity Catalog Delta 表,实现零基础设施开销的 serverless ingestion。
Liquid Clustering 在现代 Lakehouse 中优于传统分区,因为它动态优化数据布局、避免小文件问题,并支持多维聚类和自动选择键,而传统分区在75%以上场景中导致过度分区和性能下降。
入选理由:Hive-style 分区在超过75%的案例中导致过度分区和小文件问题,影响查询性能。
Lakebase 是 Databricks 推出的数据库产品,支持数据应用和 AI 代理。
入选理由:Lakebase 是 Databricks 的数据库产品,专为数据应用和 AI 代理设计。
PipelineIQ 利用 AI 将混乱的 CRM 数据转化为明确的销售行动,帮助团队决定哪些交易该放弃、调整或加速。
入选理由:PipelineIQ 使用 AI 从不完整的 CRM 数据中提取前瞻性信号,而非依赖历史数据进行预测。
MTTD(平均检测时间)的核心问题在于数据访问效率,优化数据存储和查询可显著提升安全事件响应速度。
入选理由:Databricks提出通过统一的数据湖架构减少MTTD,提升30%的检测效率。
Lakebase 架构通过优化写入路径和并行处理,使 Postgres 写入性能提升 5 倍。
入选理由:Lakebase 使用 Delta Lake 格式实现事务性写入,减少锁竞争。
Databricks 推出 Cross-Engine ABAC,统一多数据引擎的细粒度访问控制,基于属性与标签的零信任策略,覆盖 Delta Lake、Databricks SQL、Notebook 等,显著降低权限配置复杂度并提升安全性与治理效率。
入选理由:统一 Delta Lake、Databricks SQL、Notebook 等多引擎的细粒度访问控制,减少配置复杂度。
Databricks 推出 Catalog Commits 通用可用版本,实现开放表格式与开放目录的融合,提升数据变更追踪和跨系统协作能力。
入选理由:Catalog Commits 现已全面可用,支持 Unity Catalog 中的数据资产变更记录。
Databricks 提出重新设计分布式系统以适配无服务器架构,通过解耦计算、存储与元数据管理提升性能和可靠性。
入选理由:传统分布式系统需为无服务器环境重构,解耦是关键。
Databricks推出了开源JDBC驱动程序,显著提升了查询速度并增加了新功能,适用于多种数据源,支持SQL查询和数据传输。
入选理由:Databricks开源JDBC驱动程序支持多种数据源,包括Delta Lake、Apache Hive和Amazon S3。
Databricks强调AI成功依赖高质量数据而非仅依赖模型优化,提出数据清洗、治理与统一平台是AI落地的关键前提,而非单纯追求更大参数模型。
入选理由:AI效果瓶颈常源于数据质量而非模型规模,清洁、一致的数据是可靠AI的基础。
Databricks文章主要介绍其产品架构与行业解决方案,但未提供碳减排决策的具体技术机制或实施案例。
入选理由:文章仅列出Databricks平台组件(如Lakehouse、Delta Lake)但未解释其如何支持碳减排