临床运营智能应基于湖库架构
TL;DR · AI 摘要
临床运营智能应该基于湖库架构,以提高数据处理效率和分析能力。
核心要点
- 湖库架构能够整合和优化医疗数据处理。
- 临床运营智能需要实时数据处理和大规模数据分析。
- Databricks 提供了强大的工具来支持湖库架构下的临床运营智能。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Clinical operations intelligence on the Lakehouse
- Lakehouse 架构优势
- 整合多种数据源
- 提供统一的数据管理平台
- 临床运营智能需求
- 实时数据处理
- 大规模数据分析
金句 / Highlights
值得收藏与分享的关键句。
湖库架构能够整合和优化医疗数据处理,提高分析效率。
临床运营智能需要实时数据处理和大规模数据分析的能力。
Databricks 提供了多种工具和服务来支持湖库架构下的临床运营智能。
医疗运营智能应属于湖仓一体 | Databricks 博客


- 为什么选择 Databricks
- * 发现
- 客户案例
- 合作伙伴
- 产品
- * Databricks 平台
- 整合与数据
- 价格
- 开源
- 解决方案
- * 行业解决方案
- 跨行业解决方案
- 迁移与部署
- 解决方案加速器
- 资源
- 学习
- 事件
- 博客和播客
- 获取帮助
- 深入了解
- 关于
- 公司
- 职位
- 媒体
- 安全与信任
- DATA + AI 峰会 
目录
目录
目录
行业5月13日,2026
医疗运营智能应属于湖仓一体
Databricks 应用程序、Lakebase 和 AI/BI 魔法精灵如何消除临床数据与决策支持应用之间的集成栈——以及为什么这种架构变化正是医疗运营所缺失的。
作者:尼古拉斯·西本利斯特
摘要
- 什么是它:站点可行性工作台是一个开源的 Databricks 应用程序,在 Databricks 工作空间内完全运行临床试验站点选择——结合了 ML 驱动的站点评分、Lakebase 用于操作状态以及 AI/BI 魔法精灵用于自然语言数据访问,无需外部 API 调用或同步管道。
- 它解决的挑战:37% 的研究者站点未能达到入组目标,根本原因在于架构问题——临床运营数据及其使用的应用程序分布在不同的系统中,迫使决策进入电子表格,并创建了集成开销、凭据蔓延和同步滞后的问题,这些问题侵蚀了对数据的信任。
- 结果与成果:TA 分段的 LightGBM 模型基于您自己的 CTMS、EDC 和 IRT 历史训练——而不是行业平均水平——随着您的组合增长而提高评分,SHAP 驱动的解释存储为受管版本化的 Delta 表。每个预测都带有 SHAP 驱动的归因存储为受管 Delta 表,使模型推理具有与评分本身一样可审计和版本化的特性。
临床数据问题并非存储问题。大多数组织已经拥有数据仓库、CTMS、EDC,而在下游某个地方还存在BI层。问题是这些系统之间并没有以支持实际临床团队决策的方式进行交流——因此决策往往是在电子表格中做出的。
今天,我们发布了Site Feasibility Workbench作为完全开源的Databricks应用,以展示当应用程序、模型和数据在同一平台上运行时,临床操作智能会是什么样子。Tufts药物开发研究中心记录了激活的调查员站点中有37%招募的患者少于目标数量,另有11%完全没有招募患者——这种综合影响导致53%的试验超出了计划的招募时间表,其中六分之一的试验比计划花费的时间多出一倍以上(Lamberti等人;后续CSDD影响报告继续跟踪类似水平的绩效不佳)。由于慢性站点表现不佳而导致的未实现药物销售额最高可达每天$500,000,以及直接试验成本每天$40,000,临床操作中的持续表现不佳是药物开发中最具影响力的成本驱动因素之一。这种综合表现不佳率至少在过去二十年里几乎没有变化。问题不在于工具,而在于架构。
临床操作团队不需要更多连接现有系统的仪表板。他们需要他们的决策支持应用与数据和模型在同一平台上运行——这样预测与验证其操作结果之间的反馈循环才能真正闭合。
架构论点
传统的临床决策支持方法看起来是这样的:分析数据存储在数据仓库或湖屋中。一个单独的应用程序数据库保存操作状态。管道使它们保持松散同步。一个Web应用程序位于两者之前,在银层添加语义协调。每一层都引入了集成开销、凭证表面积以及同步延迟,这些都会侵蚀应用程序显示的数据的信任度。
通过Databricks应用、Lakebase和AI/BI Genie,可以消除每一层——不是通过抽象它们,而是通过使其变得不再必要。
Databricks应用在工作空间内部运行Web应用程序。该应用以第一类工作空间服务主体的身份进行身份验证,通过SQL语句API查询Unity Catalog,并通过工作空间REST API调用AI/BI Genie——所有连接都是内部的。临床操作数据从不跨越工作空间边界。该应用继承了Unity Catalog的访问控制,无需额外配置。
Lakebase是操作数据库层——空闲时可缩放至零的托管PostgreSQL,完全在工作空间身份系统内进行配置和凭证管理。传统应用需要独立管理的RDS实例及其自己的模式漂移、同步作业和凭证轮换,而Lakebase则与数据和模型所在的同一平台共存。
AI/BI Genie填补了最后一项空白:直接嵌入应用程序流程中的受控数据的自然语言访问。研究经理可以用普通英语在相同的Unity Catalog表上提问,这些表也是机器学习模型训练的基础,并且应用同样具备访问控制。
结果是一个临床操作应用,它不进行外部API调用,维护独立的操作数据库基础设施,并且在分析层和操作层之间不需要同步管道。

扩展
图1——Databricks湖屋平台作为统一的临床智能堆栈。外部来源通过Lakeflow(青铜→白银→黄金)摄入。Mosaic AI训练AI/ML模型并将版本化的预测写回Unity Catalog。SQL仓库、Lakebase和AI/BI Genie服务于Databricks应用——该应用在平台边界内运行,所有连接均为内部连接。
审计论点
标准的行业方法依赖于供应商或合同研究组织提供的商业评分产品。这些工具基于聚合的行业数据——这可以作为基线参考,但无法针对您的组合提供具体细节。拥有十年CTMS、EDC和IRT历史的赞助商携带着大量关于其站点在协议执行中表现的信号。
当机器学习堆栈运行在Databricks上时,这种机构知识成为训练数据。此工作台中的模型是基于您历史上的招募率、站点资格历史、筛选失败模式以及协议执行记录进行训练的——而不是基于行业平均水平。CMS开放支付增加了公共信号层,当适当使用时,它可以与研究参与度和基础设施相关联,并且是免费提供的。随着试验组合的增长,模型在同一基础设施上得到改进。这就是单平台架构能够实现而许可评分产品无法实现的复利回报:每个新研究使预测更加准确,每个新的站点关系都会反映在下一次训练运行中。MLflow跟踪每个模型训练运行、参数、指标和产物,从而实现不同模型版本之间的比较、按需再现性,并从原始CTMS和EDC记录到部署预测的完整审计追踪。
监管维度在这里也很重要。21 CFR Part 11、ICH E6(R3)_Step4_FinalGuideline_2025_0106.pdf) 和 FDA 的良好机器学习规范 (GMLP) 指导方针,以及 FDA 对算法决策支持透明度的日益重视,使得模型可解释性和数据治理成为关键考虑因素,而非可选功能。因为每个预测都存储了一个由治理的 Unity Catalog Delta 表版本化的 SHAP 归因——并且可以通过 Unity Catalog 追溯其历史记录并查询——站点选择的理由与预测本身一样可审计。临床事务团队可以用 SQL 查询回答数据监测委员会的问题,而不是依赖黑盒供应商报告。
我们构建的内容
站点可行性工作台是一个六步引导式工作流程,用于临床试验站点选择:协议选择、评分约束、地理概览、站点排名、基于 SHAP 的深入站点分析,以及最终的短名单。多样性考量是首要的评分维度,符合 FDA 在 FDORA 2022 下对多样性行动计划的期望。
综合可行性评分结合了真实世界证据、患者访问数据、历史站点表现、站点资格历史、Open Payments KOL 信号以及协议执行因素——所有这些因素都由 TA 分割的 LightGBM 模型驱动,并基于组织自身的 CTMS、EDC 和 IRT 历史训练。
需要强调的是,不是工作流程步骤或模型特征。患者级别的数据继承了 Unity Catalog 的访问控制,而 PHI 处理则遵循了赞助商在目录或模式级别配置的 HIPAA 安全港/专家判断立场。
架构所实现的是:每个预测都存储了一个由治理的 Delta 表版本化的 SHAP 解释,这使得模型的合理性与它解释的分数一样可审计和版本化。由于每个预测都被分解成由治理的 SHAP 归因组成,赞助商可以审计推荐意见,以防止系统性低估社区站点、少数族裔服务机构或首次研究者——将可解释性转化为公平性控制。
保存的短名单会持久化到 Lakebase 中供团队共享。AI/BI 魔法精灵助手可以在自然语言中回答跨域问题,针对相同的 Unity Catalog 表。这一切都不需要工作空间之外的基础设施。
这是一个决策支持层,而不是一个源记录系统。CTMS/EDC/IRT 仍然是权威来源。工作台生成的预测在其历史记录通过 Unity Catalog 和 MLflow 进行治理的情况下产生。

扩展
图 2 — 站点可行性工作台:这是一个具有状态的工作流应用程序,用于创建和分享基于真实世界数据和 AI 的站点选择短名单。
完整的应用程序——FastAPI 后端、React 前端、种子笔记本和部署脚本——已发布为开源仓库。将其部署到现有的 Databricks 工作空间并使用 Unity Catalog 通常需要大约 30 分钟的技术部署时间,之后还需进行赞助商特定的安全审查和验证。
更广泛的平台的一部分
站点可行性工作台是更广泛架构——Databricks 临床运营智能中心——的第一个公开发布版本,该架构涵盖了整个临床试验生命周期:
- 站点可行性与选择——本仓库涵盖的内容
- 患者队列与招募——从湖仓中的 EHR 和真实世界证据构建协议对齐的患者队列
- 入组速度优化器——每月对未来 1-3 个月的每个站点进行 ML 堵塞预测
- 风险监测与合规——持续监控入组异常、数据滞后和协议偏差
所有四个模块都可以作为 Databricks 应用程序部署。所有四个模块都可以直接查询 Unity Catalog。它们不会调用外部 API。当临床应用与您的数据和模型同处一处时,反馈循环就会闭合。站点选择模型可以从入组结果中学习。风险评分会随着修正案历史记录的增长而更新。每个 AI 驱动的推荐意见都有一个回溯到产生它的 CTMS、EDC 和 IRT 记录的历史记录轨迹。
开始使用
克隆公共仓库。部署。告诉我们您做了什么更改。
对于完整的临床运营智能中心——观看 BrickTalk 录制视频:扩大生物医药智能 + Databricks 自动化临床运营。
在生产环境中,Lakebase 和 Databricks 应用程序 深入探讨了平台的基本要素。
本文是 Databricks 临床运营智能中心系列的一部分——一套涵盖完整临床试验生命周期的开源 Databricks 应用程序。从站点可行性工作台的 GitHub 仓库开始。要了解完整的平台概述,请观看 BrickTalk:扩大生物医药智能 + Databricks 自动化临床运营。探索下面与 Lakebase 和 Databricks 应用程序相关的相关平台文章。
获取最新文章
订阅我们的博客,获取最新文章直接发送到您的邮箱。
通过点击“订阅”,我理解我将收到 Databricks 的通讯,并同意 Databricks 按照其 隐私政策 处理我的个人信息。
订阅

为什么选择 Databricks
探索
客户案例
合作伙伴
产品
Databricks 平台
定价
开源
集成与数据
解决方案
面向行业的 Databricks 解决方案
跨行业解决方案
数据迁移 数据迁移解决方案
专业服务 专业服务
解决方案加速器 解决方案加速器
解决方案
Databricks 行业解决方案
跨行业解决方案
数据迁移
专业服务
解决方案加速器
资源
学习
活动
博客与播客
资源
学习
活动
博客与播客
关于我们
公司
职业机会
新闻
安全与信任

Databricks Inc.
地址:160 Spear Street, 15层
旧金山,加利福尼亚州 94105
电话:1-866-330-0121

- [](https://www.linkedin.com/company/databricks)
- [](https://www.facebook.com/pages/Databricks/560203607379694)
- [](https://twitter.com/databricks)
- [](https://www.databricks.com/feed)
- [](https://www.glassdoor.com/Overview/Working-at-Databricks-EI_IE954734.11,21.htm)
- [](https://www.youtube.com/@Databricks)
© Databricks 2026. 版权所有。Apache、Apache Spark、Spark、Spark Logo、Apache Iceberg 和 Apache Iceberg Logo 是 Apache 软件基金会 的商标。
我们关心您的隐私
Databricks 使用 cookie 和类似技术来增强网站导航、分析网站使用情况、个性化内容和广告,并如我们在 Cookie 声明 中所述。要禁用非必要的 cookie,请点击“全部拒绝”。您还可以通过点击“管理偏好设置”来调整 cookie 设置。

隐私偏好中心
- ### 您的隐私
- ### 必需的 cookie
- ### 性能 cookie
- ### 功能性 cookie
- ### 目标广告 cookie
- ### 其他用途
#### 您的隐私
当您访问任何网站时,它可能会在您的浏览器中存储或检索信息,这些信息通常以 cookie 的形式存在。这些信息可能与您、您的偏好或您的设备有关,主要用于使网站按您期望的方式工作。这些信息通常不会直接识别您,但可以为您提供更加个性化的网络体验。由于我们尊重您的隐私权,您可以选择不允许某些类型的 cookie。
#### 拒绝销售、共享和目标广告
根据您的位置,您可能有权拒绝出售或分享您的个人数据,或者拒绝基于个人数据的在线目标广告。您可以根据 cookie 和类似标识符在此处禁用可选 cookie 来拒绝基于 cookie 的目标广告。如果您希望基于其他标识符(例如电子邮件地址)拒绝目标广告,请提交请求至我们的 隐私请求中心。
#### 必需的 cookie
始终启用
这些 cookie 对网站的功能至关重要,无法在我们的系统中关闭。它们有助于提供基本的网站功能,如设置隐私偏好、登录或填写表单。您可以将浏览器设置为阻止或警告这些 cookie,但网站的部分功能将不再可用。
#### 性能 cookie
- [x] 性能 cookie
这些 cookie 允许我们计算访问次数和流量来源,以便衡量并改进网站的性能。它们帮助我们了解哪些页面最受欢迎,以及访问者如何在网站上移动。
#### 功能性 cookie
- [x] 功能性 cookie
这些 cookie 使网站能够提供增强的功能和个性化服务。它们可能由我们或已添加到我们页面的第三方提供商设置。如果不允许这些 cookie,则这些服务中的某些或全部可能无法正常运行。
#### 目标广告 cookie
- [x] 目标广告 cookie
这些 cookie 可能由我们的广告合作伙伴通过网站设置。它们可能用于建立您的兴趣档案并在其他网站上显示相关广告。如果不允许这些 cookie,您将看到较少的目标广告。
#### 其他用途
- [x] 其他用途
Cookie 列表
同意 法律/利益
- [x] 同意框标签标签
- [x] 同意框标签标签
- [x] 同意框标签标签
清除
- - [x] 同意框标签标签
应用 取消
确认我的选择
允许所有