世界银行集团如何借助 Databricks 通过共享知识消除贫困
TL;DR · AI 摘要
世界银行集团通过 Databricks 构建统一数据与 AI 平台,首次整合结构化与非结构化知识,实现跨项目智能问答与成果导向决策。
核心要点
- 世界银行使用 Unity Catalog 实现统一数据治理,并基于 Databricks Volumes + Vector Search 构建非结构化文档的 R
- 通过 Genie + Metrics Layer + Agentic Layer 三层架构,支持自然语言跨域查询(如‘印度项目承诺与行动’),解决单一 Geni
- 平台支撑了公开问责工具 Corporate Scorecard,将绩效评估从‘修路里程’转向‘就业岗位数’等成果导向指标。
结构提纲
按章节快速跳转。
世界银行拥有数千万文档与每月三百万次下载,但结构化与非结构化数据长期割裂,导致知识查找低效、决策滞后。
从迁移结构化数据起步,逐步引入 Unity Catalog、Volumes、Genie、AI Gateway,构建统一数据与 AI 基础设施。
初期 Genie 返回结果不稳定,团队引入 Metrics Layer 确保财务与运营报告的确定性答案。
利用 Databricks Volumes + Vector Search 构建 RAG 系统,支持对项目文档的自然语言问答,替代人工文献检索。
为解决跨域问题(如‘印度承诺+行动’),构建意图分类器 + 领域分类器 + 查询分解器组成的智能路由层。
平台支撑 Corporate Scorecard 公开问责工具,推动绩效评估从‘产出’转向‘成果’,提升全球发展项目影响力。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- World Bank + Databricks:知识整合与 AI 决策
- 挑战:数据割裂
- 结构化数据:老旧本地数据库
- 非结构化数据:海量文档人工检索
- Databricks 组件演进
- Unity Catalog:统一治理
- Volumes + Vector Search:RAG 文档问答
- Genie:自然语言查询
- AI Gateway:安全与成本管控
- 架构升级:从 Genie 到 Agentic Layer
- Metrics Layer:确保确定性
- Intent/Domain/Query Decomposer:跨域路由
- 成果:成果导向问责
- Corporate Scorecard:从产出到成果
金句 / Highlights
值得收藏与分享的关键句。
‘我们一无所知。图书管理员和研究人员只能手动翻阅大量文档,试图从中理出头绪。’
Unity Catalog 是我们的转折点——它提供了一个统一接口来治理所有数据。
新系统不再只统计‘修了多少公里路’,而是衡量‘创造了多少岗位’‘建立了多少连通性’。
结构化数据必须给出确定答案——就像银行余额,不能每次都不一样。
解决方案是构建一个代理层:包含意图分类器、领域分类器与查询分解器。
标题:世界银行集团如何利用 Databricks 通过知识共享消除贫困
来源链接:https://www.databricks.com/blog/how-world-bank-group-uses-databricks-eradicate-poverty-through-shared-knowledge
发布时间:2026-05-22T15:00:00+0000
Markdown 内容:
世界银行集团的使命是推动全球共同繁荣。实现这一使命的关键在于将海量数据转化为切实可行的洞察。其知识库中存放着数千万份文档,每月文档下载量高达三百万次;挑战在于如何让这些知识在大规模范围内变得可查找、可使用,从而赋能团队实现更深远的全球影响力。
为达成这一目标,世界银行集团构建了一个基于 Databricks 的统一数据与人工智能平台,首次将结构化运营数据与非结构化文档库整合在一起,使决策更加精准,同时大幅减少了人工调研工作量。
数据分散阻碍洞察交付
世界银行集团同时运营着结构化与非结构化数据流,但二者此前从未被整合。在结构化数据方面,遗留的本地数据库难以跟上不断变化的报告需求;在非结构化数据方面,研究人员和分析师必须手动翻阅庞大的文档库,以回答一些基础问题。
“我该如何查找 1960 年在印度执行的项目?该项目存在哪些陷阱?哪些做法是成功的?”世界银行集团数据与人工智能负责人苏resh Kaudi 表示,“我们一无所知。图书管理员和研究人员只能手动调取大量文档,试图阅读并从中提炼出有价值的信息。”
这种知识瓶颈不仅拖慢了决策速度,也限制了该组织在全球项目组合中总结经验教训的能力。
通过 Databricks 实现数据民主化
世界银行集团的 Databricks 之旅始于一个明确目标:现代化其数据平台,并将结构化内容从遗留系统中迁移出来。随着项目逐步深入,团队发现 Databricks 是解决这一挑战的理想平台。
正如 Kaudi 所言,Unity Catalog 是团队的关键转折点。“Unity Catalog 对我们而言是变革性的。它提供了一个统一的界面,使我们能够对数据实施集中治理。”Kaudi 表示。随后,Databricks Volumes 为团队提供了一条可扩展路径,使其能够在同一平台上同时管理非结构化文档内容与结构化数据。Genie 使业务用户能够以自然语言直接查询结构化数据,无需编写 SQL,也无需依赖技术团队。Databricks AI Gateway 则在系统日益复杂的过程中,提供了对智能体访问权限、成本控制与安全性的集中管理。
在关键技术部署到位后,世界银行集团已准备好进入实施解决方案的最具影响力阶段——真正实现其数据民主化的愿景。该实施过程分阶段推进,每一步都以前一阶段成果为基础。团队首先将运营数据迁移至 Databricks,并借助 Unity Catalog 建立对结构化内容的治理机制,为组织的公司绩效仪表盘(一项面向公众的问责工具)奠定了基础。
“它更侧重于成果而非产出,”Kaudi 表示,“不再仅仅统计我们修建了多少公里道路,而是开始衡量我们创造了多少就业岗位、建立了多少互联互通。”
在 Genie 初期部署中,针对结构化查询的结果存在不一致性,团队随即引入了指标层(metrics layer),以确保获得确定性答案——这对财务与运营报告至关重要。
“在结构化内容中,你必须得到明确答案。例如:我的银行账户余额是多少?我不希望每次查询都得到不同的数字,”Kaudi 解释道。
随后,团队将注意力转向非结构化内容。借助 Databricks Volumes 与向量搜索功能,他们对项目文档建立索引,构建起检索增强生成(RAG)能力,从而能够响应自然语言查询,显著减少人工检索需求。
但这又带来了新问题:每个 Genie 实例均基于特定指标层构建,因此每个数据领域都需要独立的 Genie 实例。例如,像“我在印度的承诺金额是多少?我采取了哪些行动?”这类跨两个领域的提问,就需要同时调用两个独立的 Genie 实例。
解决方案是在其上构建一层智能体(agent)架构。世界银行集团打造了一个统一界面,背后由意图分类器、领域分类器与查询分解器共同支撑。当用户提出问题时,意图分类器识别其需求类型,领域分类器决定需调用哪些智能体,查询分解器则将复杂的多部分问题拆解为若干子问题,并分别路由至对应智能体。最终结果被整合为单一响应返回。
这与传统的多层 Web 架构(包括前端、应用层、业务逻辑与数据库)类似,只不过针对 AI 场景进行了升级。用户仅看到一个统一界面,但其背后可运行任意数量的领域专用 Genie 智能体、用于文档检索的 RAG 智能体,以及用于控制结果展示方式的可视化智能体。若某次查询返回的是柱状图,而用户希望改为饼状图,可视化智能体可在不重新执行底层查询的前提下完成转换。
在全面推广系统前,团队针对外部利益相关方(包括来自非洲及东亚太平洋地区的非政府组织、公务员与政府代表)开展了结构化反馈会议。他们利用 AI/BI 工具记录查询输入、路由决策与输出结果,并分析数据以理解用户真实关注的问题及存在的差距。
“我们也必须从外部收集反馈,”Kaudi 表示,“世界银行集团是如何帮助他们的?他们通常提出哪些问题?这样我们才能更主动地应对。”
用数据助力消除贫困
该平台目前每月可通过 AI 驱动的搜索与合成层支持三百万人次的文档下载,其中约一半流量来自中低收入国家。一个覆盖多个全球区域的用户反馈原型在约两天半的时间内即完成构建与部署。
“想象一下,若将此方法应用于一个项目,”Kaudi 表示,“两年前我可能预计需要两年时间才能完成;但这次我们快速、即兴地完成了它,以真正释放其价值。”
企业绩效仪表盘已在 Databricks 平台上交付。分析师如今可通过单次查询获取所需数据与上下文信息,从而无需再手动检索文档。世界银行集团正致力于将其整合至旗舰项目“知识 360”(Knowledge 360)与“数据 360”(Data 360)中,目标是通过这些旗舰计划将世界银行集团、国际金融公司(IFC)、国际开发协会(IDA)及多边投资担保机构(MIGA)紧密协同,使知识资源对所有利益相关方开放,无论其最初由哪一机构生成。
长期来看,其意义远不止于提升运营效率。
了解 Databricks 如何助力各类组织 实现数据整合、AI 治理,并在全球范围内将知识转化为行动。