T
traeai
登录
返回首页
Hugging Face Blog

How an Agent Built a 3D Paris Gallery by Chaining Two Hugging Face Spaces

8.5Score

TL;DR · AI 摘要

通过组合两个 Hugging Face Spaces,一个代理成功构建了巴黎纪念碑的 3D 展览,展示了 AI 代理在多媒体软件开发中的潜力。

核心要点

  • Hugging Face Spaces 可以作为 AI 代理的构建模块,无需手动集成。
  • 通过 agents.md 文件,代理可以自动调用和组合多个 Spaces。
  • 巴黎纪念碑的 3D 展览展示了图像生成和 3D 重建模型的端到端集成。

结构提纲

按章节快速跳转。

  1. 一个代理通过组合两个 Hugging Face Spaces,成功构建了巴黎纪念碑的 3D 展览。

  2. Mitchell Hashimoto 提出的构建块经济理论正在影响多媒体 AI 的开发方式。

  3. 每个 Gradio Space 都提供 agents.md 文件,使代理可以自动调用和集成模型。

  4. 代理通过组合图像生成和 3D 重建模型,构建了巴黎纪念碑的 3D 展览。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • AI 代理构建 3D 展览
    • Hugging Face Spaces
      • agents.md 文件
      • 图像生成模型
      • 3D 重建模型
    • 构建块经济
      • 模块化组件
      • 代理集成

金句 / Highlights

值得收藏与分享的关键句。

  • The real unlock is chaining: the output of one Space becomes the input to the next. Prompt → image → 3D.

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Every Gradio Space also exposes a plain-text agents.md that tells an agent exactly how to call it.

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • An agent reads that, and it can drive the Space end to end. Set an HF_TOKEN and you're going.

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#Hugging Face#AI 代理#3D 重建#多媒体软件
打开原文

代理如何通过串联两个 Hugging Face Spaces 构建 3D 巴黎画廊

返回文章列表

[0

[-1

社区文章

]

发布于 2026 年 6 月 9 日

点赞

18

[

  • +12

Mishig Davaadorj

mishig

关注

一个代理通过两个 Hugging Face Spaces 构建了一个 3D 巴黎画廊。

我要求一个编码代理构建一个美丽的网站,展示巴黎的纪念碑作为 3D 高斯点云。我从未打开过图像生成器。我从未接触过 3D 重建工具。该代理通过直接调用两个 Hugging Face Spaces 生成了所有资产(图像和 3D 点云),然后将它们连接到一个电影观看器中。

这是结果,作为静态 Space 实时运行:

👉 mishig/monuments-de-paris

本文将介绍为什么现在可以实现这一点,以及为什么我认为这是多媒体软件构建方式的预示。

构建模块经济影响多媒体

Mitchell Hashimoto 最近描述了一种他称之为构建模块经济的转变:软件最有效的路径不再是完美的整体,而是小而良好文档的组件,其他人(越来越多的代理)可以将它们组装起来。他的主要观察是:AI 虽然可以从头开始构建一切,但更擅长将已验证的组件粘合在一起。

这一理论主要用代码库讲述。但同样的力量正在影响多媒体 AI。使用最先进的图像模型、视频模型、TTS 模型或 3D 重建模型的困难从来不是模型本身。而是集成:SDK、权重、GPU、输入格式、轮询。如果每个模型都是一个文档化、可调用的模块,代理就可以像将 npm 包组合在一起一样将它们组合在一起。

这正是 Hugging Face Spaces 静静地成为的。

每个 Space 都是通过 agents.md 的构建模块

Hub 主机数千个最先进的模型(其中很大一部分是开放权重),其中大多数作为交互式 Spaces 部署。目前,每个 Gradio Space 还暴露了一个纯文本 agents.md,告诉代理如何调用它:

code
curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md

一次性返回所有需要的内容:模式 URL、调用和轮询模板、如何上传文件以及认证提示:

code
API schema:   GET  .../gradio_api/info
Call endpoint: POST .../gradio_api/call/v2/{endpoint} {"param_name": value, ...}
Poll result:  GET  .../gradio_api/call/{endpoint}/{event_id}
File inputs:  POST .../gradio_api/upload -F "files=@file.ext"
Auth:         Bearer $HF_TOKEN

不需要客户端库。不需要硬编码集成。代理读取这些信息,就可以从头到尾驱动 Space。设置一个 HF_TOKEN,你就可以开始。你可以在任何 Gradio Space 的“代理”按钮上找到这些说明:

真正的解锁是串联:一个 Space 的输出成为下一个 Space 的输入。提示 → 图像 → 3D。这就是这个画廊背后的整个流程。

实例:巴黎纪念碑 → 点云

代理串联了两个 Spaces:

  • 图像:一个图像生成 Space 将每个纪念碑转换为干净的、黑色背景的“标本”镜头(并将埃菲尔铁塔转换为一个放在基座上的小场景)。提示输入,图像输出。
  • 点云:VAST-AI/TripoSplat 从每个单张图像中重建了一个 3D 高斯点云(.ply)。图像输入,3D 输出。

生成的图像

重建的点云

代理生成的六张源图像,所有图像都孤立在黑色背景上,准备进行单图像 3D 重建:

从那里,代理还做了“粘合剂”的工作。它注意到 TripoSplat 的输出是 Y 向下,将其翻转为直立状态,自动为每个纪念碑构图,将 .ply 文件压缩为 .ksplat(体积缩小约 3 倍,因此加载速度很快),构建了一个带有滚动切换和拖动旋转界面的 Three.js 查看器,并将整个内容部署为一个静态 Space。唯一的人类输入是品味层面的:“把它拉远一点”,“用更适合 splatting 的东西替换方尖碑”,“过渡时间太长了”。

其中的几个步骤是代理对现实情况作出的反应。一个宽大的玻璃金字塔 splat 效果不好。一个细长的方尖碑显得单调。一个单视角重建会推断出背面。这正是“外包研发、快速迭代”的循环,这正是构建模块经济所预测的,只是研发变成了对话。

两个提示,一个全新的画廊

构建模块真正考验的是你能够以多低的成本重复使用它。一旦这个流程存在,创建全新的画廊只需花费大约一句话的时间。“创建一个类似的 Space,使用日本的 splat”,然后同样为埃及创建,代理会完成其余的工作:每个国家六个纪念碑图像、六个 splat、压缩、查看器和部署的 Space。

  • 🏛️ 埃及的纪念碑:大金字塔、狮身人面像、阿布辛贝神庙、图坦卡蒙的面具、卢克索神庙、门农巨像。

<video autoplay loop muted playsinline width="100%" src="

">

  • ⛩️ 日本的纪念碑:东京塔、姬路城、金阁寺、大阪城、镰仓大佛、严岛神社的鸟居。

这两个 Space,同样的 agents.md,只是提示语发生了变化。这就是构建模块经济的一句话:新多媒体应用的边际成本趋近于描述它的成本。

为什么这很重要

  • 模型变得可组合。一个最先进的 splat 模型和一个最先进的图像模型,来自不同的组织,通过零集成代码进行连接。Hub 的开放权重目录变成了一组可调用的多媒体基本模块。
  • 代理更倾向于那些有文档和可访问的模型。agents.md 使一个 Space 变得极易访问,因此代理会优先选择它,而不是必须手动设置的模型。这种动态与 Hashimoto 对开源库的标志是一致的。
  • 障碍是集成,而它已经基本消失。“将一个提示转换为一个旋转的 3D 纪念碑”过去是一个项目。在这里,它只是流程中的一个步骤。

亲自尝试一下

将你自己的代理指向一个 Space 的 agents.md,让它去处理:

code
# 图像生成
curl https://huggingface.co/spaces/ideogram-ai/ideogram4/agents.md
# 单图像到 3D 高斯 splat
curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md

将任一链接粘贴到你的编码代理(如 Claude Code 等)中,设置你的 HF_TOKEN,并让它构建一些东西。这个画廊的完整、可重复的流程,以及访问这两个 agents.md 端点的脚本,都存在于 Space 仓库中。

构建模块就坐在 Hub 上。代理已经知道如何进行粘合。

不需要客户端库。不需要硬编码的集成。代理读取这些信息,就可以从头到尾驱动 Space。设置一个 HF_TOKEN,你就可以开始。

  • 图像:ideogram-ai/ideogram4 将每个纪念碑转换为干净的、黑色背景的“标本”图像(并把埃菲尔铁塔变成一个放在基座上的小场景)。输入提示,输出图像。

本文中提到的 Space 5

更多来自该作者的文章

36 个提示,一个无限的城市

5

2026 年 6 月 10 日

在笔记本电脑上两年的本地 AI:当开放模型超越摩尔定律

24

2026 年 5 月 11 日

社区

编辑

预览

通过将文件拖入文本输入框、粘贴或

点击此处

来上传图片、音频和视频。

点击此处粘贴以上传图片

评论

· 注册或登录以发表评论

  • +6

AI 可能会生成不准确的信息,请核实重要内容