How an Agent Built a 3D Paris Gallery by Chaining Two Hugging Face Spaces
TL;DR · AI 摘要
通过组合两个 Hugging Face Spaces,一个代理成功构建了巴黎纪念碑的 3D 展览,展示了 AI 代理在多媒体软件开发中的潜力。
核心要点
- Hugging Face Spaces 可以作为 AI 代理的构建模块,无需手动集成。
- 通过 agents.md 文件,代理可以自动调用和组合多个 Spaces。
- 巴黎纪念碑的 3D 展览展示了图像生成和 3D 重建模型的端到端集成。
结构提纲
按章节快速跳转。
- §引言
一个代理通过组合两个 Hugging Face Spaces,成功构建了巴黎纪念碑的 3D 展览。
Mitchell Hashimoto 提出的构建块经济理论正在影响多媒体 AI 的开发方式。
每个 Gradio Space 都提供 agents.md 文件,使代理可以自动调用和集成模型。
代理通过组合图像生成和 3D 重建模型,构建了巴黎纪念碑的 3D 展览。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- AI 代理构建 3D 展览
- Hugging Face Spaces
- agents.md 文件
- 图像生成模型
- 3D 重建模型
- 构建块经济
- 模块化组件
- 代理集成
金句 / Highlights
值得收藏与分享的关键句。
The real unlock is chaining: the output of one Space becomes the input to the next. Prompt → image → 3D.
Every Gradio Space also exposes a plain-text agents.md that tells an agent exactly how to call it.
An agent reads that, and it can drive the Space end to end. Set an HF_TOKEN and you're going.
代理如何通过串联两个 Hugging Face Spaces 构建 3D 巴黎画廊
返回文章列表
[0
[-1
社区文章
]
发布于 2026 年 6 月 9 日
点赞
18
[
- +12
Mishig Davaadorj
mishig
关注
一个代理通过两个 Hugging Face Spaces 构建了一个 3D 巴黎画廊。
我要求一个编码代理构建一个美丽的网站,展示巴黎的纪念碑作为 3D 高斯点云。我从未打开过图像生成器。我从未接触过 3D 重建工具。该代理通过直接调用两个 Hugging Face Spaces 生成了所有资产(图像和 3D 点云),然后将它们连接到一个电影观看器中。
这是结果,作为静态 Space 实时运行:
👉 mishig/monuments-de-paris
本文将介绍为什么现在可以实现这一点,以及为什么我认为这是多媒体软件构建方式的预示。
构建模块经济影响多媒体
Mitchell Hashimoto 最近描述了一种他称之为构建模块经济的转变:软件最有效的路径不再是完美的整体,而是小而良好文档的组件,其他人(越来越多的代理)可以将它们组装起来。他的主要观察是:AI 虽然可以从头开始构建一切,但更擅长将已验证的组件粘合在一起。
这一理论主要用代码库讲述。但同样的力量正在影响多媒体 AI。使用最先进的图像模型、视频模型、TTS 模型或 3D 重建模型的困难从来不是模型本身。而是集成:SDK、权重、GPU、输入格式、轮询。如果每个模型都是一个文档化、可调用的模块,代理就可以像将 npm 包组合在一起一样将它们组合在一起。
这正是 Hugging Face Spaces 静静地成为的。
每个 Space 都是通过 agents.md 的构建模块
Hub 主机数千个最先进的模型(其中很大一部分是开放权重),其中大多数作为交互式 Spaces 部署。目前,每个 Gradio Space 还暴露了一个纯文本 agents.md,告诉代理如何调用它:
curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md一次性返回所有需要的内容:模式 URL、调用和轮询模板、如何上传文件以及认证提示:
API schema: GET .../gradio_api/info
Call endpoint: POST .../gradio_api/call/v2/{endpoint} {"param_name": value, ...}
Poll result: GET .../gradio_api/call/{endpoint}/{event_id}
File inputs: POST .../gradio_api/upload -F "files=@file.ext"
Auth: Bearer $HF_TOKEN不需要客户端库。不需要硬编码集成。代理读取这些信息,就可以从头到尾驱动 Space。设置一个 HF_TOKEN,你就可以开始。你可以在任何 Gradio Space 的“代理”按钮上找到这些说明:
真正的解锁是串联:一个 Space 的输出成为下一个 Space 的输入。提示 → 图像 → 3D。这就是这个画廊背后的整个流程。
实例:巴黎纪念碑 → 点云
代理串联了两个 Spaces:
- 图像:一个图像生成 Space 将每个纪念碑转换为干净的、黑色背景的“标本”镜头(并将埃菲尔铁塔转换为一个放在基座上的小场景)。提示输入,图像输出。
- 点云:VAST-AI/TripoSplat 从每个单张图像中重建了一个 3D 高斯点云(.ply)。图像输入,3D 输出。
生成的图像
重建的点云
代理生成的六张源图像,所有图像都孤立在黑色背景上,准备进行单图像 3D 重建:
从那里,代理还做了“粘合剂”的工作。它注意到 TripoSplat 的输出是 Y 向下,将其翻转为直立状态,自动为每个纪念碑构图,将 .ply 文件压缩为 .ksplat(体积缩小约 3 倍,因此加载速度很快),构建了一个带有滚动切换和拖动旋转界面的 Three.js 查看器,并将整个内容部署为一个静态 Space。唯一的人类输入是品味层面的:“把它拉远一点”,“用更适合 splatting 的东西替换方尖碑”,“过渡时间太长了”。
其中的几个步骤是代理对现实情况作出的反应。一个宽大的玻璃金字塔 splat 效果不好。一个细长的方尖碑显得单调。一个单视角重建会推断出背面。这正是“外包研发、快速迭代”的循环,这正是构建模块经济所预测的,只是研发变成了对话。
两个提示,一个全新的画廊
构建模块真正考验的是你能够以多低的成本重复使用它。一旦这个流程存在,创建全新的画廊只需花费大约一句话的时间。“创建一个类似的 Space,使用日本的 splat”,然后同样为埃及创建,代理会完成其余的工作:每个国家六个纪念碑图像、六个 splat、压缩、查看器和部署的 Space。
- 🏛️ 埃及的纪念碑:大金字塔、狮身人面像、阿布辛贝神庙、图坦卡蒙的面具、卢克索神庙、门农巨像。
<video autoplay loop muted playsinline width="100%" src="
">
- ⛩️ 日本的纪念碑:东京塔、姬路城、金阁寺、大阪城、镰仓大佛、严岛神社的鸟居。
这两个 Space,同样的 agents.md,只是提示语发生了变化。这就是构建模块经济的一句话:新多媒体应用的边际成本趋近于描述它的成本。
为什么这很重要
- 模型变得可组合。一个最先进的 splat 模型和一个最先进的图像模型,来自不同的组织,通过零集成代码进行连接。Hub 的开放权重目录变成了一组可调用的多媒体基本模块。
- 代理更倾向于那些有文档和可访问的模型。agents.md 使一个 Space 变得极易访问,因此代理会优先选择它,而不是必须手动设置的模型。这种动态与 Hashimoto 对开源库的标志是一致的。
- 障碍是集成,而它已经基本消失。“将一个提示转换为一个旋转的 3D 纪念碑”过去是一个项目。在这里,它只是流程中的一个步骤。
亲自尝试一下
将你自己的代理指向一个 Space 的 agents.md,让它去处理:
# 图像生成
curl https://huggingface.co/spaces/ideogram-ai/ideogram4/agents.md
# 单图像到 3D 高斯 splat
curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md将任一链接粘贴到你的编码代理(如 Claude Code 等)中,设置你的 HF_TOKEN,并让它构建一些东西。这个画廊的完整、可重复的流程,以及访问这两个 agents.md 端点的脚本,都存在于 Space 仓库中。
构建模块就坐在 Hub 上。代理已经知道如何进行粘合。
不需要客户端库。不需要硬编码的集成。代理读取这些信息,就可以从头到尾驱动 Space。设置一个 HF_TOKEN,你就可以开始。
- 图像:ideogram-ai/ideogram4 将每个纪念碑转换为干净的、黑色背景的“标本”图像(并把埃菲尔铁塔变成一个放在基座上的小场景)。输入提示,输出图像。
本文中提到的 Space 5
更多来自该作者的文章
36 个提示,一个无限的城市
5
2026 年 6 月 10 日
在笔记本电脑上两年的本地 AI:当开放模型超越摩尔定律
24
2026 年 5 月 11 日
社区
编辑
预览
通过将文件拖入文本输入框、粘贴或
点击此处
来上传图片、音频和视频。
点击此处粘贴以上传图片
评论
· 注册或登录以发表评论
- +6