我们需要更多公开的编码与代理执行轨迹，以构建数据集并打造更优秀的开源模型！

clem 🤗(@ClementDelangue)

clem 🤗(@ClementDelangue)2026年5月31日

我们需要更多公开的编码与代理执行轨迹，以构建数据集并打造更优秀的开源模型！

5.5Score

TL;DR · AI 摘要

当前开源大模型训练亟需更多公开的编码与代理执行轨迹数据，以构建高质量训练集；尽管已有大量贡献者参与，但公众仍应积极共享自身数据，Hugging Face 已上线相关数据集搜索入口。

核心要点

OpenAI Codex Desktop 曾支持‘复制为 Markdown’导出完整对话轨迹，但该功能在近期更新中被移除，引发社区不满。
Hugging Face 已提供搜索入口 https://huggingface.co/datasets?search=Traces，用于发现和使用公开的 co
Clement Delangue 呼吁开发者主动分享自己的编码与代理执行轨迹，以加速开源模型性能提升。

结构提纲

按章节快速跳转。

§核心呼吁：扩大公开数据共享
Clement Delangue 强调需要更多公开的 coding 和 agent traces 数据来构建高质量训练集与改进开源模型。
·现状与挑战：关键功能被移除
Simon Willison 报告 OpenAI Codex Desktop 的 'Copy as Markdown' 导出功能已消失，导致用户无法再保存完整对话轨迹。
·可用资源：Hugging Face 数据集平台
Hugging Face 提供了可搜索的 tracing 数据集入口，支持开发者查找、复用现有 trace 数据集进行模型训练。
·行动号召：鼓励个人贡献者参与
作者呼吁广大开发者将自身编码过程与代理行为日志公开共享，共同推动开源模型生态发展。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

开源模型训练所需公开数据共享
- 核心诉求
  - 增加 coding & agent traces 公开数据
  - 支撑高质量训练集构建
- 现存障碍
  - Codex Desktop 功能下线（如 Copy as Markdown）
  - 缺乏标准化导出与存储机制
- 可行路径
  - 利用 Hugging Face 数据集平台搜索 trace 数据
  - 鼓励开发者主动提交个人轨迹数据

金句 / Highlights

值得收藏与分享的关键句。

OpenAI Codex Desktop 曾支持‘复制为 Markdown’导出完整聊天记录，但该功能在最近一次更新中被移除，成为用户最喜爱的功能之一。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
Hugging Face 已上线搜索入口 https://huggingface.co/datasets?search=Traces，方便查找和使用 coding/agent traces 类型数据集。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
Clement Delangue 表示：‘已有大量人员参与贡献，你也应该分享你的数据！’——强调个体贡献对开源模型进步的关键作用。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X

#开源#代理轨迹#数据集#编码

打开原文

clem 🤗 在 X 上发文：“我们需要更多公开分享编程代码与智能体追踪日志，以构建数据集并打造更优秀的开源模型！已有大量人士积极参与贡献，你也应分享自己的成果！https://t.co/dwMB4uaoVM” / X

别错过正在发生的事

clem ![Image 2: 🤗](https://x.com/ClementDelangue)

@ClementDelangue

我们需要更多公开分享编程代码和智能体追踪日志，以构建数据集并开发更优质的开源模型！已有众多人士积极贡献，你也应该分享自己的成果！https://huggingface.co/datasets?search=Traces…

引用

Simon Willison @simonw · 8小时前

我对此感到非常沮丧：OpenAI 的 Codex Desktop 曾提供“导出为 Markdown 格式”的功能，用于完整导出聊天记录，但该功能在几天前的一次更新中被移除了。这确实是我在 Codex 中最钟爱的功能，远胜于 Claude Code。https://github.com/openai/codex/issues/25201…

2026年5月31日晚上9:23 · 1.5万次浏览 14 11 112 33 已阅读14条回复