我们需要更多公开的编码与代理执行轨迹,以构建数据集并打造更优秀的开源模型!

TL;DR · AI 摘要
当前开源大模型训练亟需更多公开的编码与代理执行轨迹数据,以构建高质量训练集;尽管已有大量贡献者参与,但公众仍应积极共享自身数据,Hugging Face 已上线相关数据集搜索入口。
核心要点
- OpenAI Codex Desktop 曾支持‘复制为 Markdown’导出完整对话轨迹,但该功能在近期更新中被移除,引发社区不满。
- Hugging Face 已提供搜索入口 https://huggingface.co/datasets?search=Traces,用于发现和使用公开的 co
- Clement Delangue 呼吁开发者主动分享自己的编码与代理执行轨迹,以加速开源模型性能提升。
结构提纲
按章节快速跳转。
Clement Delangue 强调需要更多公开的 coding 和 agent traces 数据来构建高质量训练集与改进开源模型。
Simon Willison 报告 OpenAI Codex Desktop 的 'Copy as Markdown' 导出功能已消失,导致用户无法再保存完整对话轨迹。
Hugging Face 提供了可搜索的 tracing 数据集入口,支持开发者查找、复用现有 trace 数据集进行模型训练。
作者呼吁广大开发者将自身编码过程与代理行为日志公开共享,共同推动开源模型生态发展。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- 开源模型训练所需公开数据共享
- 核心诉求
- 增加 coding & agent traces 公开数据
- 支撑高质量训练集构建
- 现存障碍
- Codex Desktop 功能下线(如 Copy as Markdown)
- 缺乏标准化导出与存储机制
- 可行路径
- 利用 Hugging Face 数据集平台搜索 trace 数据
- 鼓励开发者主动提交个人轨迹数据
金句 / Highlights
值得收藏与分享的关键句。
OpenAI Codex Desktop 曾支持‘复制为 Markdown’导出完整聊天记录,但该功能在最近一次更新中被移除,成为用户最喜爱的功能之一。
Hugging Face 已上线搜索入口 https://huggingface.co/datasets?search=Traces,方便查找和使用 coding/agent traces 类型数据集。
Clement Delangue 表示:‘已有大量人员参与贡献,你也应该分享你的数据!’——强调个体贡献对开源模型进步的关键作用。
clem 🤗 在 X 上发文:“我们需要更多公开分享编程代码与智能体追踪日志,以构建数据集并打造更优秀的开源模型!已有大量人士积极参与贡献,你也应分享自己的成果!https://t.co/dwMB4uaoVM” / X
别错过正在发生的事

clem 
我们需要更多公开分享编程代码和智能体追踪日志,以构建数据集并开发更优质的开源模型!已有众多人士积极贡献,你也应该分享自己的成果!https://huggingface.co/datasets?search=Traces…
引用

Simon Willison @simonw · 8小时前
我对此感到非常沮丧:OpenAI 的 Codex Desktop 曾提供“导出为 Markdown 格式”的功能,用于完整导出聊天记录,但该功能在几天前的一次更新中被移除了。这确实是我在 Codex 中最钟爱的功能,远胜于 Claude Code。https://github.com/openai/codex/issues/25201…
2026年5月31日 晚上9:23 · 1.5万次浏览 14 11 112 33 已阅读14条回复