T
traeai
登录
返回首页
Towards Data Science

我们一路学到的教训。或者,真的是这样吗?

7.8Score
我们一路学到的教训。或者,真的是这样吗?

TL;DR · AI 摘要

本文探讨了在数据与AI团队中,使用ChatGPT等AI代理替代实习生进行研究探索的可行性。作者通过将一个月的实习任务压缩到一个周末,验证了AI代理在完成复杂数据项目中的潜力,并反思了传统实习生模式是否仍具优势。

核心要点

  • Bauplan公司通过暑期实习项目从哥伦比亚大学、CMU等顶尖院校招募实习生,成功将探索成果转化为产品资产。
  • 作者尝试用ChatGPT在周末内完成原本需一个月的实习任务,验证了AI代理在研究探索中的高效性。
  • 尽管AI代理能快速产出结果,但其长期影响和对知识传承的社会契约仍需深入讨论。

结构提纲

按章节快速跳转。

  1. 文章以游戏地图类比技术路线图,说明实习生在早期数据创业公司中扮演探索未知领域的角色。

  2. 实习生不仅提供短期劳动力,还带来人才储备和社区影响力,但面临AI替代的威胁。

  3. 作者设计了一个实验,用ChatGPT在周末内完成原本需要一个月的实习任务,测试其可行性。

  4. 通过设定具体任务,ChatGPT成功生成了可集成到产品的研究成果,证明其具备高效率。

  5. 尽管AI代理表现优异,但其对知识传承和社会契约的影响仍需谨慎评估。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • AI代理 vs 实习生:研究探索的未来
    • 实习生的角色
      • 探索未知领域
      • 人才储备
      • 社会契约
    • AI代理的潜力
      • 高效执行
      • 快速产出
      • 成本效益
    • 挑战与反思
      • 长期影响
      • 伦理问题
      • 知识传承

金句 / Highlights

值得收藏与分享的关键句。

  • “如果我们可以派一个探险家去清理地图,那么我们就能获得一些关于你到达那里后等待着你的东西的认识。”

    第1段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • “我们可以争论说,社会契约正在被破坏:当然,年轻的研究人员一直(在某种意义上)是一个‘负担’,但这种负担既是一种回馈的方式,也是对下一代的投资。”

    第2段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • “我试着用ChatGPT在一个周末内完成一个月的实习任务。”

    第3段

    ⬇︎ 下载 PNG𝕏 分享到 X
#AI#数据科学#实习#ChatGPT#研究
打开原文

标题:是我们在路上学到的教训吗?抑或并非如此?

来源网址:https://towardsdatascience.com/its-the-lessons-we-learned-along-the-way-or-is-it/

发布日期:2026-06-01T13:30:00+00:00

Markdown 内容: _使用 ChatGPT 解决数据领域中一个典型的为期一个月的实习问题。这个问题在某种程度上“被解决了”,但我不确定它是否意味着我原本以为的意义。对于数据和人工智能从业者而言,这现在是一个非常实际的问题。许多团队利用实习生或研究探索来尝试新想法:人工智能现在足够好吗?这些项目是否仅仅关乎最终成果?_

实习生作为探索者

在早期数据初创公司中构建技术路线图,并不与典型的电子游戏地图有多大区别:

图片 1

一个电子游戏地图,世界一次一步地揭示出来。由作者使用 ChatGPT 生成的图像。

路线图不仅比你能做的事情更大,而且也比你能看到的更大。如果我们能通过派遣一名探险者去清理地图,从而窥探“产品地平线”之外的世界,那么我们就能对到达那里后等待着你的事物有所了解(探险者可能会死亡,因此这个类比到此为止)。

Bauplan(我在2024年共同创立的公司)做出了一个对其规模而言不寻常的选择:从顶尖学府(哥伦比亚大学、卡内基梅隆大学、威斯康星大学麦迪逊分校)招募暑期实习生,以窥视地平线之外的世界。到目前为止,这一做法非常成功。除了更好的招聘渠道、社区地位和一些社会影响力外,这些探索已经进入我们的产品并成为战略资产,随着公司的发展而发挥作用。

当我为2026年夏季发出实习邀请时,我的X平台(原推特)上有一半的内容告诉我,我完全做错了。这远非一个假设性问题,在不同的阶段、规模和限制下,当今所有数据和人工智能团队都面临着同样的问题:现在是否有更好的方式用代理进行研究探索?如果有,什么是易于适应且经过验证的良好AI设置?

希望我们的经验和观点能对许多数据从业者有价值,以下是我们的设置以及从与ChatGPT合作完成的真实研究探索中学到的经验教训。

首先,他们来抓顾问了,而我没有发声……

在人工智能威胁知识工作者的时代,初级职位似乎是最先受到影响的。为什么麦肯锡要雇佣常春藤盟校的分析师,当一个200美元的订阅服务能更快地产生更多报告?最近,我的信息流似乎表明,人工智能可能正在针对研究人员,学者们试图自动化自己——从“从想法到论文的完全自主研究”AutoResearchClaw——教授们也在争论是否还应再雇佣助手[1]。

有明显的论点可以抵制这种趋势。我们可以攻击结果,并争辩说该技术仍然存在缺陷,因此承诺的“常春藤盟校”水平并未实现。我们可以争辩说社会契约正在被破坏:当然,年轻的研究人员一直(在某种意义上)是一种“负担”,但这种负担既是一种回馈,也是对下一代的投资。我们还可以强调,用一种新的、未经测试的工作流程取代一个已知的思维过程可能带来的潜在长期损害

尽管所有这些论点都有其分量,但也可以表面上为汽车的发明或类似事物构造类似的论点。这些辩论总会有其时间和地点,但我今天更关注的是局部和个人化的问题:如果我放弃实习生,转而采用一个200美元的订阅服务,会是什么感觉?

所以(不像我最近发现的这个物理学实验),我尝试将一个月的实习生工作压缩到一个周末,借助ChatGPT完成。

神话般的[代理月](https://wesmckinney.com/blog/mythical-agent-month/)

虽然具体问题并不特别重要,但界定实习范围可能有助于感受一下Bauplan的实习生所做的类型事情(可以跳过!)。Bauplan 是一个分支数据平台:代理和人类可以在他们的 _表格_ 上打开类似Git的分支。因此,同一张表在不同分支中可能有不同的版本。在我们的激励示例中,_Acme Inc._ 是一家在线零售商,一群数据代理被任务于对明天的销售额运行不同的预测:

图片 2

当多个版本共存时查询“预测”表。来自作者原始论文中的图像。

理想情况下,人类会验证工作,比较和对比发现,然后将 _预测_ 表合并为 _标准_ 数据表示。但如果有人在发生之前提出一个问题呢?

现有系统只会拒绝回答,即使这在直觉上显得浪费:两个代理计算月收入可能在确切数字上意见不一,但都同意收入较上一季度增长超过10%。换句话说,即使没有系统范围内的公认数据版本,我们仍然可以回答许多有趣的问题。

因此,我们的实习目标是构建这样一个系统的原型。它需要学习分支,掌握新数学,设计基于Bauplan的解决方案,并构建一个文本到SQL模块(相对简单)和一个自定义查询路径(较难)。

AI 设置

Bauplaners 最近有幸观看了 Wes McKinney 本人的现场演示,于是我决定采用他的工作流程(做了一些微调):

  • 使用 ChatGPT 5.2 来规划和制定策略(例如,如何设计一个能突出不同工程方法差异的基准测试);
  • 在 Visual Studio 中使用 Claude Code 进行实际开发循环;
  • 使用 Roborev 对本地提交进行对抗性审查。该工具基于 Codex,能够识别潜在问题并提出改进建议;
  • 每大约 10 次提交后,通过 Roborev 审查来控制项目复杂度:这些审查从架构角度出发,有助于减少冗余。

真正的财富是沿途结识的朋友

由于我无法忍受让 AI 为我写作(说实话,我也无法忍受实习生这么做),最终的撰写工作完全由我自己完成。由于实习通常以向社区分享成果告终,我最终积累了足够多的内容,形成了一篇 ACM SAO 论文,“_Querying Everything Everywhere All at Once_”。

从某些指标来看,X 社群可能是对的:即使承认质量上的差距,我花了 48 小时“照看”AI,完成了本需数周才能完成的工作量的 80%。有趣的是,“照看”这件事性质完全不同:AI 太渴望取悦你了,常常会通过硬编码的捷径来实现表面结果。虽然许多数据和 AI 问题在表面上看起来很容易验证,但我们的经验表明,它们也容易被操纵:尤其是在实验设置的解释较为微妙或最终指标不明确的情况下——你应该三重检查你的 AI 代理是在进行梯度上升,还是仅仅在假装

另一方面,AI 不需要被教导关于塔斯基模型或真理过剩的知识,只需附上几篇论文就足以快速上手。结果也是“有形”的:我有一个外观良好的 Web 应用,而无需再次拿起 D3.js(距离我上次使用已过去 10 年!),还有一个模拟代理管道和分支上业务问题的演示脚本。如果你相信(正如我所相信的那样)原型通常胜过 PowerPoint(或论文),那么毫无疑问,AI 技术栈确实交付了某种东西。

更难用语言表达的是那些没有交付的东西,或者说更准确地说,我在过程中失去了什么。尽管对令人惊叹的图表和意外的基准测试感到兴奋,但这一切并没有真正带来更多的理解。经过研究过程后,我并没有变得更聪明:我可能比之前多了一点直觉(例如,如何更好地提示生成好的 SQL 转换),但我的心智模型分辨率与开始时基本相同。与实习生合作可能耗时且有时令人沮丧,但它总能产生更好的想法,无论是在他们身上还是在我自己身上:通过解释和指导他们,他们也在某种程度上反过来解释和指导了我。

如果我现在获得了结果却学不到太多东西,我感到不安,主要是因为不清楚这是否应该重要。我不是说它在全球、宏观的大脑层面是否重要:当然,如果我们的孩子不再学习,科学家将思考任务外包给聊天机器人,那将是糟糕的。我现在只是稍微关注于这一点:这对我自己、我的公司、我的投资者来说重要吗?

局部的、个人的答案——除非你对自己的评价非常膨胀——并不那么清晰。我知道如何编程,而且我大概仍然可以教授一些数学逻辑,因此从某种意义上讲,这个项目并没有开辟新天地:也许这里并没有“那么多可学的东西”(除了其可行性,而这正是我最初就怀疑的),而我感受到的不安是过去思维方式的遗产。或者,也许没有任何任务过于平凡,不能让我成为略微更好的自己:完成连接我们 API 到图表的琐碎工作,编译 DataFusion 13 次失败,来回讨论如何为一个令人信服的基准选择查询,而其他系统甚至无法表达——更不用说计算——我们的查询路径。我感到不安,因为现实世界中的项目对于现实世界中、不太自大的人来说,存在大量并非明显的第一性原理思维或明显实现细节的问题。

今天,我并不反对那种简单的观点:人类应该负责思考,而 LLM 应该处理 matplotlib 的语法错误。但我难以应对中间那个巨大的灰色地带,以及内心那个低语的声音:如果我把所有事情都当作实现细节来对待,我的思维很快就会变得不敏锐。我们是否会变成那些“模式匹配”而失去所有细微差别的风险投资家?证明的目的究竟是为了证明定理(无论证明看起来多么陌生),还是为了给我们带来新颖的理解

未来可以稍等一下

观察我对 2026 年夏季的决策(而非感受),确实揭示了这次实验的后果。Bauplan 已经雇佣了两名(人类)实习生,两位年轻、才华横溢、积极进取的计算机科学家,负责探索我们产品地图的边缘,涉及端到端 AI 优化(GEPA 的技能演进)和 git-for-data 的扩展。从实践角度来看,我做出了与该项目之前相同的决定。然而,我不认为我从中毫发无损地脱身:我的感受迟早会凝结成新的概念,然后影响我的决策。

一方面,作为一个《小王子》的忠实粉丝,我深知书中那句“正是你为你的玫瑰所花费的时间,才使它变得重要”——今年夏天与实习生们共度的时光,我相信也会让她们以及我们共同的项目变得更加重要。另一方面,这仅仅部分地反映了我最近的感受。我不得不去互联网档案馆(Internet Archive)找回我最近想起的一段2006年的记忆(显然,我二十多岁时记住的可不只是数理逻辑)。这是Blender在2006年发布的“音乐史上最糟糕的50件事”中的第1条:

#01. 如今的孩子们

在我们那个年代,没有你们这些花哨的iPod、铃声和下载服务。我们也没有你们那些性欲横流的阴茎环和万维网日志。当我们想偷听新出的URIAH HEEP专辑时,不能只是上网随便搜一搜,我们必须用老办法——徒步去商店(还得上下坡),把12英寸的黑胶唱片藏进自己亲手织的毛衣里。这就是为什么你们这些哭哭啼啼的小年轻不懂得音乐的真正价值。或者,也不懂Uriah Heep。现在就给我滚出我们的草坪!

如果我们现在能坐在笔记本电脑前轻松“窃取”一切,我们还会珍惜“事物的真正价值”吗?

再见了,代理牛仔

感谢 Luca、Colin 和 Ethan 对本文之前版本的评论。

如果你想成为 Bauplan 的实习生,做一些酷炫的数据与人工智能相关的工作(比如这篇这篇这篇),我仍然接受人类候选人:欢迎联系!

AI 可能会生成不准确的信息,请核实重要内容

我们一路学到的教训。或者,真的是这样吗? | Towards Data Science | traeai