告别Ai2
TL;DR · AI 摘要
作者Nathan Lambert宣布离开Allen Institute for AI(Ai2),回顾其在Olmo模型等项目中的贡献,强调开放AI研究的文化价值,并指出即使非前沿性能,持续影响力仍可深远。
核心要点
- Olmo模型虽未达性能前沿,但通过开放协作实现了广泛影响。
- Ai2的独特文化在于重视科研过程、成果共享与团队成员成长。
- 作者未来将继续推动开放AI生态的协调与实用化发展。
结构提纲
按章节快速跳转。
- §离职声明
作者正式宣布离开Allen Institute for AI(Ai2),并表达对机构和同事的感激之情。
作者因在ICML 2023上结识Luca而决定加入Ai2,认为这是提升开放后训练工作的绝佳机会。
作者参与了Olmo模型开发,并强调Ai2以科研文化为核心,注重团队协作与长期影响。
法律、IT、传播和办公室团队虽不显眼,但对研究工作的顺利推进至关重要。
作者鼓励Ai2保持雄心,继续在AI前沿问题上发声,尤其是在地缘政治和社会影响日益加剧的背景下。
作者将留在西雅图并继续从事开放AI生态系统建设,致力于提升其协调性和实用性。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Farewell Ai2
- 离职背景
- 加入原因
- 工作经历
- 核心贡献
- Olmo模型
- Interconnects博客
- ATOM项目
- RLHF书籍
- 组织文化
- 科研导向
- 团队协作
- 支持职能重要性
- 未来方向
- 开放AI生态
- 持续合作
金句 / Highlights
值得收藏与分享的关键句。
Ai2处于学术界与产业界之间的罕见位置,能够探索并影响我们这一代最重要的技术。
公开进行研究是确保技术安全扩散到所有潜在受益者最好的方式。
在过去几年中,我没有一个中等规模的项目未能成功。
这让我怀疑自己是否没有承担足够的风险。
我即将离开艾伦人工智能研究所(Allen Institute for AI,简称 Ai2),在那里我有幸参与了 Olmo 模型的研发工作,得以成长、学习,并产生广泛而持久的影响。本文旨在反思我们所做的工作为何具有影响力——尽管在性能上显然远未达到前沿水平(即使在相同规模的模型中也是如此)——以及这如何反映出当今人工智能领域实现影响力的多种路径。
首先,昨天我向公司分享了以下这段话:
亲爱的 Ai2:
如许多同事所知,今天是我最后一次在 Ai2 工作的日子。
我加入 Ai2 几乎是一场意外。2023 年我在夏威夷参加 ICML 会议时遇到了 Luca,意识到如果能有机会加入 Ai2,我的开放后训练研究工作将得到极大提升。当我收到录用通知时,毫不犹豫地接受了——那是一个如此友好且充满激情的环境。
这段旅程精彩非凡,彻底改变了我的人生,我对我们一起完成的工作感到无比自豪。Ai2 的核心拥有卓越的科研文化,我很期待看到这种文化持续发展下去。能够在这里工作,我感到非常幸运,也深深感激每一位为培育这一文化和环境付出努力的人。这一切都是团队共同努力的结果,包括那些与我互动时间最久不过是在咖啡机旁短暂交谈的同事们。我从 Ai2 各位成员对使命的投入中汲取了巨大的能量和热情。
我已经私下感谢了 OE 团队的大部分成员,但我也想借此机会感谢所有支持这项工作的其他团队。法律、IT、传播和办公室团队都在默默支持并提升我们的研究工作,他们做的工作常常被忽视、远离聚光灯,或只在最后时刻才被人想起,但这些工作对我们达成目标至关重要。未来几年,我依然会很高兴继续造访北湖园区这个美好的空间。
尽管我即将离开,但我对 Ai2 的使命比以往任何时候都更加充满期待。Ai2 处于学术界与产业界之间一个极为罕见的生态位,使我们能够探索并影响人类有生之年最重要的技术。以开放的方式推进这项事业,是确保技术安全惠及所有潜在受益者的最佳途径。Ai2 必须保持尽可能高的雄心,努力影响人工智能的前沿进展以及该领域的重大议题。不要回避这些挑战——随着人工智能日益成为地缘政治焦点、社会颠覆性力量和经济核心,独立的声音显得愈发重要。
我仍将继续在这个领域工作,致力于让开放生态系统更加协调、更具价值。
所以当我踏上新的征程,请不要疏远。我始终可以通过 [nathan@natolambert.com](mailto:nathan@natolambert.com) 联系到我,而且我每年大部分时间仍会居住在西雅图。
Nathan
我一直热爱 Ai2,今后也将永远热爱它。Ai2 拥有一种深厚的关怀文化:关心研究过程、关心产出成果,更关心从事这些工作的研究人员本身。正因如此,这个机构孕育出无数优秀人才,他们走向整个研究社区,传播着“福音”。这种核心文化将在重建过程中延续下去,而 Ai2 也拥有足够的资源,在人工智能的各个层面开展具有影响力的研究。
在我过去两年的 Ai2 生涯中,我完成了大量有意义的工作。当然,Olmo 是其中最突出的项目,也是我一直以来的优先事项;但与此同时,我坚持在 Interconnects 上定期写作、周末密集投入 ATOM 项目,还撰写了一本有趣的 RLHF 书籍——这些经历让我不禁怀疑自己是如何做到这一切的。我确实对工作极度投入,但并未因此失眠或牺牲整体健康。这是一种正确的长期策略。
这份令人印象深刻的成就清单背后,是我对无关紧要事务的果断拒绝,以及将所有研究成果都推向公众视野的决心。在过去几年里,我没有留下任何中等规模却未能成功的项目。这让我开始思考:是否我承担的风险还不够?这也说明,你真的可以用有限的时间做出很多事,而真正困难的是找到合适的问题和合适的环境去实现它们。许多人身处的环境中,他们的工作从未公开,或者被迫频繁更换研究方向。
接下来,我想简要回顾一下我通往 Ai2 的历程,以展示 Ai2 对我而言不仅是一段执行之旅,更是一段成长之旅。
我在本科阶段主修电气工程,专注于线性系统数学和微电子学。
我被加州大学伯克利分校(UC Berkeley)的 EECS 博士项目录取,研究方向是微机电系统(MEMS)。
2017 年 8 月我抵达伯克利,很快意识到人工智能才是我应该投身的领域。我曾向 Sergey Levine 或 Pieter Abbeel 等人请求指导,但他们婉拒了我。
于是我全身心投入到学习人工智能知识中。2018 或 2019 年,我获得了一个机会,由 Sergey 的一位博士后担任我的导师。我全力以赴,积极争取经费,努力争取发表一篇 AI 领域的论文。
到 2022 年博士毕业时,这套策略终于奏效:我获得了进入伯克利人工智能研究(BAIR)大楼的机会,并与院系建立了合作。这条路并不平坦。
我原本希望进入工业界的研究岗位,寻找一份既能获得良好薪酬又具备思想自由的工作,比如当时的 FAIR 或 Google Brain。HuggingFace 是唯一符合我期望的职位,因此我毫不犹豫地接受了。
我于 2022 年 5 月加入 HuggingFace,直到 ChatGPT 发布前,我在公司度过了相当一段空耗时间。我利用自己在强化学习方面的背景,撰写了一篇关于 RLHF 的 博客文章,这篇文章迅速走红。HuggingFace 决定让我围绕这一成功组建一支团队。
2023 年,我学习了自然语言处理(NLP)和语言模型。那段时间我玩得很开心,并建立了一个初步的社区。但由于远程工作且时差巨大,我逐渐感到精疲力尽。我在夏威夷的 ICML 会议上遇到了 Luca Soldaini,当时我正在做关于 RLHF 的教程,他告诉我 Ai2 正在招聘。
我之所以能进入 Ai2,很大程度上是因为我对工作的热情,以及我表达了想做一些听起来很酷但没人会去做的东西(比如与强化学习相关的工作)。我的面试远非十拿九稳——这是一份非常难得的好工作!
我于 2023 年 10 月加入 Ai2,最初远程工作了一段时间。我从事常规研究,创建了第一个奖励模型评估基准 RewardBench。这是一个扎实的成功,但远不如预训练团队准备发布首个 Olmo 模型时的轰动。
我帮助 Ai2 提升模型发布的能力,协助 Tülu 2 项目落地(这是首个在公开 70B 规模上成功应用 DPO 的模型)。
2024 年初,首个 Olmo 模型正式发布,我仅凭主动帮忙并完成一些基础的后训练工作,勉强挤进了论文作者名单。那时我已经擅长识别哪些项目才是真正重要的。
那年夏天,我开始召集所有人参与一个“大型前沿后训练项目”。这个项目最终演变为 Tülu 3,是我有史以来最喜爱的项目之一,于 2024 年秋季发布。目标是用他们自己的基座模型击败 Llama 3 的后训练效果。团队士气极高,执行也非常及时,使我们得以在论文中提出“可验证奖励的强化学习”(Reinforcement Learning with Verifiable Rewards, RLVR)这一术语。
为了完成 Tülu 3 和 Olmo 2 的后训练,我付出了疯狂的努力,发送的 Slack 消息量比公司任何人都多出 40%,也因此获得了“牧猫人”(The Cat Herder)的称号。
2025 年则平静了许多。我们对推理模型的反应太慢,尽管此前在 Tülu 3 上已经做过类似工作,但有时就是这样。
最初我们计划在 2025 年 6 月或 7 月发布 Olmo 3,显然没有实现。但我们得到了一个微小的机会去训练一个更大的模型,结果大获成功。我们成功穿过了那根针眼。
自 Olmo 3 发布以来,明显有一些变化正在发生,我个人再也没有启动过一个重大的后训练项目。2026 年春天,许多其他同事取得了出色成果。
这一切让我今天站在这里告诉你:我在 Ai2 的经历中,大约只有一半是广为人知的部分,其余都是在默默积累势能。通常需要一年时间来建立关系和方向,才能迎来职业生涯中的重大突破。
刚加入 Ai2 时,我几乎是个无名之辈,却有幸加入了一个愿意从我带来的 HuggingFace 经验中学习的团队。考虑到媒体运作的方式,我常常觉得自己因 Ai2 的成功而获得的赞誉超过了应得的程度。
像 Tülu 3、Olmo 2 和 Olmo 3 这样的项目,感觉更像是几代人共同努力的成果。这些项目中发生的个人成就和突破数量惊人,而要长期维持这种势头,极其难以复制。整体的成就远远超过了个体贡献的总和。
最近几个月,我多次听到人们说:“如果不是你的写作,根本不会有人知道 Ai2。”这类说法有些夸张,但也部分属实,再次强调了如今建立关系和传播信息的重要性。
当你制定一个切实可行的计划时,世界会向那个方向倾斜;当你说服别人相信它会发生,它就更有可能实现。愿景和引人入胜的解释,是科技行业中最为稀缺的资源之一。很多时候,构建东西并不难,但解释清楚却很难。如果没人知道你的工作,其价值往往接近于零。因此,建立声誉的关键在于与那些能够接收你工作的群体建立联系。
回顾这一切,我发现自己的职业路径异常线性,一步步走向渐进式成功。我预计大多数人的前十年职业生涯都在寻找一个像 Ai2 那样好的机会,而你并不总是能抓住它。不过,也有一些方式可以创造更多机会。
我之前讨论过,我之所以能迅速崛起,很大程度上是因为大量资深且已确立地位的科学家同时被吸引进封闭生态系统,与此同时人工智能的兴趣也空前高涨。这形成了一个权力真空,我和少数几位我认为属于我“一代”的杰出科学家得以快速成长。
通过在 Ai2 和 Interconnects 的工作,我将自己角色和使命总结为努力实现三件事:
- 为前沿模型的演进提供清晰认知。当科学进展跟上时,这最容易做到;但即使只是以科学视角分析模型的变化,也能极大增强整个 AI 生态系统的信任。
- 打造一个充满活力且多元化的开放(模型)生态系统。这对缓解 AI 的某些风险至关重要,尤其是权力集中和在前沿安全研究上的短视问题——这已持续激励我 3 到 4 年。这些风险并未减轻。
- 建立机构,培养推动上述使命的人才与思想,以及具有使命感、愿意倡导并建设他们所信奉未来的人。AI 是一个宏大的问题,不是我能独自解决的,所以我需要打造品牌,穿越噪音,吸引志同道合的人。
在我最好的时候,我拥有多种产生影响的途径:我帮助开源研究者聚焦真正有意义的问题,不浪费他们在 AI 繁荣期宝贵的算力和时间;我帮助政策制定者了解事实真相;我构建人们实际使用的模型;我讲述让人微笑的故事。我把清单保持得足够宽泛,以便持续保持动力。
我看到这一切仍在持续,并在过去几个月里反复思考其更广泛的影响。得知 Andrej Karpathy 加入 Anthropic 后,我终于决定分享更多我的观点:
很长一段时间以来,学术研究人员处于新技术前沿,是一种极好的社会平衡状态。中立、无偏见的技术专家是向世界传播新思想的人。
随着人工智能研究的速度加快,它也正逐渐走向封闭。科技行业已经播下了不信任的种子,如今却反过来试图向世界宣告即将发生的惊人变革。这对美国的一种社会契约来说,是一大损失。
科学家帮助社会理解新技术的历史由来已久。科学文化中存在一种公共服务精神,我希望这种精神能够延续下去。
这种趋势因“错失恐惧”(FOMO)而加剧,尤其是受经济驱动的 FOMO。我看到许多原本希望成为教授的人——内心深处可能依然如此——感到必须顺应潮流,追逐金钱,投身于工业界的一小片领域。我理解这种感受,我也在挣扎其中。
对于那些拥有安全网的人来说,选择另辟蹊径、尝试为需要不同事物的人创造有价值的东西,将会带来巨大的回报。对我而言,这意味着构建有趣且完全开源的模型,展示在各种开放权重规模下你能实现什么。
是的,AI 的短期未来由前沿技术主导,但其长期轨迹仍然深刻地依赖于学术机构和开放科学。知识总会扩散,但会流向谁?
截至今天,我认为中国将在几年内成为全球人工智能研究的中心。研究的中心是思想可及、迅速传播并被培育的地方。而美国似乎正在瓦解许多机构与关系网络。
最大的回报将属于那些打造出差异化成果的人——至少在声誉上如此,而许多人尚未意识到这条路径的存在。
进一步说明一下,我并不责怪今天选择进入工业界的人。过去几周我在求职或更准确地说是在探索职业方向时,自己也曾非常接近做出这样的选择。这是一个系统性问题:科学家很难轻易获得支持去采取大胆立场,尤其是那些以公共利益为核心目标的立场。
再进一步说,认为只有封闭式前沿实验室的研究才重要,这是一种极其短视的观点。是的,确实有些研究只能依靠庞大的计算资源才能完成,它们会直接影响当今最具革命性的工具。但我看到,在其他领域,许多人做善事的机会相对更高。
开放研究始终是定义人们理解 AI 所用语言的标准。它永远是下一代人接受训练的方式——即使它落后于工业界已建成的技术。它将是孕育新奇想法的生态系统。如果不投资于这个开放生态,所有这些循环都将受到严重限制。
归根结底,我现在角色的很大一部分就是向人们展示在这个领域产生影响的道路。展示聪明的中等规模开源模型如何解决现实世界中的实际问题;展示政策制定者和教育工作者为何需要开放研究来围绕 AI 重构整个社会结构。这也是一项令人兴奋的工作!如果看到这束光越来越微弱,几乎熄灭成最后一点余烬,我会感到非常难过。
即使研究步伐进一步放缓,只要像我这样仍坚持的人能获得足以保障家庭生计的财务报价,开放研究的火炬也永远不会彻底熄灭。这是科学教学与实践的核心所在。新一代正在到来,他们只是需要指引和榜样。
我认为 Ai2 最出色的工作是构建研究基础设施。在公开场合发布训练配方,让无数研究人员能够对训练过程提出非常具体的问题。我们需要这些研究人员遍布整个社区,因为 Ai2 无法独自回答所有有趣的问题。最近几个月我最大的喜悦之一,是访问一所顶尖的机器学习大学,听到那么多研究生表示他们在基于 Olmo 构建自己的工作。这才是世界应有的运作方式!
展望未来,我仍计划在类似领域继续耕耘:为开放科学而奋斗,构想开放模型生态系统的未来形态,并尽最大努力使社会平稳过渡到人工智能原生时代。我最激动人心的是,如何通过特定任务训练中等规模的开源模型,使其成为前沿模型的有力补充工具——在价格上取得巨大优势。我希望投资于开源模型生态的多样性,并推动建设者之间的协作。
鉴于我过去关注的重点,毫不意外地,我正在密切关注所有实验室(无论开放还是封闭)的发布节奏,以及它们如何在超级成熟的后训练方向上不断优化(如策略蒸馏、代理式工作流等)。很明显,完全开放的后训练方法目前落后得前所未有,并且差距还在扩大。我想改变这一点。目前还不完全确定今年是否能做到,但我一定会尝试。
为了最好地实现这一目标并亲自执行,我需要一个新的开始和全新的视角。接下来几个月我将谨慎地构建下一步的计划,并期待在合适的时候与大家分享更多细节。我在 Ai2 的一位亲密同事在我离职卡片上分享了这样一句话,我觉得它非常契合我即将前往的方向:
生命的目标不是站在多数人一边,而是避免发现自己身处疯狂者的行列之中。——马库斯·奥勒留
感谢大家一直以来的支持。