成为AI原生工程师的实用指南

TL;DR · AI 摘要
AI已生成超75%的新代码,但团队交付缺陷反而增加。关键在于工程师从写代码转向编排系统。
核心要点
- AI生成代码占比超75%,但多数团队交付更多缺陷
- Shah Rahman提出AI原生工程四阶段框架:上下文工程、规范驱动、批判验证、问题分解
- 关键转折点是工程师从写代码转向编排系统
结构提纲
按章节快速跳转。
AI已生成超75%新代码,但工程团队却面临更多缺陷和债务。
核心是编排而非编码,需上下文工程、规范驱动、批判验证与问题分解。
提供可执行方法论,用于衡量AI搜索与检索系统的实际表现。
区分真实10倍杠杆与快速失败的关键路径,包含安全护栏设计。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- AI原生工程实践指南
- 核心矛盾
- AI生成代码 vs 团队交付质量下降
- 解决方案
- 四阶段评估框架
- Agentic Development Life Cycle
金句 / Highlights
值得收藏与分享的关键句。
AI生成超过75%的Google新代码,但多数团队交付更多缺陷和债务。
真正的生产力提升来自工程师从写代码转向编排系统。
Shah Rahman提出的四阶段框架包括:上下文工程、规范驱动开发、批判验证、问题分解。

大多数团队通过运行几个测试查询并寄希望于最佳结果来选择搜索引擎——这恰恰是幻觉和不可预测失败的配方。You.com 提供的这篇技术指南,将为你提供一个精确框架,用于评估 AI 搜索与检索。
你将获得:
- 一个四阶段框架,用于评估 AI 搜索;
- 如何构建一组“黄金查询”,以预测真实世界的表现;
- 用于衡量准确性的指标和代码。
从“看起来不错”转变为经过验证的质量。
在科技领域中,很少有人比沙赫·拉赫曼更清楚 AI 原生工程在超大规模环境下的实际面貌。作为 Meta 全球广告自主机器学习迭代与优化负责人,沙赫每天都在架构 AI 原生基础设施和多智能体系统,使其能够在地球上最大的生产环境中可靠地进行机器学习迭代。
在下面的文章中,沙赫拨开“人人都是工程师”的喧嚣,阐明了 AI 原生工程究竟需要什么:上下文工程、规范驱动开发、关键验证以及严谨的问题分解。他将带你走过“代理式开发生命周期”,这是区分真正十倍杠杆效应与“更快失败”的旅程,并介绍那些不再可选的安全护栏。
如果你正在推动你的工程组织向 AI 原生转型,这是一份强有力的行动手册。
让我们开始吧。
想了解更多关于沙赫的内容,请关注他在 LinkedIn 的个人主页。

AI 生成了超过 75% 的谷歌新代码。OpenAI 和 Anthropic 表示,他们几乎每行新代码都来自 AI。亚马逊最近仅用数月时间就将其 3 万个生产应用从 Java 8 迁移到 Java 17,否则预计需要 4500 个开发者年的工作量。而马克·扎克伯格预计,到 2026 年底,AI 代理将担任中级工程师的角色。
阅读这些声明时,我们可能会觉得正站在一个时代的末页上,甚至是一个职业的终结页。
但问题是:如果 AI 写下所有代码就是答案,那为什么大多数工程团队交付的 bug、事故和技术债,比两年前还多?
在《纽约时报》四月的一篇文章中,迈克·艾萨克和埃琳·格里菲斯为这一行业现象命名。他们称之为代码过载。
根据艾萨克和格里菲斯的说法,代码过载的本质是:“技术人员以如此快速的速度产出大量代码,以至于无法处理。”那些围绕 AI 代理重构工作流程的团队正被代码 churn 和安全漏洞淹没。
但许多使用 AI 代理的工程师却领先于行业,实现了真正的生产力提升。他们使用相同的模型和工具,却产生了截然不同的成果。这中间的差距是什么?
归根结底,这是一个决定。真正的生产力提升来自于工程师做出的抉择——从编写代码转向编排代码。本文将为希望落在生产力高点上的工程师提供一份实用指南,涵盖分离 AI 原生工程与“氛围编程”、以及大多数团队目前在规模化过程中制造的日常混乱所需的实践、安全护栏和思维转变。
让我先澄清一点:工程师并不会因此被淘汰。编码始终只是工程的一部分(最多占 20%-30%)。当 AI 代理和工具产生更多代码时,这个被低估的现实更加明显,但更多的代码并不一定意味着更高的生产力(很多时候反而更低)。这是行业正在危险模糊的关键区别,我明确指出:

当安德烈·卡帕希在 2025 年初提出“氛围编程”一词时,它捕捉到了某种有用的东西——非工程师通过描述自己想要的功能即可构建可用软件的能力。这种民主化非常有价值。但它与专业级的 AI 原生工程有着根本不同。
AI 原生工程意味着指挥并掌握现有及新兴的 AI 代理和工具,去实现过去 AI 时代不可能完成的工程目标。掌握编程仍然是基本要求。没有这种知识,你可以借助 AI 构建系统——这就是“氛围编程”。它有其位置,但它不是工程。
AI原生工程师扮演着协调者的角色——他们能够通过合理调度AI代理,将工程效率提升10倍,最终产出效果提升至100倍。而这一标准每周都在持续提高。

作为一种独立的学科逐渐成型,这是AI原生工程师最重要的技能。上下文工程意味着系统性地整理并注入项目特定信息到AI的工作记忆中:包括 _架构图_、_编码规范_、_业务规则_、_团队惯例_ 和 _开发流程_ —— 这些内容应在团队成员间可复用且标准化。
这将基础的“提示工程”升级为更复杂的“上下文工程”,体现了更深的理解:AI输出的质量受限于其接收到的上下文质量。那些严格执行上下文工程的团队报告称,工作效率提升了40–50%,同时大幅减少了对齐(alignment)的开销。
随着上下文工程的成熟,Anthropic的MCP——被描述为“AI的USB-C接口”——正持续作为连接代理与外部工具及数据源的通用标准。像CLAUDE.md这样的上下文文件已从可选文档演变为核心基础设施。这种持久且不断演进的知识层,一旦你掌握了如何构建和维护这一关键上下文,就能让代理在你的特定代码库中真正发挥作用。

AI生成代码的质量取决于输入规范的质量。“垃圾进,垃圾出”——当AI能以前所未有的速度和规模生成垃圾时,这个原则的影响更加深远。
随机提示和凭感觉编码始终无法超越基于规范的工作流。没有清晰规范和明确指令的AI代理会陷入循环推理。请考虑以下原则:在要求AI构建前先明确定义目标;将问题拆解为离散里程碑,并设定明确的成功标准;每一步执行后都进行验证。确保代理在所有未解决的问题上主动向你确认,而不是自行跑偏去寻找答案。
AI生成代码的质量大致等同于初级开发者水平。研究一致表明,约45%的AI生成代码包含安全漏洞。斯坦福大学的一项研究发现,使用AI助手的开发者写出的安全性更低的代码,却对自己的代码安全性更为自信——这是一种危险组合。
与此同时,一项由METR/Anthropic进行的随机对照试验发现,在熟悉代码库中,经验丰富的开源开发者使用AI助手反而慢了19%。原因何在?过度依赖而缺乏充分验证。GitClear的一项研究发现,使用AI辅助的代码库表现出更高的“代码 churn”——即代码被写入后迅速修改或删除——这表明原始输出并不能作为生产力的可靠指标。
在AI原生时代,瓶颈已永久性地从编写代码转移到证明代码在大规模、高可靠性与安全性的前提下能否正常运行。当AI快速生成代码时,审查、测试和验证便成为新的速率限制因素,而验证如今已成为不可妥协的关键环节。
避免对AI过度信任大型复杂问题。将任务分解为AI可管理的模块,人类负责边缘情况、定制逻辑和领域特定部分,而AI代理处理70–80%的常规实现。复杂问题会导致上下文污染和低质输出,AI代理往往难以从中恢复。压缩和总结受污染上下文并在不同会话中切换有助于缓解,但这种不连续性对于长期任务可能造成损害。许多人曾因此浪费数小时甚至数天的时间——原因在于未能分解任务,固执地让代理在无明确上下文、合理规范和缺乏验证保障的前提下混淆期望。
我推荐最优比例分配为:40%用于上下文设置,20%用于生成与测试迭代,40%用于审查与验证。这令许多开发者感到惊讶——他们大部分时间都花在代码生成上。实际上,生成步骤很快;而审查和上下文工作才真正成为新的耗时瓶颈。
从一个主要的AI助手开始——选择你最喜欢的:Codex、Claude Code 或 Cursor。深入实践,通过每日使用逐步建立对其能力与局限性的直觉认知。搭建你的工作空间、工作流程和初始配置。你需要从手动编码的时代跃迁到AI辅助乃至AI生成编码的新范式。你的目标应是培养判断力:何时AI能创造价值,何时反而会带来更多工作而非节省精力。记录个人笔记,不断迭代,夯实基础。
采用结构化的提示框架。为每个项目创建上下文文件,编码团队规范与架构模式。实施“先规划,再执行,最后审查”的工作流:规划模式生成规格说明,执行模式实现功能,并确保在每一个原子任务后都进行审查。设立审批关卡与约束机制,防止代理行为偏离轨道。跳过审查环节将累积技术债,你和你的代理在未来都将为此付出代价。
此处的关键实践是小循环配合验证检查点。研究表明,在编码任务中,人类深度参与且范围有限的小循环显著优于大规模自主运行。这可能感觉反直觉且更慢——但在实践中却能带来截然不同的优异成果。沉溺于未经计划、充满猜测的自主代理运行,很可能产生大量无用代码,其唯一命运便是被丢弃并重新开始。务必在它发生前避免这种情况。
部署AI代理处理多步骤、多文件任务。实施AI辅助代码评审工作流。运用高级技巧:多代理协作、并行会话与跨代理验证循环。每周我们都会听到编码代理在基准测试中取得进展,解决此前从未被攻克的问题。紧跟这些发展步伐,拥抱Claude或Codex发明者所倡导的理念,但需根据自身需求加以采纳(切勿盲目追随,因为他们的场景可能与你大相径庭)。
目标指标: AI生成代码率超过80%,重写率低于20%。达成此目标,你就能迅速带领团队达到同等熟练度水平。
研究表明,70%的转型成功源于运营与文化层面的变革。这些变革要求组织和技术负责人通过日常AI使用主动示范转型。同时,确保以下三个关键方面,以建立AI原生的文化基础:
- 心理安全至关重要。 MIT研究发现,83%的领导者认为心理安全可显著提升AI倡议的成功率。将“AI失败案例”视为学习机会予以庆祝。将其作为刻意练习而非可选内容,并确保每个人都能感受到自己是集体学习与成长过程的一部分。
- 演进中的代码评审不可或缺。 AI生成代码量已远超传统人工评审能力。需重构评审机制,区分AI生成代码与人工代码,并制定独立评审标准。尤其要警惕AI生成+AI评审PR组合——这类情况必须明确设置限制与治理机制。
- 共享上下文库成为核心资产。 在团队间标准化上下文文件、评估集与代理配置。现代工具支持通过插件、技能和命令轻松打包上下文——但需警惕失控扩散,即团队间竞逐标准化而非协同合作。不要让过多成员渴望构建代理与技能,从而破坏你标准化的代理化运营环境。
传统的SDLC——甚至极端敏捷——在AI代理与人类协同开发软件的过程中已显不足。AI原生工程正向“代理化开发生命周期”演进,重新定义每一阶段。

最关键的一步。利用深度研究与规划模式,结合多个代理进行并行探索。针对代码库指定需求,标记模糊之处,拆解为子任务,并预估难度。制定包含版本里程碑的路线图,帮助代理逐步推进。规划代理可整合多个探索代理的发现,形成连贯的实施方案。Claude的OpenClaw可并行运行多个子代理。
AI代理能够像初级或中级工程师一样完成端到端功能实现(截至本文撰写时,预计一年或两年内可提升至资深工程师水平)。工程师扮演技术负责人角色,协调多个代理而非直接编码。串行或并行执行模型取决于你的路线图与验证计划。代理化编码工具生态已迅速成熟——Claude Code、Cursor的Composer模式、GitHub Copilot的Agent模式、OpenAI的Codex代理均支持该模式,各有优势。每月都有新版本推出——密切跟踪新功能。
这是TDD的重生。代理先编写测试计划,再实现代码。所有测试应在初始阶段失败,随后逐步通过。原子级单元测试、跨功能集成测试以及系统级端到端测试缺一不可。不要过度偏重单元测试而忽视集成或系统测试的重要性。
实用提示: 考虑将规划、构建和测试代理分离。每个代理群体会从不同角度对代码库进行专业化并深入理解。规划代理可以挑战那些走捷径的构建代理;测试代理可能跳过覆盖率检查;或审查代理可能偏向于看似正确但实际错误的实现方案。同样,审查代理也可以对上游所有其他代理负责,确保它们不犯错或遗漏步骤。
部署专注于关键维度的代理群体:_功能_、_质量_、_可扩展性_、_性能_、_可靠性_、_安全性_ 和 _隐私性_。代理首先进行初步分析并生成报告,人类则仔细审阅每份报告。当某个代理发现一个问题——比如注入漏洞——请应用泛化原则:如果一个实例存在,很可能还有更多类似情况,这正是你主动排查代码中同类漏洞的好机会,而不仅仅是处理一两个孤立案例。
从事后文档转向持续生成。AI代理实时生成摘要、关键设计决策、架构图和变更日志。这一过程自然延伸至API文档、功能材料和面向客户的各类内容。我对AI工具终于解决我本人及团队多年来饱受困扰的陈旧、过时且不一致的文档问题感到非常兴奋。
将你的第一层(个人)和第二层(团队)实践编码进可维护、自我演进的上下文文件、技能库和MCP工具中。这能确保ADLC工具在组织内规模化推广,而非停留在部落知识或被部分部门所困。积极推广ADLC工具包。
当前业界存在一种极具诱惑力的叙事:_更少的人力、更低的开销、更快的构建速度_。但这种叙事混淆了建设成本与决策成本。AI已大幅降低了构建成本,但这仅占总开发成本的20–30%,而决定“该构建什么”以及“该砍掉什么”的决策成本却基本未受影响。随着代码量和开发者数量激增,这个问题变得更加棘手。
AI原生流程优化需要将精力从协调执行转向加速学习。

AI极大地压缩了第一步所需时间。但压缩的价值完全取决于后续周期中的执行质量。若缺乏稳健的用户观察和范围控制,仅追求快速构建会导致产品目标偏离,最终客户无法感受到AI加速带来的真正收益。
更低成本的实验。 在单位时间内测试更多假设。超过70%的功能从未触达真实用户。AI让在全面投入开发前测试某项功能是否重要变得轻而易举。其纪律要求:无情地淘汰不可行的概念。
更快的用户研究原型。 可运行原型取代文档。像Vercel的v0、Replit Agent和Bolt.new这类工具可在几分钟内根据自然语言生成功能性原型。这能带来更高质量的用户测试信号。鼓励所有人积极进行原型设计,养成在正式开发前先动手的习惯。
自动化模板,而非自动化判断。 AI处理非差异化工作:框架搭建、非新颖代码、业务逻辑测试、文档和数据模型。团队聚焦差异化工作:核心业务逻辑、富有同理心的用户体验、创新实现,以及最关键的一环——决定保留还是舍弃。
“设计到50%”原则。 上线最小功能集,以支持核心用户旅程。观察用户在何处犹豫、误解或放弃。这揭示的是真实的产品挑战,而非想象中的问题。AI使这种做法几乎零成本。
AI生成代码的安全态势已变得令人担忧。数据显示,AI原生开发的速度正在创造新的攻击面,远快于人工安全审查或传统工具所能应对的速度。在我们的环境中,每周大约会出现一个新的不安全AI集成,其中许多导致了生产事故。Anthropic的Daybreak和Mythos为安全领域敲响了警钟。
聊天集成远程代码执行(RCE)。 使用AI在两天内完成开发,通过绕过双因素认证并利用开放的ACL权限实现了远程代码执行。检测、缓解和修复此漏洞需耗费数十小时。
未经授权的数据库访问。 一个AI编码代理访问了约1500个未授权的安全数据库表,未获得适当授权,从而暴露敏感数据面临提示注入风险。
Google Docs提示注入。 一个AI编码代理通过嵌入Google Docs文档中的提示注入实现了远程代码执行,完全绕过了输入过滤保护机制。
供应链污染。 2025年出现了一种名为“slopsquatting”的新型攻击向量——AI模型会虚构不存在的包名,攻击者随后注册这些名称并植入恶意代码。目前已有多起相关事件被记录。
代理身份与访问控制。 实施分步双重验证(2FA),遵循最小权限原则。禁止共享凭证或开放ACL。建议从被动、只读用例开始,逐步建立信任后再授予读写或更广泛权限。
数据分类意识。 代理必须尊重数据分类和敏感边界。“代理授权”正成为企业面临的新兴挑战——代理以机器速度绕过限制,而人类监督难以跟上。
提示注入防护。 外部内容——文档、网页、用户输入——可能包含隐藏指令,会劫持代理行为。应实施输入过滤、内容验证和上下文净化。绝不可自动执行不可信命令。切勿轻易接受所有代理建议。
基础设施沙箱化。 代理活动必须可观察且可审计。在控制措施未通过验证前,禁止访问高风险生产面——配置、关键执行、关键存储等。使用沙箱机制与操作系统级强制措施。
静态分析集成。 数据显示,约30%的Python和25%的JavaScript AI生成片段存在安全缺陷。应在CI/CD流水线中集中部署高级静态分析工具。对关键功能(如认证、支付及个人身份信息处理)必须强制进行人工复审。
自动化质量门禁。 实施“Ralph循环”、OpenClaw或其他形式的自主循环——迭代验证直至达成成功标准。在提交差异前,必须完成类型检查、代码规范校验及测试执行。部署多阶段灰度发布系统,在进入生产环境前设置严格的质量门禁。
基于技能的安全性。 当代理被训练掌握安全编码模式时,可在生成过程中即标记常见漏洞,而非事后发现。将安全左移,但借助代理实现。
技能退化预防。 Gartner报告称,到2026年,50%的企业将要求“无AI”技能评估。应将AI视为学习工具——在生成代码的同时,要求提供解释说明。偶尔脱离AI工作,以保持基础能力。目标并非反AI主义,而是为应对AI工具不可用或产生微妙错误却潜在致命结果的情形做好准备。
生产力悖论。 单个工程师使用AI工具带来的效率提升,往往无法在团队或公司层面体现。应聚焦端到端周期时间和功能交付速度,而不仅仅是编码速度。若将AI添加到已存在的低效流程中,只会产出更多更快但同样低效的代码。
在新环境中表现卓越的工程师,将AI视为协作执行伙伴,同时保留系统思维、批判判断力和沟通能力——这些是AI无法复制的核心素质。AI的作用是放大现有专业能力,而非取代它——资深工程师能取得显著更优成果,因为他们拥有更深层的背景知识和更敏锐的判断力。
你的领域专业知识,是AI原生生产力的关键差异化优势。没有任何AI工具或代理能够替代它。因此,请持续投入精力精进你的领域技能——无论是数学、科学、金融、健康科学还是法律行业。不断夯实工程基础,将在AI效能上持续获得回报。
这是一场跨年度的转型,而非一次性工具采用。将AI视为工具升级的团队,往往无法实现生产力提升。真正成功的组织,是那些将AI原生工程视为全新工作方式——并建立新的实践、新学科以及对“卓越”的全新定义。
你是否正在这样构建?如果不是,请联系我,我很乐意 [聊聊](https://www.linkedin.com/in/shahirahman/)。
这是两部分系列文章的第一部分。第二部分《AI原生领导者》将探讨实现AI原生工程规模化落地所需的组织变革、领导模型与衡量框架。