如何进入前沿实验室工作（预训练篇）

Latent Space

Latent Space2026年5月19日

如何进入前沿实验室工作（预训练篇）

8.5Score

TL;DR · AI 摘要

Vlad Feinberg的指南指出，掌握LLM内核级调优和MoE架构优化是进入前沿实验室的关键，同时Agent自动化和可观测性成为基础设施新趋势。

核心要点

掌握LLM内核调优（如JAX/Pallas）是进入前沿实验室的最直接路径，需能手写代码实现MoE层优化
Agent工作需结合可观测性与自动化，LangSmith Engine和Devin Auto-Triage代表成熟生产栈，强调持续集成与问题自修复
面试需推导Chinchilla定律在MoE架构中的差异，并通过自写Pallas核函数验证加速效果

结构提纲

按章节快速跳转。

§前沿实验室求职核心技能
强调内核级调优和MoE架构优化是进入实验室的关键技术路径
·内核优化实践方法
通过DeepMind Scaling手册指导，展示JAX/Pallas在MoE层优化中的具体应用
·Agent基础设施趋势
分析LangSmith Engine和Devin Auto-Triage等工具如何推动自动化与可观测性成熟
·求职实战任务要求
明确推导Chinchilla定律差异和实现MoE加速核函数的面试考核标准

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

前沿实验室求职指南
- 内核优化
  - LLM内核调优
  - MoE架构优化
- Agent自动化
  - 可观测性
  - 自动化工具
- 求职任务
  - Chinchilla定律推导
  - Pallas核函数实现

金句 / Highlights

值得收藏与分享的关键句。

LLM工作的最大瓶颈是性能优化，需掌握内核级调优使抽象逻辑变为可运行方案
— 内核优化章节
⬇︎ 下载 PNG 𝕏 分享到 X
LangSmith Engine作为Agent的CI/CD循环，自动检测故障并生成修复方案
— Agent基础设施段
⬇︎ 下载 PNG 𝕏 分享到 X
Devin Auto-Triage通过长期记忆和PR生成实现持续问题响应
— 自动化工具部分
⬇︎ 下载 PNG 𝕏 分享到 X

#LLM内核优化#MoE架构#Agent自动化#DeepMind#LangChain

打开原文

在谷歌I/O大会前一天，Gemini系列重大更新即将发布，竞争对手可能保持低调。尽管Anthropic和OpenAI今日均取得小进展，Cursor也发布了首个SpaceXAI模型，展示了合成数据/奖励机制设计及Muon框架支持的持续预训练细节。但今日最可能成为持久头条新闻的可能是Vlad Feinberg（显然以Google/TPU为中心视角）发布的关于求职准备的笔记，尤其聚焦预训练方向：

他特别引用了DeepMind去年发布的Scaling手册，并强调内核开发的重要性：

所有LLM工作的最大瓶颈和核心循环是能让抽象逻辑变化在LLM中实际运行的性能优化。每个项目都需要能在内核层面调优LLM的人才。这是可习得的技能，也是进入实验室最直接的路径。

文中意外提到了内核开发领域的领域特定语言（DSL），其发展历史可追溯到这篇精炼总结：

对于这一层级的开发者，他意外提到了Agent工作如autoresearch和AlphaEvolve。结尾处留下了一个看似简单的练习题：

但真正的招聘测试在文末段落：

_推导Chinchilla定律的适用情况；说明其在密集架构与MoE架构中的差异。_

_若想获得真实学习体验，需用jax从零手写实现解决方案。_

_接着，假设你在MoE层使用了jax.lax.ragged_dot；请编写一个pallas内核，在F>D时超越该实现，通过融合上下投影层。_

_找到可测量前向传播加速的场景并解释其存在原因。_

若能将这些内容传授给社区，欢迎成为工作坊演讲嘉宾。

2026年5月16-18日AI新闻摘要。我们监测了12个子版块、544条推文，未涉及Discord渠道。AINews官网可搜索往期内容。需注意，AINews现为Latent Space子栏目，您可调整邮件订阅频率。

代理系统、操作范式与从聊天到自动化转型

代理基础设施正走向可观测性+自动化闭环：多篇报告指出生产级代理的成熟堆栈。LangSmith Engine被定位为代理的缺失CI/CD循环，可自动从生产追踪中检测故障、聚类问题并生成修复/评估方案，LangChain同时强调SmithDB作为专为代理可观测性与评估设计的数据层，支持大规模追踪的低延迟查询及自托管/多云部署 @krishdpi，@LangChain。与此同时，Cognition推出Devin Auto-Triage，定位为具备长期记忆、主代理/子代理结构及PR生成能力的"始终在线"故障响应系统；Modal等早期用户称其比传统自研排查自动化更实用 @cognition，@walden_yan，@russelljkaplan。共同趋势是减少"与代理聊天"，转向与追踪、记忆和评估绑定的持续自动化。

代码代理的操作模式更加具体化：Anthropic发布Claude Code在百万行单体仓库、遗留系统及微服务中的最佳实践，新增提示缓存诊断功能，并将Fast模式默认切换至Opus 4.7以优化低延迟编码流程 @ClaudeDevs，@ClaudeDevs，@ClaudeDevs。OpenAI为Codex扩展了Zoom插件、移动/桌面远程执行及"保持Mac唤醒"功能，确保长时任务可通过手机App持续运行 @coreyching，@OpenAIDevs。微软将GitHub Copilot CLI和VS Code的远程控制功能推至GA阶段 @code。这些产品的共同方向是：后台执行、远程监督和代理扩展，而不仅是交互式补全。

实践者正在形成统一的思维模式：约束、验证、分解：François Chollet 将编码代理比作需要精心设计的 可验证约束来引导的“盲目松鼠”这一观点，精准契合了工程实践向以框架为中心的工程范式转变的潮流 @fchollet。相关建议包括在 Python/ML 代码中大量使用断言以快速失败 @gabriberton，为长周期代理构建端到端与渐进式评估体系 @palashshah，以及采用分阶段成熟度模型构建多代理系统而非过早追求代理数量最大化 @shannholmberg。实践共识明确：代理质量更依赖验证界面、分解设计与反馈循环，而非单纯依赖提示词技巧。

模型发布、排名变动与前沿编码模型

Cursor的Composer 2.5成为本批次最亮眼的模型发布：Cursor宣布Composer 2.5为其迄今最强模型，强调其在长周期任务中的持续工作表现提升和更可靠的指令遵循能力，随后披露了更深层的战略举措：使用“SpaceXAI”从头训练了一个规模大得多的模型，投入总算力提升10倍并借助Colossus 2的百万H100等效算力@cursor_ai，@cursor_ai。社区反馈聚焦其能效/性价比和卓越的编码质量，用户称其相较Composer 2是重大飞跃，并指出其在消息/更新协作行为上的改进远超单纯基准测试提升 @mntruell，@jonas_nelle，@kimmonismus。

阿里云Qwen系列持续攀升：Qwen3.7 Preview在文本领域整体排名第13，其中数学第7、专家领域第9、软件与IT第9、编码第10；Qwen3.7 Plus Preview在视觉领域整体排名第16，使阿里云成为文本领域第6、视觉领域第5的实验室（按Arena统计）@arena，@Alibaba_Qwen。这进一步印证了中国实验室在通用与专业领域持续提升的总体趋势，而非仅聚焦于聊天基准的头条新闻。

开放模型与多模态发布持续突破次前沿：字节跳动开源了Lance，描述为整合图像/视频理解、生成与编辑的统一多模态模型，包含30B视频+30B图像+30B解码器组件 @bdsqlsz。Perplexity发布了小型开源多语言ColBERT模型，作为pplx-embed-0.6b的持续训练变体，并提及使用MaxSim内核@bo_wangbo。这些并非前沿规模的发布，但技术意义重大，因其针对检索质量和原生多模态统一两大仍具工具价值的领域。

推理部署与本地/企业服务

本地推理通过MTP在llama.cpp获得显著加速：Georgi Gerganov为Qwen3.6系列在llama.cpp中实现了MTP支持，称这是本地AI的重要里程碑 @ggerganov。后续测试显示吞吐量显著提升，例如在A10G使用draft-MTP标志时，Qwen3.6-27B密集模型从25 token/s提升至45 token/s（+78%） @victormustar。这缩小了消费级硬件上本地与云端编码/通用助手的可用性差距。

企业/本地部署势头强劲：Hugging Face与戴尔通过Dell Enterprise Hub优化了PowerEdge XE9780与NVIDIA B300的协同，提供一键访问Kimi K2.6、DeepSeek V4 Pro/Flash、GLM 5.1和MiniMax M2.7等模型 @jeffboudier。Clement Delangue指出基于开源模型的本地/企业AI将成为应对GPU短缺的重要方案，优势包括成本、延迟、安全与数据控制@ClementDelangue。

跨硬件推理优化日趋复杂：Zyphra对AMD Instinct MI355X的端到端推理基准测试显示，其性能显著超越AMD基线，并在部署Kimi K2.6、GLM 5.1、DeepSeek V3.2时缩小与NVIDIA B200的差距@ZyphraAI。补充来看，Quentin Anthony在推文中强调需区分硬件极限与当前软件状态，指出许多跨栈对比混淆了厂商峰值、可实现的GEMM性能及软件成熟度 @QuentinAnthon15。这对基础设施工程师的启示是：将基准图表视为栈依赖的快照，而非绝对真理。

研究：MoEs、RL/数据混合、架构搜索与代理评估

本周多篇论文关注改进训练信号而非更大模型：LeCun/Timor等人《On Training in Imagination》的总结指出，在基于模型的强化学习中，具有低Lipschitz常数的平滑世界/奖励模型能缩小误差边界；奖励模型通常比动态模型扩展更快；大量带有噪声的奖励标签可能比少量高质量标签更有效，而带有偏差的奖励尤其危险 @TheTuringPost。另一篇关于教学强化学习的讨论指出，若推理轨迹相对于学生策略过于意外，即使正确的推理过程也可能成为低效的训练数据；该方法通过特权教师结合尖峰感知奖励和惊讶门控模仿生成学生可学习的轨迹 @blc_16，@NoahZiems。

架构与扩展研究仍具高度实践价值：Meta的AIRA工作在代理驱动神经架构发现领域引发关注，其通过将搜索拆分为规划代理（AIRA-Compose）和实现代理（AIRA-Design），在24小时内以计算预算分别击败Llama 3.2在3.5亿、10亿和30亿参数规模的性能 @omarsar0，@dair_ai。另有一篇《Slicing and Dicing MoEs》报告训练了2000+ MoE语言模型，结论指出设计空间的核心在于专家规模和数量，而非嘈杂的MoE配置参数讨论 @margs_li。

数据选择与评估方法成为核心研究问题：On-Policy Mix针对不断变化的数据分布下寻找最优数据混合比的未解问题，适用于预训练、中期训练和指令调优 @michahu8。在评估领域，Cameron Wolfe发布了一份代理评估指南，一篇知乎长文则主张智能体时代需衡量委托智能——何时搜索、编写代码、推理或调用工具——而非仅静态知识或内部思维链能力 @cwolferesearch，@ZhihuFrontier。这与当前产品实践高度一致：难点正逐渐转向工具选择与验证策略，而非纯文本推理。

生态系统动态：SDK、收入捕获与开源工具

Anthropic收购Stainless：Anthropic宣布收购Stainless——这家自API早期阶段就为其提供SDK和MCP服务器平台的公司 @AnthropicAI。战略层面，此举表明其持续垂直整合开发者体验、SDK生成与协议接口，而不仅仅是模型质量。

基础模型提供商的收入集中度可能上升：一篇帖子指出，Anthropic和OpenAI在34家顶级AI初创公司产生的模型/应用收入中占比扩大，暗示尽管模型选择增多，生态系统可能正经历经济层面的整合 @amir。

部署工具与方案的整理需求持续旺盛：The Turing Post整理的13款开源基础模型部署工具——包括vLLM、TGI、SGLang、llama.cpp、Ollama、BentoML、Kubeflow、MLflow等——是本周最具实用价值的整理类内容之一 @TheTuringPost。与此同时，Papers With Code通过AI代理辅助解析方法、排行榜和最新进展实现复兴，凸显对研究可发现性的重新关注 @NielsRogge。

热门推文（按互动量排序）

Cursor的Composer 2.5与更大规模训练：最高信号强度的高互动产品新闻是Composer 2.5及Cursor披露其正投入10倍算力从头训练更大规模模型 @cursor_ai，@cursor_ai。

OpenAI/Anthropic影响开发者的功能更新：Sam Altman表示ChatGPT在最新更新中显著改进@sama，而Anthropic则为Claude控制台推出默认启用Opus 4.7快速模式及提示缓存诊断工具 @ClaudeDevs，@ClaudeDevs。

持久的研究/工程框架讨论：Richard Sutton对Bitter Lesson的26字浓缩——“专注于可随算力扩展的方法，如搜索与学习”——成为互动量最高的研究相关帖子，并与本周关于代理框架、搜索和验证驱动系统的主题高度契合 @RichardSSutton。