Foundational research powering efficient inference at scale
TL;DR · AI 摘要
文章介绍了Together AI的多项技术进展,包括FlashAttention-4、ATLAS加速器和Batch Inference API更新,显著提升了大规模推理效率。
核心要点
- FlashAttention-4比cuDNN快1.3倍
- ATLAS加速器提升LLM推理速度4倍
- Batch Inference API成本降低50%
结构提纲
按章节快速跳转。
The article discusses Together AI's recent advancements in foundational research for efficient inference at scale.
FlashAttention-4 is up to 1.3 times faster than cuDNN on NVIDIA Blackwell.
ATLAS delivers up to 4 times faster LLM inference.
Batch Inference API reduces costs by 50% for most models.
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Foundational Research for Efficient Inference
金句 / Highlights
值得收藏与分享的关键句。
FlashAttention-4 is up to 1.3 times faster than cuDNN on NVIDIA Blackwell.
ATLAS delivers up to 4 times faster LLM inference.
Batch Inference API reduces costs by 50% for most models.
基础研究推动高效的大规模推理
⚡️ FlashAttention-4: 在 NVIDIA Blackwell 上比 cuDNN 快达 1.3 倍 →
🔎 ATLAS: 运行时学习加速器,提供高达 4 倍的更快 LLM 推理 →
⚡ Together GPU 集群: 自助 NVIDIA GPU,现已普遍可用 →
📦 批量推理 API: 大多数模型的成本降低 50%,处理数十亿个标记 →
[](https://www.together.ai/)
- 
- 
- 
- 

加速计算
- 
- 
开发环境
- 
存储
- 
- 
- 

- 
- 
特色出版物
- 
- 
- 
- 

* 加速计算
- 
- 
开发者环境
- 
存储
- 
*
- 
- 

*
- 
- 
精选出版物
*
- 
- 
- 
- 
* 资源
- 
- 
- 
- 
- 
公司
- 
- 
推理
发布于 2026/5/4
支撑高效大规模推理的基础研究
随着人工智能从研究转向生产,对于 AI 原生团队而言,挑战从构建模型转变为高效、可靠且大规模地运行它们。
- 作者 Will Van Eaton, Adee Feiner, Hiral Jasani
- 目录
- 40+ 模型选择用于生产...40+ 模型选择用于生产...40+ 模型选择用于生产...
多年来,AI 在训练方面一直备受关注:这是一个巨大的、需要大量 GPU 的过程,用于构建模型。但对于大多数今天部署 AI 的团队来说,持续的推理成本实际上决定了他们的单位经济效益。据估计,推理占到了生产 AI 系统总生命周期成本的 80-90%,仅仅是因为它会连续不断地处理每个用户查询、代理步骤和 API 调用。而训练是一个有限的投资,推理则随着您发布的每一个新用户和使用案例而扩展。
在 2026 年的 NVIDIA GTC 大会上,NVIDIA 首席执行官黄仁勋明确地阐述了这一转变:“人们支付的是信息,但人们主要支付的是工作。代理系统完成工作。” 这种从 AI 作为新奇事物到 AI 作为工作马车的转变正是重塑基础设施优先级的原因。
对于 Together AI 来说,这一切并不新鲜。推理的需求是我们一直在为之努力的。我们的首席技术官 Ce Zhang 在 GTC 上深入探讨了这些动态,并分享了从运行一些业内最具挑战性的生产推理工作负载中获得的经验教训。
为什么推理是一种不同的难题
推理不仅仅是“运行模型”。在生产环境中,它是一个同时涉及多个竞争维度的优化问题:
- 延迟决定能构建什么。 对于像编码助手、实时支持或对话代理这样的应用,低于 500 毫秒的响应时间不是可有可无的——它们决定了产品是感觉像软件还是等待。代理工作流放大了这一点:五个每次 200 毫秒的模型调用会在用户看到结果之前累积成一整秒的延迟。这个门槛很重要,错过它会有产品后果。
- 吞吐量决定了您的单位经济效益。 AI 原生公司的成本结构与传统 SaaS 公司不同。传统软件公司目标是 80-90% 的毛利率,而 AI 公司通常运营在 50-60%,其中推理单独占到了 在扩展阶段公司收入的约 23%。高效的推理意味着每 GPU 小时可以处理更多的请求。这种数学直接影响到利润率。
- 模型格局不断变化。 为今天的模型优化的推理堆栈可能需要明天进行重大重构。新的架构、量化方法和硬件;保持在前沿需要对整个堆栈进行持续投资,而不仅仅是一次性优化。
- 并发性是无情的。 服务数千个同时用户意味着要应对截然不同的上下文长度、延迟要求和成本配置文件——所有这些都必须同时进行,而不会退化。这不仅是计算上的挑战,也是调度和编排上的挑战。
- 投入生产的研发成果。 Together Research 团队贡献了一些最广泛采用的推理效率改进措施:FlashAttention(现已更新至FlashAttention-4)、ThunderKittens 和 Aurora,我们的开源自适应推测解码系统可实现高达 1.25 倍的 LLM 推理加速。这项研究通常在发表后几周内就投入生产供客户使用。
- 自适应推测解码。 标准的推测解码使用较小的草稿模型来提出标记,然后由较大的模型并行验证这些标记,在像代码补全或结构化输出这样可预测的工作负载上提供 1.5 到 3 倍的速度提升。我们的 ATLAS 和 Aurora 系统更进一步:Aurora 是一个基于实时推理跟踪的开源强化学习框架,能够实时适应流量模式的变化。它在不中断服务的情况下实现了比训练良好的静态推测器更有意义的速度提升。
- 全栈硬件优化。 在最新的 NVIDIA Blackwell 硬件(GB200 NVL72、HGX B200)上运行意味着构建跨越 72-GPU 网格的自定义并行策略,实施 NVFP4 量化,并构建从模型发布到生产的流水线,使模型发布在几天内上线。当 Cursor 需要为数百万活跃开发者提供生产级延迟时,Together AI 构建了全栈基础设施以实现这一目标,处理在不可预测且高并发流量下的严格延迟 SLA。
- 智能调度和批量处理。 高吞吐量推理需要做出明智的实时决策:哪些请求可以一起批量处理,如何根据上下文长度和延迟要求进行路由,以及何时用吞吐量换取响应性。Together 的推理引擎动态处理这些任务,从每 GPU 小时中提取最大效率,而不牺牲 AI 原生应用和产品依赖的用户体验。
正确执行的经济学
《斯坦福 2025 AI 指数》记录了一个显著的趋势:截至 2024 年底,GPT-3.5 级别的性能推理成本相比 2022 年底下降了超过 280 倍。但总推理支出却在上升;随着成本的降低,团队部署 AI 用于更多应用场景、用户和代理步骤。每个令牌的成本降低并没有减少基础设施挑战;而是扩大了其影响范围。随着行业逐渐将较低的令牌成本视为 AI 基础设施总体拥有成本(TCO)的真实指标,Together AI 优化全硬件和软件堆栈的方法继续为客户带来更好的盈利能力。
对于 AI 原生公司而言,这使得推理优化成为一种复合优势。通过推理效率提高 2 倍,您可以在相同的硬件上服务更多的客户,同时还能开拓之前不可行的应用场景。每次效率提升不仅直接流向利润率,还会影响您未来能构建的内容。
这就是 Together AI 自豪的地方:一个不仅仅是快速推理的平台,而是赋能 AI 原生团队在成本增长速度不超过收入的情况下成长的基础架构层。
在 AI 原生云上运行生产规模的推理
Together AI 是 AI 原生云,提供涵盖无服务器与专用推理、加速计算和模型塑造的全栈 AI 平台——让您充分利用每一 GPU 小时的价值,而不会牺牲用户期望的速度和生产级可靠性。
推理不仅仅是一个边缘问题。对于今天正在构建 AI 原生应用的团队来说,它将决定利润率、产品路线图以及竞争能力。好消息是:在 AI 原生云上解决这个问题的工具从未如此强大。
准备好在 Together AI 上构建未来了吗?立即开始吧。
想深入了解吗?我们的最佳实践指南详细介绍了推测解码、优化内核、量化和硬件加速。
常见问题解答
什么是大规模 AI 推理?
AI 推理是指运行经过训练的模型以生成响应的过程——每当用户发送消息、触发代理或调用 API 时都会发生。在大规模情况下,这意味着同时服务于数千甚至数百万个请求,每个请求具有不同的上下文长度、延迟要求和成本特征。基础设施挑战不仅仅是计算问题——更重要的是高效地协调所有这些操作,持续不断地进行,而不会降低任何单个用户的速度或可靠性。
为什么 AI 推理比训练更昂贵?
训练是一种密集但有限的投资——它只发生一次(或在模型更新时定期发生)。相比之下,推理则是连续进行的:每次用户交互、每次代理步骤、每次 API 调用都会产生成本。行业估计表明,推理占生产 AI 系统整个生命周期成本的 80-90%[https://www.ankursnewsletter.com/p/the-real-price-of-ai-pre-training]。随着使用量的增长,账单也会增加。对于 AI 原生公司而言,推理实际上就是销售成本——它会直接随收入增长。
什么是推测解码?
推测解码是一种加速推理的技术,其中较小、较快的“草稿”模型一次提出多个标记,然后由较大的目标模型并行验证这些标记。匹配的标记会被接受;其余的则被丢弃并重新生成。当草稿模型与目标模型很好地对齐时,这种方法可以在不改变输出的情况下提供1.5到3倍的速度提升。它特别适用于像代码补全或结构化数据生成这样可预测的工作负载。Together AI的ATLAS系统通过自适应推测解码进一步扩展了这一方法,该方法能够实时从真实流量中学习和调整。
什么是自适应推测解码?
标准的推测解码依赖于静态的草稿模型——即离线训练并在部署时固定的模型。问题在于现实世界的流量模式不断变化,静态草稿模型的准确性会随着领域变化而降低。自适应推测解码通过持续从实时推理跟踪中学习来解决这个问题,更新草稿模型而不中断服务。Together AI的Aurora框架是一个基于开源强化学习的实现,即使从零开始也能比训练良好的静态推测器实现有意义的速度提升。
在人工智能背景下,“推理研究”意味着什么?
推理研究是专注于使AI模型在生产环境中更快、更便宜且更高效的研究领域——同时不牺牲输出质量。它涵盖了算法级工作(如推测解码和注意力优化)、系统级工作(如内核工程和请求调度)以及硬件级工作(如量化和GPU利用率)。它与模型研究不同,后者侧重于改进模型的知识或能力。随着推理成本成为AI部署的主要支出,推理研究已成为应用AI领域中最具杠杆效益的领域之一。
推理优化如何影响AI产品的经济效益?
推理优化直接改善单位经济效益:更快的推理意味着每GPU小时可以处理更多的请求,从而降低了每次请求的成本。在大规模情况下,即使是适度的效率提升也会显著累积——吞吐量提高一倍实际上可以将相同工作负载的基础设施成本减半。这对产品团队来说很重要,因为它决定了哪些用例在经济上可行,随着数量的增长利润率如何提高,以及产品能否在市场成熟时维持竞争定价。
开始使用Together AI构建
从优化训练和模型塑造到大规模生产推理

* 产品
- 模型
查看所有模型DeepSeek Meta Qwen Google OpenAI Mistral AI 自定义模型 * 开发者
定价
* 资源
© 2026 Together AI. All Rights Reserved.
- [](https://discord.gg/9Rk6sSeWEG)
- [](https://x.com/togethercompute)
- [](https://www.linkedin.com/company/togethercomputer/)