NVIDIA Nemotron 3 Ultra现已登陆Amazon SageMaker JumpStart

AWS Machine Learning Blog

AWS Machine Learning Blog2026年6月4日

NVIDIA Nemotron 3 Ultra现已登陆Amazon SageMaker JumpStart

8.2Score

TL;DR · AI 摘要

NVIDIA Nemotron 3 Ultra已在Amazon SageMaker JumpStart上线，支持一键部署。该550B参数MoE模型专为长程Agent设计，推理速度提升5倍，成本降低30%，支持1M上下文。

核心要点

Nemotron 3 Ultra采用混合Transformer-Mamba MoE架构，550B总参仅激活55B，显著降低Agent任务计算开销。
针对Agentic工作负载优化NVFP4精度，实现5倍推理加速和30%成本节约，适合多步推理与工具调用场景。
通过SageMaker JumpStart一键部署，支持ml.p5en/g7e等GPU实例，提供Studio界面与Python SDK两种接入方式。

结构提纲

按章节快速跳转。

§产品发布与核心优势
NVIDIA Nemotron 3 Ultra在SageMaker JumpStart首日可用，为Agent场景提供5倍推理加速和30%成本优化。
·模型架构与技术规格
该模型基于混合Transformer-Mamba MoE架构，拥有550B总参数和55B激活参数，支持1M token上下文长度。
·Agentic AI专用设计原理
MoE稀疏激活机制使模型在百万级上下文中保持高吞吐，支撑数百轮次的规划、工具调用与自我修正循环。
·企业级应用场景
适用于Agent编排、代码生成调试、深度研究及复杂业务流程自动化等需持续多步推理的任务。
§SageMaker部署实操指南
用户可通过SageMaker Studio界面或Python SDK一键部署模型，需注意GPU实例计费并及时释放端点资源。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Nemotron 3 Ultra on SageMaker
- 模型特性
  - 550B/55B MoE架构
  - 1M Token上下文
  - NVFP4精度优化
- Agent场景优势
  - 5倍推理加速
  - 30%成本降低
  - 多步推理与工具调用
- 部署方式
  - SageMaker Studio一键部署
  - Python SDK集成

金句 / Highlights

值得收藏与分享的关键句。

Nemotron 3 Ultra为Agentic工作负载提供5倍推理加速和高达30%的成本降低。
— 第2段
⬇︎ 下载 PNG 𝕏 分享到 X
其MoE架构每次前向传播仅激活550B参数中的55B，即使在百万token上下文长度下也能保持高吞吐量。
— 为何Agentic AI需要专用模型
⬇︎ 下载 PNG 𝕏 分享到 X
Agent并非只回答一次，它们会规划、调用工具、委派子代理、检查结果，并在数百轮对话中持续运行。
— 为何Agentic AI需要专用模型
⬇︎ 下载 PNG 𝕏 分享到 X
部署此模型会创建SageMaker端点并在运行期间产生费用，ml.p5en.48xlarge等GPU实例每小时成本可达数美元。
— 先决条件
⬇︎ 下载 PNG 𝕏 分享到 X

#Nemotron 3 Ultra#SageMaker JumpStart#Agentic AI#MoE#AWS

打开原文

标题：NVIDIA Nemotron 3 Ultra 现已在 Amazon SageMaker JumpStart 上线 | Amazon Web Services

URL 来源：https://aws.amazon.com/blogs/machine-learning/nvidia-nemotron-3-ultra-now-available-on-amazon-sagemaker-jumpstart/

发布时间：2026-06-04T08:59:08-08:00

Markdown 内容：

[人工智能](https://aws.amazon.com/blogs/machine-learning/)

今天，我们很高兴地宣布 NVIDIA Nemotron 3 Ultra 已在 Amazon SageMaker JumpStart 实现首日上线。

通过此次发布，您现在可以使用一键部署体验来部署 Nemotron 3 Ultra 模型。Nemotron 3 Ultra 是一个开放模型，专为长期运行的自主智能体中的前沿推理和编排而构建，可为智能体工作负载提供 5 倍推理速度提升和高达 30% 的成本降低。Nemotron 3 Ultra 针对 NVFP4 格式进行了优化，使模型托管更加快速且更具成本效益。

NVIDIA Nemotron 3 Ultra 概述

NVIDIA Nemotron 3 Ultra 是一个开放的大语言模型，拥有 5500 亿总参数和 550 亿激活参数。它基于混合 Transformer-Mamba 专家混合（MoE）架构构建，旨在以同等质量稠密模型计算成本的一小部分，提供前沿智能。

| 规格 | 详情 | | --- | --- | | 架构 | 混合 Transformer-Mamba MoE | | 参数 | 总计 5500 亿 / 激活 550 亿 | | 上下文长度 | 最高 100 万 token | | 输入 / 输出 | 文本输入，文本输出 | | 精度 | NVFP4 | | 推理速度 | 长期运行的智能体工作流快 5 倍 | | 成本 | 复杂智能体任务成本降低高达 30% |

![图片 1](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/06/04/image-36.png)

为什么智能体 AI 需要专用模型

智能体并非只回答一次问题。它们会进行规划、调用工具、将工作委派给子智能体、检查结果，并在数百轮对话中持续运行。每一步都会增加 token 和计算消耗，因此真正重要的指标是有效准确率下的任务完成率、完成时间和单任务成本。

Nemotron 3 Ultra 直接解决了这一问题。其 MoE 架构在每次前向传播中仅激活 5500 亿参数中的 550 亿，即使在百万级 token 上下文长度下也能保持高吞吐量。这意味着智能体可以维持跨越数百轮的规划、工具调用和自我纠正循环，同时有助于保持连贯性并控制成本。

企业应用场景

Nemotron 3 Ultra 在需要持续多步推理的工作负载中表现出色：

智能体编排器 – 协调多个子智能体，管理长工具调用链中的状态
编程智能体 – 在大型代码库中生成、测试、调试和迭代代码
深度研究 – 综合多源信息，在扩展上下文中保持连贯的推理
复杂企业工作流 – 通过决策分支和错误恢复自动化多步业务流程

开始使用 SageMaker JumpStart

您可以通过 Amazon SageMaker JumpStart 一键部署 Nemotron 3 Ultra，无需管理基础设施或配置服务框架。

先决条件

在开始之前，请确保您具备：

AWS 账户
适用于 SageMaker JumpStart 的适当权限范围
充足的 GPU 实例服务配额（例如 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge）

重要提示： 部署此模型会创建一个 SageMaker 端点，该端点在运行期间会产生费用。像 ml.p5en.48xlarge 这样的 GPU 实例每小时可能花费数美元。详情请参阅 Amazon SageMaker AI 定价。完成后请务必删除您的端点，以避免持续产生费用。

使用 SageMaker Studio 部署

打开 Amazon SageMaker Studio
在左侧导航窗格中，选择 SageMaker JumpStart
搜索 Nemotron 3 Ultra
选择模型卡片
选择“部署”
选择您的实例类型（支持的实例类型为 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge）
查看部署设置（默认设置足以满足大多数用例）
选择“部署”以创建端点
等待端点状态显示为 InService，然后再进行推理

使用 SageMaker Python SDK 部署

code

import sagemaker
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
    model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",  # Verify in SageMaker JumpStart model card
    role=sagemaker.get_execution_role(),  # Your SageMaker execution role ARN
)
predictor = model.deploy(accept_eula=True)

Python

运行推理

code

payload = {
    "messages": [{
        "role": "user",
        "content": "Break this task into subtasks, identify which tools are needed, and run them in sequence."
    }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Python

清理资源

为避免产生不必要的费用，请在完成后删除 SageMaker 端点：predictor.delete_endpoint()

结论

NVIDIA Nemotron 3 Ultra 将前沿级推理能力引入 Amazon SageMaker JumpStart，为智能体工作负载提供 5 倍推理速度提升和高达 30% 的成本降低。其混合 Transformer-Mamba MoE 架构和百万级 token 上下文窗口，使其专为生产环境智能体所需的持续、多步推理而构建。

无论您是在构建智能体编排器、编程智能体、深度研究系统还是复杂的企业自动化，Nemotron 3 Ultra 现已可通过 SageMaker JumpStart 随时部署。

立即在 Amazon SageMaker JumpStart 中搜索 Nemotron 3 Ultra 开始使用。

* *

关于作者

![Image 3](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/06/03/21170-1.jpeg)Dan Ferguson 是 AWS 的解决方案架构师，常驻美国纽约。作为机器学习服务专家，Dan 致力于支持客户高效、有效且可持续地集成 ML 工作流。

![Image 4](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/06/03/21170-2.jpeg)Malav Shastri 是 AWS 的软件开发工程师，任职于 Amazon SageMaker JumpStart 和 Amazon Bedrock 团队。他的工作重点在于帮助客户充分利用最先进的开源及专有基础模型。Malav 拥有计算机科学硕士学位。

![Image 5](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/06/03/21170-3.jpeg)Vivek Gangasani 是 SageMaker Inference 全球解决方案架构负责人。他负责领导 SageMaker Inference 的解决方案架构、技术上市 (GTM) 策略以及对外产品战略。他还协助企业和初创公司部署和优化生成式 AI 模型，并利用 SageMaker 和 GPU 构建 AI 工作流。目前，他专注于制定推理性能优化及相关应用场景（如 Agentic 工作流、RAG 等）的策略与内容。在业余时间，Vivek 喜欢徒步旅行、看电影和品尝各种美食。