T
traeai
登录
返回首页
AWS Machine Learning Blog

NVIDIA Nemotron 3 Ultra现已登陆Amazon SageMaker JumpStart

8.2Score
NVIDIA Nemotron 3 Ultra现已登陆Amazon SageMaker JumpStart

TL;DR · AI 摘要

NVIDIA Nemotron 3 Ultra已在Amazon SageMaker JumpStart上线,支持一键部署。该550B参数MoE模型专为长程Agent设计,推理速度提升5倍,成本降低30%,支持1M上下文。

核心要点

  • Nemotron 3 Ultra采用混合Transformer-Mamba MoE架构,550B总参仅激活55B,显著降低Agent任务计算开销。
  • 针对Agentic工作负载优化NVFP4精度,实现5倍推理加速和30%成本节约,适合多步推理与工具调用场景。
  • 通过SageMaker JumpStart一键部署,支持ml.p5en/g7e等GPU实例,提供Studio界面与Python SDK两种接入方式。

结构提纲

按章节快速跳转。

  1. NVIDIA Nemotron 3 UltraSageMaker JumpStart首日可用,为Agent场景提供5倍推理加速和30%成本优化。

  2. 该模型基于混合Transformer-Mamba MoE架构,拥有550B总参数和55B激活参数,支持1M token上下文长度。

  3. MoE稀疏激活机制使模型在百万级上下文中保持高吞吐,支撑数百轮次的规划、工具调用与自我修正循环。

  4. 适用于Agent编排、代码生成调试、深度研究及复杂业务流程自动化等需持续多步推理的任务。

  5. 用户可通过SageMaker Studio界面或Python SDK一键部署模型,需注意GPU实例计费并及时释放端点资源。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Nemotron 3 Ultra on SageMaker
    • 模型特性
      • 550B/55B MoE架构
      • 1M Token上下文
      • NVFP4精度优化
    • Agent场景优势
      • 5倍推理加速
      • 30%成本降低
      • 多步推理与工具调用
    • 部署方式
      • SageMaker Studio一键部署
      • Python SDK集成

金句 / Highlights

值得收藏与分享的关键句。

  • Nemotron 3 Ultra为Agentic工作负载提供5倍推理加速和高达30%的成本降低。

    第2段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 其MoE架构每次前向传播仅激活550B参数中的55B,即使在百万token上下文长度下也能保持高吞吐量。

    为何Agentic AI需要专用模型

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Agent并非只回答一次,它们会规划、调用工具、委派子代理、检查结果,并在数百轮对话中持续运行。

    为何Agentic AI需要专用模型

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 部署此模型会创建SageMaker端点并在运行期间产生费用,ml.p5en.48xlarge等GPU实例每小时成本可达数美元。

    先决条件

    ⬇︎ 下载 PNG𝕏 分享到 X
#Nemotron 3 Ultra#SageMaker JumpStart#Agentic AI#MoE#AWS
打开原文

标题:NVIDIA Nemotron 3 Ultra 现已在 Amazon SageMaker JumpStart 上线 | Amazon Web Services

URL 来源:https://aws.amazon.com/blogs/machine-learning/nvidia-nemotron-3-ultra-now-available-on-amazon-sagemaker-jumpstart/

发布时间:2026-06-04T08:59:08-08:00

Markdown 内容:

[人工智能](https://aws.amazon.com/blogs/machine-learning/)

今天,我们很高兴地宣布 NVIDIA Nemotron 3 Ultra 已在 Amazon SageMaker JumpStart 实现首日上线。

通过此次发布,您现在可以使用一键部署体验来部署 Nemotron 3 Ultra 模型。Nemotron 3 Ultra 是一个开放模型,专为长期运行的自主智能体中的前沿推理和编排而构建,可为智能体工作负载提供 5 倍推理速度提升和高达 30% 的成本降低。Nemotron 3 Ultra 针对 NVFP4 格式进行了优化,使模型托管更加快速且更具成本效益。

NVIDIA Nemotron 3 Ultra 概述

NVIDIA Nemotron 3 Ultra 是一个开放的大语言模型,拥有 5500 亿总参数和 550 亿激活参数。它基于混合 Transformer-Mamba 专家混合(MoE)架构构建,旨在以同等质量稠密模型计算成本的一小部分,提供前沿智能。

| 规格 | 详情 | | --- | --- | | 架构 | 混合 Transformer-Mamba MoE | | 参数 | 总计 5500 亿 / 激活 550 亿 | | 上下文长度 | 最高 100 万 token | | 输入 / 输出 | 文本输入,文本输出 | | 精度 | NVFP4 | | 推理速度 | 长期运行的智能体工作流快 5 倍 | | 成本 | 复杂智能体任务成本降低高达 30% |

![图片 1](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/06/04/image-36.png)

为什么智能体 AI 需要专用模型

智能体并非只回答一次问题。它们会进行规划、调用工具、将工作委派给子智能体、检查结果,并在数百轮对话中持续运行。每一步都会增加 token 和计算消耗,因此真正重要的指标是有效准确率下的任务完成率、完成时间和单任务成本。

Nemotron 3 Ultra 直接解决了这一问题。其 MoE 架构在每次前向传播中仅激活 5500 亿参数中的 550 亿,即使在百万级 token 上下文长度下也能保持高吞吐量。这意味着智能体可以维持跨越数百轮的规划、工具调用和自我纠正循环,同时有助于保持连贯性并控制成本。

企业应用场景

Nemotron 3 Ultra 在需要持续多步推理的工作负载中表现出色:

  • 智能体编排器 – 协调多个子智能体,管理长工具调用链中的状态
  • 编程智能体 – 在大型代码库中生成、测试、调试和迭代代码
  • 深度研究 – 综合多源信息,在扩展上下文中保持连贯的推理
  • 复杂企业工作流 – 通过决策分支和错误恢复自动化多步业务流程

开始使用 SageMaker JumpStart

您可以通过 Amazon SageMaker JumpStart 一键部署 Nemotron 3 Ultra,无需管理基础设施或配置服务框架。

先决条件

在开始之前,请确保您具备:

  • AWS 账户
  • 适用于 SageMaker JumpStart 的适当权限范围
  • 充足的 GPU 实例服务配额(例如 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge)

重要提示: 部署此模型会创建一个 SageMaker 端点,该端点在运行期间会产生费用。像 ml.p5en.48xlarge 这样的 GPU 实例每小时可能花费数美元。详情请参阅 Amazon SageMaker AI 定价。完成后请务必删除您的端点,以避免持续产生费用。

使用 SageMaker Studio 部署

  1. 打开 Amazon SageMaker Studio
  2. 在左侧导航窗格中,选择 SageMaker JumpStart
  3. 搜索 Nemotron 3 Ultra
  4. 选择模型卡片
  5. 选择“部署”
  6. 选择您的实例类型(支持的实例类型为 ml.p5en.48xlarge、ml.p5.48xlarge 或 ml.g7e.48xlarge)
  7. 查看部署设置(默认设置足以满足大多数用例)
  8. 选择“部署”以创建端点
  9. 等待端点状态显示为 InService,然后再进行推理
图片 2

使用 SageMaker Python SDK 部署

code
import sagemaker
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(
    model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",  # Verify in SageMaker JumpStart model card
    role=sagemaker.get_execution_role(),  # Your SageMaker execution role ARN
)
predictor = model.deploy(accept_eula=True)

Python

运行推理

code
payload = {
    "messages": [{
        "role": "user",
        "content": "Break this task into subtasks, identify which tools are needed, and run them in sequence."
    }],
    "max_tokens": 20480,
    "temperature": 0.6,
    "top_p": 0.95,
}
response = predictor.predict(payload)
print(response["choices"][0]["message"]["content"])

Python

清理资源

为避免产生不必要的费用,请在完成后删除 SageMaker 端点:predictor.delete_endpoint()

结论

NVIDIA Nemotron 3 Ultra 将前沿级推理能力引入 Amazon SageMaker JumpStart,为智能体工作负载提供 5 倍推理速度提升和高达 30% 的成本降低。其混合 Transformer-Mamba MoE 架构和百万级 token 上下文窗口,使其专为生产环境智能体所需的持续、多步推理而构建。

无论您是在构建智能体编排器、编程智能体、深度研究系统还是复杂的企业自动化,Nemotron 3 Ultra 现已可通过 SageMaker JumpStart 随时部署。

立即在 Amazon SageMaker JumpStart 中搜索 Nemotron 3 Ultra 开始使用。

  • * *

关于作者

![Image 3](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/06/03/21170-1.jpeg)Dan Ferguson 是 AWS 的解决方案架构师,常驻美国纽约。作为机器学习服务专家,Dan 致力于支持客户高效、有效且可持续地集成 ML 工作流。

![Image 4](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/06/03/21170-2.jpeg)Malav Shastri 是 AWS 的软件开发工程师,任职于 Amazon SageMaker JumpStart 和 Amazon Bedrock 团队。他的工作重点在于帮助客户充分利用最先进的开源及专有基础模型。Malav 拥有计算机科学硕士学位。

![Image 5](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2026/06/03/21170-3.jpeg)Vivek Gangasani 是 SageMaker Inference 全球解决方案架构负责人。他负责领导 SageMaker Inference 的解决方案架构、技术上市 (GTM) 策略以及对外产品战略。他还协助企业和初创公司部署和优化生成式 AI 模型,并利用 SageMaker 和 GPU 构建 AI 工作流。目前,他专注于制定推理性能优化及相关应用场景(如 Agentic 工作流、RAG 等)的策略与内容。在业余时间,Vivek 喜欢徒步旅行、看电影和品尝各种美食。

AI 可能会生成不准确的信息,请核实重要内容