Holo3.1: 快速且本地化的计算机使用代理
Holo3.1 是 Hugging Face 推出的全新计算机使用代理模型,支持跨桌面、移动端与多框架部署,并首次提供 FP8/Q4 GGUF/NVFP4 量化权重以实现本地高效推理。
入选理由:Holo3.1 在 AndroidWorld 上 35B-A3B 模型准确率从 67% 提升至 79.3%
概念
NVIDIA开发的4位浮点精度格式,专为LLM推理优化以平衡速度与准确率。
已跟踪 4 条高相关材料
最近变化
2026-06-04 · Nemotron 3 Ultra采用混合Transformer-Mamba MoE架构,550B总参仅激活55B,显著降低Agent任务计算开销。
为什么值得关注
NVFP4 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
Holo3.1: Fast & Local Computer Use Agents
Hugging Face Blog · 8.5 分
Holo3.1 是 Hugging Face 推出的全新计算机使用代理模型,支持跨桌面、移动端与多框架部署,并首次提供 FP8/Q4 GGUF/NVFP4 量化权重以实现本地高效推理。
NVIDIA Nemotron 3 Ultra now available on Amazon SageMaker JumpStart
AWS Machine Learning Blog · 8.2 分
NVIDIA Nemotron 3 Ultra已在Amazon SageMaker JumpStart上线,支持一键部署。该550B参数MoE模型专为长程Agent设计,推理速度提升5倍,成本降低30%,支持1M上下文。
Long video generation is a systems problem. Introducing LongLive-2.0 from NVIDIA Research: an end-t...
NVIDIA AI(@NVIDIAAI) · 7.5 分
NVIDIA Research发布LongLive-2.0系统,采用端到端NVFP4训练和推理架构解决长视频生成问题,通过统一训练推理精度消除模型部署gap,提升速度和内存效率。
已收录 4 条与 NVFP4 相关的内容,按评分排序。
Holo3.1 是 Hugging Face 推出的全新计算机使用代理模型,支持跨桌面、移动端与多框架部署,并首次提供 FP8/Q4 GGUF/NVFP4 量化权重以实现本地高效推理。
入选理由:Holo3.1 在 AndroidWorld 上 35B-A3B 模型准确率从 67% 提升至 79.3%
NVIDIA Nemotron 3 Ultra已在Amazon SageMaker JumpStart上线,支持一键部署。该550B参数MoE模型专为长程Agent设计,推理速度提升5倍,成本降低30%,支持1M上下文。
入选理由:Nemotron 3 Ultra采用混合Transformer-Mamba MoE架构,550B总参仅激活55B,显著降低Agent任务计算开销。
NVIDIA Research发布LongLive-2.0系统,采用端到端NVFP4训练和推理架构解决长视频生成问题,通过统一训练推理精度消除模型部署gap,提升速度和内存效率。
入选理由:LongLive-2.0采用NVFP4低精度训练推理架构
Nvidia发布LongLive-2.0,这是一个用于长视频生成的NVFP4并行基础设施,但推文仅宣布产品名称,未披露任何技术实现细节。
入选理由:Nvidia发布LongLive-2.0长视频生成基础设施