T
traeai
登录
返回首页
Hugging Face Blog

Holo3.1: 快速且本地化的计算机使用代理

8.5Score
Holo3.1: 快速且本地化的计算机使用代理

TL;DR · AI 摘要

Holo3.1 是 Hugging Face 推出的全新计算机使用代理模型,支持跨桌面、移动端与多框架部署,并首次提供 FP8/Q4 GGUF/NVFP4 量化权重以实现本地高效推理。

核心要点

  • Holo3.1 在 AndroidWorld 上 35B-A3B 模型准确率从 67% 提升至 79.3%
  • 新增支持函数调用协议,与 Holo3 结构化输出兼容,性能接近一致
  • 发布 0.8B/4B/9B 小模型用于成本敏感场景,同时保留 35B-A3B 高性能版本

结构提纲

按章节快速跳转。

  1. §Holo3.1 发布背景

    用户需求推动 Holo3.1 改进:需跨平台、多框架、本地部署能力。

  2. 针对桌面、移动、不同代理框架优化,提升真实生产环境适应性。

  3. AndroidWorld 上 35B-A3B 准确率从 67% 提升至 79.3%,小模型同步优化。

  4. 新增原生函数调用支持,与 Holo3 结构化输出兼容,在 Holotab 中性能提升超 25%。

  5. 发布 0.8B/4B/9B 小模型,配合 FP8/Q4 GGUF/NVFP4 量化权重支持边缘部署。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Holo3.1: 多环境本地计算机代理
    • 跨平台支持
      • 桌面 / 移动端
    • 多框架兼容
      • 结构化 JSON + 函数调用协议
    • 本地推理优化
      • FP8/Q4 GGUF/NVFP4 量化模型

金句 / Highlights

值得收藏与分享的关键句。

  • Holo3.1 在 AndroidWorld 上 35B-A3B 模型准确率从 67% 提升至 79.3%,小模型同步优化。

    第 3 节

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 新增函数调用协议支持,与 Holo3 结构化输出兼容,在 Holotab 中性能提升超 25%。

    第 4 节

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 首次发布量化权重(FP8/Q4 GGUF/NVFP4),NVFP4 在 DGX Spark 上达 1.41× 性能加速。

    第 5 节

    ⬇︎ 下载 PNG𝕏 分享到 X
#计算机使用代理#Hugging Face#量化模型#移动端自动化
打开原文

标题:Holo3.1:快速且本地化的计算机使用代理

来源 URL:https://huggingface.co/blog/Hcompany/holo31

发布时间:2026-06-02T14:13:23.964Z

Markdown 内容:

去年三月,我们发布了 Holo3——当前最先进的计算机使用模型。其应用迅速展开。开发者、企业和合作伙伴已将其部署在各类工作流程中,从浏览器自动化与商业软件,到内部工具和桌面应用程序。随着采用率的提升,我们意识到仅靠性能已不再足够。

用户希望在同一套计算机使用能力下,在桌面和移动环境中无缝运行,并能与不同的代理框架集成。他们需要灵活的部署方案,无论是云端推理还是完全本地化执行于终端设备上。

这就是我们发布 Holo3.1 系列的原因。Holo3.1 在生产环境中最关键的三个维度——环境(网页、桌面、移动端)、代理框架以及部署目标方面显著提升了鲁棒性。首次,我们发布了针对本地推理优化的量化检查点,包括 FP8、Q4 GGUF 和 NVFP4。

Holo3.1 是迈向我们“通用计算机使用代理”愿景的重要一步:系统能够跨环境运行、无缝融入任何代理栈,并在工作流所在之处即刻启动。


计算机使用跨 GUI 环境与代理框架

基于 Qwen 系列,Holo3.1 被设计用于增强计算机使用代理实际部署环境中的鲁棒性,同时保持业界领先的表现。

当团队将 Holo3 从评估阶段推向生产时,我们反复观察到相同的问题:某一环境下的强性能并不必然适用于另一环境。移动设备、替代代理框架及不同执行框架都会引入各自特有的分布偏移。

Image 11: Capture d’écran 2026-06-01 à 16.30.52

移动端自动化

Holo3.1 将 Holo3 的能力扩展至浏览器和桌面控制之外,在移动端环境实现重大突破。在 AndroidWorld 平台上,我们的 35B-A3B 模型准确率从 67% 提升至 79.3%,而更小的 4B 和 9B 变体则从 58% 提升至 72%。

跨框架性能

为更好地支持团队将 Holo 部署在第三方代理栈中,Holo3.1 引入了对函数调用协议的原生支持,除了 Holo3 已有的结构化 JSON 输出。

在 OSWorld 和我们涵盖电商、商业软件及协作流程的内部基准测试中,函数调用与原生执行现在实现了近乎一致的性能表现。Holo3.1 在 Holotab 产品框架内的评估中,相比 Holo3 表现提升超过 25%。

更小尺寸以实现成本与性能的权衡

为进一步支持本地和设备端推理,我们还发布了新的模型尺寸,包括小型模型(0.8B、4B 和 9B),以实现低成本、私有化部署;同时保留了大型 35B-A3B 模型,以维持业界顶尖性能。

Image 12: Capture d’écran 2026-06-01 à 16.21.18
Image 13: overall_pareto_light_notitle

_Holo3.1 与 Qwen 3.5 系列的成本与性能对比。整体性能首先平均四个 H 公司基准(因此每个系列权重相等),然后取 OSWorld、AndroidWorld、H 公司、ScreenSpot-Pro 和 OSWorld-G 的均值。_


快速且本地推理

这是我们的首次发布包含量化权重。我们从 35B-A3B 检查点开始,提供 FP8、Q4 GGUF 和 NVFP4 格式。

对于 NVFP4,我们使用 NVIDIA 的 Model Optimizer,在 W4A16 配置下进行优化。这些检查点使计算机使用代理能在本地快速推理,且模型性能几乎没有下降。FP8 和 NVFP4 达到与全精度 BF16 检查点相同的 OSWorld 分数,仅略低于约两点。

加速效果显著:在 DGX Spark 上,NVFP4 W4A16 的总 token 通量比 FP8 提高 1.41 倍,比 BF16 提高 1.74 倍。![Image 14: quality_throughput_pareto_light (1)](https://cdn-uploads.huggingface.co/production/uploads/69ce2739f4b9146a31e99a2f/LRDMlYHe5n_FLLu41CRXd.png)

向消费级硬件上的本地代理迈进

我们还发布了 Q4 GGUF 检查点,旨在让计算机使用代理在消费级硬件上本地部署。

代理本身在 Windows 或 Mac 设备上本地运行,而模型可选择在该设备上运行——我们提供了 Apple Silicon 的参考数据——或在网络中的 DGX Spark 上运行。两种情况下,执行始终保持完全私密且本地化,无任何数据离开用户网络。

在 Spark 上,我们与 NVIDIA 共同开发的代理框架优化,结合上述 NVFP4 量化技术,相比 FP8 基线实现了约 2 倍的整体加速,将平均单步耗时从 6.8 秒缩短至 3.3 秒。

Image 15: agent_request_rate_light

_不同平台和精度下的代理请求速率。在 DGX Spark 上,vLLM 配合 NVFP4 在 Default 和 Fast 模式下均实现了最高的请求速率,其次是 Q4 GGUF 和 FP8。这些改进及其他功能将在即将推出的桌面版代理框架中上线。_

  • * *

可用性

Holo3.1 系列提供四种尺寸:

| 模型 | 部署目标 | | --- | --- | | Holo3.1-0.8B | 超轻量级本地代理 | | Holo3.1-4B | 成本效益型部署 | | Holo3.1-9B | 性能与延迟平衡 | | Holo3.1-35B-A3B | 当前最先进性能 |

我们同时发布了针对本地及边缘部署优化的 FP8、NVFP4 和 Q4 GGUF 检查点。

  • * *

开始使用

我们期待看到开发者们用 Holo3.1 创造出怎样的作品。

AI 可能会生成不准确的信息,请核实重要内容