Holo3.1: 快速且本地化的计算机使用代理

Hugging Face Blog

Hugging Face Blog2026年6月2日

Holo3.1: 快速且本地化的计算机使用代理

8.5Score

TL;DR · AI 摘要

Holo3.1 是 Hugging Face 推出的全新计算机使用代理模型，支持跨桌面、移动端与多框架部署，并首次提供 FP8/Q4 GGUF/NVFP4 量化权重以实现本地高效推理。

核心要点

Holo3.1 在 AndroidWorld 上 35B-A3B 模型准确率从 67% 提升至 79.3%
新增支持函数调用协议，与 Holo3 结构化输出兼容，性能接近一致
发布 0.8B/4B/9B 小模型用于成本敏感场景，同时保留 35B-A3B 高性能版本

结构提纲

按章节快速跳转。

§Holo3.1 发布背景
用户需求推动 Holo3.1 改进：需跨平台、多框架、本地部署能力。
§环境与框架鲁棒性增强
针对桌面、移动、不同代理框架优化，提升真实生产环境适应性。
§移动端自动化能力提升
AndroidWorld 上 35B-A3B 准确率从 67% 提升至 79.3%，小模型同步优化。
§跨框架执行性能对齐
新增原生函数调用支持，与 Holo3 结构化输出兼容，在 Holotab 中性能提升超 25%。
§轻量级模型与本地推理
发布 0.8B/4B/9B 小模型，配合 FP8/Q4 GGUF/NVFP4 量化权重支持边缘部署。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Holo3.1: 多环境本地计算机代理
- 跨平台支持
  - 桌面 / 移动端
- 多框架兼容
  - 结构化 JSON + 函数调用协议
- 本地推理优化
  - FP8/Q4 GGUF/NVFP4 量化模型

金句 / Highlights

值得收藏与分享的关键句。

Holo3.1 在 AndroidWorld 上 35B-A3B 模型准确率从 67% 提升至 79.3%，小模型同步优化。
— 第 3 节
⬇︎ 下载 PNG 𝕏 分享到 X
新增函数调用协议支持，与 Holo3 结构化输出兼容，在 Holotab 中性能提升超 25%。
— 第 4 节
⬇︎ 下载 PNG 𝕏 分享到 X
首次发布量化权重（FP8/Q4 GGUF/NVFP4），NVFP4 在 DGX Spark 上达 1.41× 性能加速。
— 第 5 节
⬇︎ 下载 PNG 𝕏 分享到 X

#计算机使用代理#Hugging Face#量化模型#移动端自动化

打开原文

标题：Holo3.1：快速且本地化的计算机使用代理

来源 URL：https://huggingface.co/blog/Hcompany/holo31

发布时间：2026-06-02T14:13:23.964Z

Markdown 内容：

去年三月，我们发布了 Holo3——当前最先进的计算机使用模型。其应用迅速展开。开发者、企业和合作伙伴已将其部署在各类工作流程中，从浏览器自动化与商业软件，到内部工具和桌面应用程序。随着采用率的提升，我们意识到仅靠性能已不再足够。

用户希望在同一套计算机使用能力下，在桌面和移动环境中无缝运行，并能与不同的代理框架集成。他们需要灵活的部署方案，无论是云端推理还是完全本地化执行于终端设备上。

这就是我们发布 Holo3.1 系列的原因。Holo3.1 在生产环境中最关键的三个维度——环境（网页、桌面、移动端）、代理框架以及部署目标方面显著提升了鲁棒性。首次，我们发布了针对本地推理优化的量化检查点，包括 FP8、Q4 GGUF 和 NVFP4。

Holo3.1 是迈向我们“通用计算机使用代理”愿景的重要一步：系统能够跨环境运行、无缝融入任何代理栈，并在工作流所在之处即刻启动。

计算机使用跨 GUI 环境与代理框架

基于 Qwen 系列，Holo3.1 被设计用于增强计算机使用代理实际部署环境中的鲁棒性，同时保持业界领先的表现。

当团队将 Holo3 从评估阶段推向生产时，我们反复观察到相同的问题：某一环境下的强性能并不必然适用于另一环境。移动设备、替代代理框架及不同执行框架都会引入各自特有的分布偏移。

Image 11: Capture d’écran 2026-06-01 à 16.30.52

移动端自动化

Holo3.1 将 Holo3 的能力扩展至浏览器和桌面控制之外，在移动端环境实现重大突破。在 AndroidWorld 平台上，我们的 35B-A3B 模型准确率从 67% 提升至 79.3%，而更小的 4B 和 9B 变体则从 58% 提升至 72%。

跨框架性能

为更好地支持团队将 Holo 部署在第三方代理栈中，Holo3.1 引入了对函数调用协议的原生支持，除了 Holo3 已有的结构化 JSON 输出。

在 OSWorld 和我们涵盖电商、商业软件及协作流程的内部基准测试中，函数调用与原生执行现在实现了近乎一致的性能表现。Holo3.1 在 Holotab 产品框架内的评估中，相比 Holo3 表现提升超过 25%。

更小尺寸以实现成本与性能的权衡

为进一步支持本地和设备端推理，我们还发布了新的模型尺寸，包括小型模型（0.8B、4B 和 9B），以实现低成本、私有化部署；同时保留了大型 35B-A3B 模型，以维持业界顶尖性能。

Image 12: Capture d’écran 2026-06-01 à 16.21.18

_Holo3.1 与 Qwen 3.5 系列的成本与性能对比。整体性能首先平均四个 H 公司基准（因此每个系列权重相等），然后取 OSWorld、AndroidWorld、H 公司、ScreenSpot-Pro 和 OSWorld-G 的均值。_

快速且本地推理

这是我们的首次发布包含量化权重。我们从 35B-A3B 检查点开始，提供 FP8、Q4 GGUF 和 NVFP4 格式。

对于 NVFP4，我们使用 NVIDIA 的 Model Optimizer，在 W4A16 配置下进行优化。这些检查点使计算机使用代理能在本地快速推理，且模型性能几乎没有下降。FP8 和 NVFP4 达到与全精度 BF16 检查点相同的 OSWorld 分数，仅略低于约两点。

加速效果显著：在 DGX Spark 上，NVFP4 W4A16 的总 token 通量比 FP8 提高 1.41 倍，比 BF16 提高 1.74 倍。![Image 14: quality_throughput_pareto_light (1)](https://cdn-uploads.huggingface.co/production/uploads/69ce2739f4b9146a31e99a2f/LRDMlYHe5n_FLLu41CRXd.png)

向消费级硬件上的本地代理迈进

我们还发布了 Q4 GGUF 检查点，旨在让计算机使用代理在消费级硬件上本地部署。

代理本身在 Windows 或 Mac 设备上本地运行，而模型可选择在该设备上运行——我们提供了 Apple Silicon 的参考数据——或在网络中的 DGX Spark 上运行。两种情况下，执行始终保持完全私密且本地化，无任何数据离开用户网络。

在 Spark 上，我们与 NVIDIA 共同开发的代理框架优化，结合上述 NVFP4 量化技术，相比 FP8 基线实现了约 2 倍的整体加速，将平均单步耗时从 6.8 秒缩短至 3.3 秒。

_不同平台和精度下的代理请求速率。在 DGX Spark 上，vLLM 配合 NVFP4 在 Default 和 Fast 模式下均实现了最高的请求速率，其次是 Q4 GGUF 和 FP8。这些改进及其他功能将在即将推出的桌面版代理框架中上线。_

* *

可用性

Holo3.1 系列提供四种尺寸：

| 模型 | 部署目标 | | --- | --- | | Holo3.1-0.8B | 超轻量级本地代理 | | Holo3.1-4B | 成本效益型部署 | | Holo3.1-9B | 性能与延迟平衡 | | Holo3.1-35B-A3B | 当前最先进性能 |

我们同时发布了针对本地及边缘部署优化的 FP8、NVFP4 和 Q4 GGUF 检查点。

* *

开始使用

Holo 模型 API：https://hcompany.ai/holo-models-api
Hugging Face：https://huggingface.co/collections/Hcompany/holo31

我们期待看到开发者们用 Holo3.1 创造出怎样的作品。