Holo3.1: 快速且本地化的计算机使用代理

TL;DR · AI 摘要
Holo3.1 是 Hugging Face 推出的全新计算机使用代理模型,支持跨桌面、移动端与多框架部署,并首次提供 FP8/Q4 GGUF/NVFP4 量化权重以实现本地高效推理。
核心要点
- Holo3.1 在 AndroidWorld 上 35B-A3B 模型准确率从 67% 提升至 79.3%
- 新增支持函数调用协议,与 Holo3 结构化输出兼容,性能接近一致
- 发布 0.8B/4B/9B 小模型用于成本敏感场景,同时保留 35B-A3B 高性能版本
结构提纲
按章节快速跳转。
用户需求推动 Holo3.1 改进:需跨平台、多框架、本地部署能力。
针对桌面、移动、不同代理框架优化,提升真实生产环境适应性。
AndroidWorld 上 35B-A3B 准确率从 67% 提升至 79.3%,小模型同步优化。
新增原生函数调用支持,与 Holo3 结构化输出兼容,在 Holotab 中性能提升超 25%。
发布 0.8B/4B/9B 小模型,配合 FP8/Q4 GGUF/NVFP4 量化权重支持边缘部署。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Holo3.1: 多环境本地计算机代理
- 跨平台支持
- 桌面 / 移动端
- 多框架兼容
- 结构化 JSON + 函数调用协议
- 本地推理优化
- FP8/Q4 GGUF/NVFP4 量化模型
金句 / Highlights
值得收藏与分享的关键句。
Holo3.1 在 AndroidWorld 上 35B-A3B 模型准确率从 67% 提升至 79.3%,小模型同步优化。
新增函数调用协议支持,与 Holo3 结构化输出兼容,在 Holotab 中性能提升超 25%。
首次发布量化权重(FP8/Q4 GGUF/NVFP4),NVFP4 在 DGX Spark 上达 1.41× 性能加速。
标题:Holo3.1:快速且本地化的计算机使用代理
来源 URL:https://huggingface.co/blog/Hcompany/holo31
发布时间:2026-06-02T14:13:23.964Z
Markdown 内容:
去年三月,我们发布了 Holo3——当前最先进的计算机使用模型。其应用迅速展开。开发者、企业和合作伙伴已将其部署在各类工作流程中,从浏览器自动化与商业软件,到内部工具和桌面应用程序。随着采用率的提升,我们意识到仅靠性能已不再足够。
用户希望在同一套计算机使用能力下,在桌面和移动环境中无缝运行,并能与不同的代理框架集成。他们需要灵活的部署方案,无论是云端推理还是完全本地化执行于终端设备上。
这就是我们发布 Holo3.1 系列的原因。Holo3.1 在生产环境中最关键的三个维度——环境(网页、桌面、移动端)、代理框架以及部署目标方面显著提升了鲁棒性。首次,我们发布了针对本地推理优化的量化检查点,包括 FP8、Q4 GGUF 和 NVFP4。
Holo3.1 是迈向我们“通用计算机使用代理”愿景的重要一步:系统能够跨环境运行、无缝融入任何代理栈,并在工作流所在之处即刻启动。
计算机使用跨 GUI 环境与代理框架
基于 Qwen 系列,Holo3.1 被设计用于增强计算机使用代理实际部署环境中的鲁棒性,同时保持业界领先的表现。
当团队将 Holo3 从评估阶段推向生产时,我们反复观察到相同的问题:某一环境下的强性能并不必然适用于另一环境。移动设备、替代代理框架及不同执行框架都会引入各自特有的分布偏移。

移动端自动化
Holo3.1 将 Holo3 的能力扩展至浏览器和桌面控制之外,在移动端环境实现重大突破。在 AndroidWorld 平台上,我们的 35B-A3B 模型准确率从 67% 提升至 79.3%,而更小的 4B 和 9B 变体则从 58% 提升至 72%。
跨框架性能
为更好地支持团队将 Holo 部署在第三方代理栈中,Holo3.1 引入了对函数调用协议的原生支持,除了 Holo3 已有的结构化 JSON 输出。
在 OSWorld 和我们涵盖电商、商业软件及协作流程的内部基准测试中,函数调用与原生执行现在实现了近乎一致的性能表现。Holo3.1 在 Holotab 产品框架内的评估中,相比 Holo3 表现提升超过 25%。
更小尺寸以实现成本与性能的权衡
为进一步支持本地和设备端推理,我们还发布了新的模型尺寸,包括小型模型(0.8B、4B 和 9B),以实现低成本、私有化部署;同时保留了大型 35B-A3B 模型,以维持业界顶尖性能。


_Holo3.1 与 Qwen 3.5 系列的成本与性能对比。整体性能首先平均四个 H 公司基准(因此每个系列权重相等),然后取 OSWorld、AndroidWorld、H 公司、ScreenSpot-Pro 和 OSWorld-G 的均值。_
快速且本地推理
这是我们的首次发布包含量化权重。我们从 35B-A3B 检查点开始,提供 FP8、Q4 GGUF 和 NVFP4 格式。
对于 NVFP4,我们使用 NVIDIA 的 Model Optimizer,在 W4A16 配置下进行优化。这些检查点使计算机使用代理能在本地快速推理,且模型性能几乎没有下降。FP8 和 NVFP4 达到与全精度 BF16 检查点相同的 OSWorld 分数,仅略低于约两点。
加速效果显著:在 DGX Spark 上,NVFP4 W4A16 的总 token 通量比 FP8 提高 1.41 倍,比 BF16 提高 1.74 倍。
向消费级硬件上的本地代理迈进
我们还发布了 Q4 GGUF 检查点,旨在让计算机使用代理在消费级硬件上本地部署。
代理本身在 Windows 或 Mac 设备上本地运行,而模型可选择在该设备上运行——我们提供了 Apple Silicon 的参考数据——或在网络中的 DGX Spark 上运行。两种情况下,执行始终保持完全私密且本地化,无任何数据离开用户网络。
在 Spark 上,我们与 NVIDIA 共同开发的代理框架优化,结合上述 NVFP4 量化技术,相比 FP8 基线实现了约 2 倍的整体加速,将平均单步耗时从 6.8 秒缩短至 3.3 秒。

_不同平台和精度下的代理请求速率。在 DGX Spark 上,vLLM 配合 NVFP4 在 Default 和 Fast 模式下均实现了最高的请求速率,其次是 Q4 GGUF 和 FP8。这些改进及其他功能将在即将推出的桌面版代理框架中上线。_
- * *
可用性
Holo3.1 系列提供四种尺寸:
| 模型 | 部署目标 | | --- | --- | | Holo3.1-0.8B | 超轻量级本地代理 | | Holo3.1-4B | 成本效益型部署 | | Holo3.1-9B | 性能与延迟平衡 | | Holo3.1-35B-A3B | 当前最先进性能 |
我们同时发布了针对本地及边缘部署优化的 FP8、NVFP4 和 Q4 GGUF 检查点。
- * *
开始使用
- Holo 模型 API:https://hcompany.ai/holo-models-api
- Hugging Face:https://huggingface.co/collections/Hcompany/holo31
我们期待看到开发者们用 Holo3.1 创造出怎样的作品。