1-Bit Bonsai Image 4B:面向本地设备的图像生成模型

TL;DR · AI 摘要
Bonsai Image 4B 是首个可在 iPhone 上本地运行的 4B 参数图像生成模型,通过 1-bit 和三值量化技术将内存占用降低 6-8 倍,支持在手机端生成 512x512 图像仅需 9.4 秒。
核心要点
- 1-bit Bonsai Image 4B 将扩散 Transformer 内存从 7.75GB 压缩至 0.93GB,压缩比达 8.3x,适合内存受限设备。
- Ternary 版本使用 {-1,0,+1} 权重,在 1.21GB 占用下提升视觉质量与提示词保真度,iPhone 17 Pro Max 上生成 512x51
- 支持 Apple Silicon 和 CUDA 部署,Mac M4 Pro 上比原生 MFLUX 快 5.6 倍,是首个能在 iPhone 上运行的 4B 级图
结构提纲
按章节快速跳转。
Bonsai Image 4B 是专为本地设备设计的紧凑型图像生成模型,首次实现 4B 参数模型在 iPhone 上运行。
1-bit 使用二值权重({-1,+1})实现 0.93GB 占用,Ternary 使用三值权重({-1,0,+1})提升画质至 1.21GB。
相比 FLUX.2 Klein 4B,Bonsai 在 iPhone 上内存占用降低 6-8 倍,生成 512x512 图像仅需 9.4 秒。
支持 Apple Silicon 设备和 CUDA GPU,使用 MLX 和 Gemlite 低比特内核实现高效推理。
在 GenEval 等基准上保持可用性,证明压缩后模型仍具备高质量图像生成能力。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Bonsai Image 4B 本地图像生成模型
- 模型架构
- 基于 FLUX.2 Klein 4B
- 1-bit 与 Ternary 量化变体
- 性能优势
- 内存压缩 6-8x
- iPhone 生成 512x512 图像 9.4s
- 部署支持
- Apple Silicon (MLX)
- CUDA (Gemlite)
金句 / Highlights
值得收藏与分享的关键句。
Bonsai Image 4B 是首个可在 iPhone 上直接运行的同参数级别图像模型。
1-bit Bonsai 将 Transformer 内存从 7.75GB 压缩至 0.93GB,压缩率达 8.3 倍,使内存受限设备可运行。
在 iPhone 17 Pro Max 上,Bonsai 生成 512x512 图像仅需 9.4 秒,而全精度 FLUX.2 Klein 4B 无法装入设备内存。
标题:推出1比特与三元Bonsai Image 4B:面向本地设备的图像生成模型
原始链接:https://prismml.com/news/bonsai-image-4b
发布日期:2026-05-26
Markdown 内容:

由三元Bonsai Image 4B生成的图像
今天,我们正式发布Bonsai Image 4B——一组专为在本地硬件上运行高质量扩散推理而设计的轻量级图像生成模型:从笔记本电脑到手机均可支持。
Bonsai Image 4B 提供两种变体:
- 1比特Bonsai Image 4B 使用二值化 {−1, +1} 变压器权重,并配合FP16分组缩放因子,每权重有效位数为1.125位。它旨在实现最大压缩,在内存压力、带宽和部署占用空间为主要限制时尤为适用。
- 三元Bonsai Image 4B 使用{−1, 0, +1}变压器权重并搭配FP16分组缩放因子,每权重有效位数为1.71位。额外引入零状态赋予模型更强的表征灵活性,在保持极小体积的同时显著提升视觉质量与提示忠实度。
结果是,图像生成领域迎来一种全新的部署范式:输出能力强劲、权重开源、且可在此前无法承载此类模型的设备上实现实用的本地推理。据我们所知,Bonsai Image 4B 是首个可直接在iPhone上运行的同参数规模图像模型。
专为本地生成而构建

由1比特Bonsai Image 4B生成的图像
本地图像生成始于一个硬性约束:模型必须适配设备的内存预算。
对于4B级图像模型而言,扩散变压器是模型中体积最大的部分,也是在生成过程中反复调用的核心组件。每一次去噪步骤都会再次调用变压器,因此其尺寸直接影响内存压力、带宽需求以及本地推理速度。
Bonsai Image 4B 基于FLUX.2 Klein 4B构建,保留了完整架构,仅改变变压器权重的表示方式。通过将权重转为二进制与三元形式,Bonsai大幅缩减了对本地部署至关重要的图像处理管线部分。
| 模型 | 扩散变压器 | 相比FP16的压缩比例 | | --- | --- | --- | | FLUX.2 Klein 4B | 7.75 GB | 1.0x | | 1比特Bonsai Image 4B | 0.93 GB | 8.3x | | 三元Bonsai Image 4B | 1.21 GB | 6.4x |
表 I: 各模型扩散变压器的存储占用。
二进制层相比全精度变压器权重可实现约14倍的压缩率。一小部分对精度敏感的辅助张量(约5%,称为投影层)仍以FP16格式保留,因此最终的1比特Bonsai Image 4B变压器大小仅为0.93 GB——相较7.75 GB的全精度FLUX.2 Klein 4B实现了8.3倍的压缩。
三元版本采用相同结构,其三元层提供约10倍压缩率,最终的三元Bonsai Image 4B变压器大小为1.21 GB——相较全精度变压器压缩6.4倍。虽然略大于1比特模型,但新增的零状态显著提升了视觉质量和提示忠实度。
包含压缩后的文本编码器与FP16 VAE后,Apple Silicon平台的部署包大小分别为:1比特Bonsai Image 4B为3.42 GB,三元版本为3.88 GB。相比之下,全精度FLUX.2 Klein 4B需要15.97 GB的部署包。由于运行时文本编码器在提示编码完成后会被卸载,实际平均内存占用小于总部署包大小。生成512×512图像时,平均活跃内存分别为1.5 GB(1比特模型)和1.96 GB(三元模型),而原版FLUX.2 Klein 4B则需11.74 GB(分别减少7.8倍与6.0倍)。生成1024×1024图像时,平均活跃内存为1.95 GB(1比特)和2.38 GB(三元),对比原模型14.39 GB(分别减少7.4倍与6.0倍)。
这一内存占用的显著降低,使模型得以在更多设备上运行。我们的部署栈支持Apple Silicon iPhone、iPad及Mac,以及CUDA GPU,其中Apple设备使用MLX低比特路径,CUDA设备则采用Gemlite低比特GEMM内核。在iPhone 17 Pro Max上,全精度FLUX.2 Klein 4B管道因内存不足无法运行,而两款Bonsai Image变体均可在设备端顺利执行。
视频 I:Bonsai Studio中的图像生成
实际应用中,Bonsai Image 4B在iPhone 17 Pro Max上生成一张512×512图像耗时9.4秒,而在Mac M4 Pro上仅需约6秒。在Mac M4 Pro上,Bonsai Image 4B的推理速度比原生全精度MFLUX管道快达5.6倍。
性能基准测试
压缩只有在模型仍具实用性时才具有意义。我们在三个互补基准测试中评估了Bonsai Image 4B的表现:GenEval用于评估对象组合与属性绑定能力;HPSv3衡量人类偏好与美学质量;DPG-Bench评估密集提示跟随与语义忠实度。
.png)
Bonsai Image与FLUX.2 Klein 4B模型之间的定性对比。
| 模型 | 扩散变压器占用空间(GB) | GenEval | HPSv3 | DPG-Bench | 相比FLUX.2 Klein 4B的尺寸压缩比 | 相比FLUX.2 Klein 4B的性能表现 | | --- | --- | --- | --- | --- | --- | --- | | 1比特Bonsai Image 4B | 0.93 | 0.671 | 11.15 | 0.822 | 8.3x | 88% | | 三元Bonsai Image 4B | 1.21 | 0.723 | 12.22 | 0.851 | 6.4x | 95% | | FLUX.2 Klein 4B | 7.75 | 0.819 | 12.84 | 0.853 | 1x | 100% | | SDXL | 5.14 | 0.3 | 10.05 | 0.74 | 1.5x | 67% | | BK-SDM-Small | 0.98 | 0.297 | 3.05 | 0.559 | 7.9x | 42% | | Stable Diffusion 1.5 | 1.72 | 0.396 | 4.2 | 0.601 | 4.5x | 51% | | PixArt-Σ XL 2 | 1.2 | 0.541 | 11.93 | 0.769 | 6.4x | 83% |
表 II: 三元 bonsai 图像 4B 与其他模型在图像质量基准测试中的对比。
三元 bonsai 图像 4B 是面向质量优化的变体。其大小为 1.21 GB,在 GenEval、HPSv3 和 DPG-Bench 三个评估集上保留了 FLUX.2 Klein 4B 95% 的准确率,同时将扩散 Transformer 的模型规模减少了 6.4 倍。
1-bit bonsai 图像 4B 是面向模型尺寸优化的变体。其将扩散 Transformer 模型压缩至 1 GB 以下,降幅达 8.3 倍,同时在上述三项评估中仍保持强劲的性能表现(保留了 FLUX.2 Klein 4B 88% 的准确率)。
这两个变体共同推动了“质量-尺寸”边界的进步。Bonsai 图像在与当前主流 4B 级图像生成模型竞争时,仅使用其极小部分的扩散 Transformer 模型规模;与此同时,它在同等内存占用下显著超越了更小规模的模型。这与我们此前在 Bonsai 语言模型中观察到的帕累托改进一致——Bonsai 图像将现代扩散 Transformer 的行为带入了过去仅属于小型低能力模型的内存范围。
为何这一点至关重要
图像生成不仅是模型质量的问题,更是部署层面的问题。
云端 API 仍将是对许多产品而言最合适的方案。但纯云端生成会带来某些产品限制:每个提示词都需发起远程请求,每次迭代都会产生边际服务成本,每一次交互都会增加往返延迟。
这一点至关重要,因为图像生成本质上是迭代过程。用户很少只生成一张图。他们通常会修改提示词、比较输出结果、生成多种变体、舍弃失败样本并重新尝试。当每次尝试都需要由服务器端处理时,创作循环就变成了一种需要用户计费和等待的过程。
本地推理则能改变这一现状。一旦模型能够完整部署在设备上,生成过程即可直接嵌入产品体验之中。它运行成本更低、迭代速度更快,并且在需要保护提示词或生成资产隐私的环境中也更容易使用。
Bonsai Image 4B 正是迈向这种部署模式的重要一步:在用户已拥有的硬件上,实现贴近用户的高性能图像生成能力。

由三元 bonsai 图像 4B 生成的图像
可用性
1-bit 和三元 bonsai 图像 4B 将以开源权重和代码形式,依据 Apache 2.0 许可证 发布。
此次发布的同时,我们也将推出 Bonsai Studio —— 专为 iPhone 设计的 iOS 应用,支持用户直接在手机上试用 Bonsai Image 4B。
加入我们
PrismML 起源于加州理工学院的研究团队,由 Khosla Ventures、Cerberus 和 Google 提供支持成立。我们多年来致力于攻克该领域最困难的问题之一:在不牺牲模型推理能力的前提下压缩神经网络。
如果您希望参与构建下一代前沿人工智能系统,欢迎与我们联系。请访问我们的 招聘页面。