DeepSeek V4 Flash 可以在 128GB 的 M3 Max 运行，还是 1M 上下文

掘金本周最热

掘金本周最热2026年5月11日

DeepSeek V4 Flash 可以在 128GB 的 M3 Max 运行，还是 1M 上下文

8.5Score

TL;DR · AI 摘要

DeepSeek V4 Flash 模型通过不对称优化和硬件特性绑定，在 128GB 内存的 M3 Max MacBook Pro 上实现了 1M 上下文的稳定运行。

核心要点

DeepSeek V4 Flash 使用不对称 2-bit 量化，仅对 MoE 专家部分进行量化，保持关键路径全精度。
KV Cache 被优化至 SSD，利用 Apple Silicon 的统一内存架构和 NVMe SSD，实现长上下文的高效处理。
ds4-engine 采用纯 Metal 实现，仅支持官方发布的 DeepSeek V4 Flash 模型，性能适合作为 agent 工具使用。

结构提纲

按章节快速跳转。

§背景介绍
Redis 创始人 Antirez 开源了 ds4，展示了如何在有限资源下运行 1M 上下文的 DeepSeek V4 Flash 模型。
·不对称 2-bit 量化
模型的 MoE 专家部分使用 2-bit 量化，而关键路径保持全精度，有效降低了内存占用。
·KV Cache 优化
KV Cache 被优化至 SSD，利用 Apple Silicon 的统一内存架构和 NVMe SSD，实现长上下文的高效处理。
·纯 Metal 实现
ds4-engine 采用纯 Metal 实现，仅支持官方发布的 DeepSeek V4 Flash 模型，性能适合作为 agent 工具使用。
·性能测试
在 M3 Max 128GB q2 版本下，短 prompt 生成 26.68 t/s，长 prompt 生成 21.47 t/s。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

DeepSeek V4 Flash 在 128GB M3 Max 上的运行

金句 / Highlights

值得收藏与分享的关键句。

ds4 把 KV Cache 做成「内存活跃状态」配合「磁盘持久化前缀缓存」的组合，KV Cache 可以移到 SSD ，用 SHA1 哈希 token 前缀做 key，压缩后 KV row 直接 plain read/write 落地。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
2-bit 量化有一定损失，目前只有 Metal、无 CUDA，同时 server 是单请求序列化，CPU path 还会触发 macOS kernel bug。
— 第 5 段
⬇︎ 下载 PNG 𝕏 分享到 X
Antirez 提到过 CUDA 端口正在开发中，目前 private branch 上在 DGX Spark（GB10）跑通了 ~12 t/s generation + ~200 t/s prefill。
— 第 6 段
⬇︎ 下载 PNG 𝕏 分享到 X

#DeepSeek#MoE#量化#Apple Silicon#CUDA

打开原文

DeepSeek V4 Flash 可以在 128GB 的 M3 Max 运行，还是 1M 上下文最近 Redis 创始 - 掘金

![Image 8: 稀土掘金 Image 9: 稀土掘金 ](https://juejin.cn/post/7637885957681659947)

首页
首页
沸点
课程
数据标注 HOT
AI Coding
[更多](javascript:void(0);)
直播
活动
APP
插件

* 搜索历史清空

* 创作者中心

写文章
发沸点
写笔记
写代码
草稿箱

创作灵感查看更多

登录注册 ## 首次登录 / 注册免费领取登录 / 注册

DeepSeek V4 Flash 可以在 128GB 的 M3 Max 运行，还是 1M 上下文

恋猫de小郭

2026-05-11 2,763 阅读5分钟

专栏：

AI 思考录

关注

最近 Redis 创始人 Antirez 开源了一个项目 [_ds4_](https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2Fantirez%2Fds4 "https://github.com/antirez/ds4")，用几千行纯 C 代码把 1M 上下文的「DeepSeek V4 Flash MoE 模型」，在一台 128GB 内存的 M3 Max MacBook Pro 上完整跑通，同时还能稳定支持 coding agent 循环。

这里的重点是， [_ds4_](https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2Fantirez%2Fds4 "https://github.com/antirez/ds4") 不是一个简单的量化操作，而是用「不对称优化」配合「硬件特性深度绑定」来突破「长上下文必须吃掉巨量 GPU/内存”」的限制。

[_ds4_](https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2Fantirez%2Fds4 "https://github.com/antirez/ds4") 其实不是通用推理引擎（不像 llama.cpp 或 vLLM），它是专门为 DeepSeek V4 Flash 这个特定模型量身定制，核心可以总结为三个技术概念：

##### （1）不对称 2-bit 量化（Asymmetric 2-bit Quantization）

这里核心做法就是模型「90%+ 参数」在 MoE 的 routed experts 上做 2-bit 量化（up/gate 用 IQ2_XXS，down 用 Q2_K），而关键路径（routing、shared experts、projections 等）全部保持全精度。

因为 MoE 模型的专家部分体积很大，但激活稀疏，量化它们对最终输出影响远小于量化 dense 部分，这部分 Antirez 自己验证：

q2 版本在 coding agent 里「可靠调用工具、循环工作良好」。

对比起传统 2-bit 量化质量会骤降，但这种「只压大头，但保留精华」的不对称方案，把内存占用压到了 128GB 的水平，同时把 perplexity/质量损失控制在可接受范围。

所以，这属于对模型结构感知的量化，而不是通用量化。

##### （2）KV Cache 兼容到 SSD（Disk-native KV Cache）

ds4 把 KV Cache 做成「内存活跃状态」配合「磁盘持久化前缀缓存」的组合，KV Cache 可以移到 SSD ，用 SHA1 哈希 token 前缀做 key，压缩后 KV row 直接 plain read/write 落地（不用 mmap，避免 macOS VM 压力）。

支持 cold/continue/evict/shutdown 多种策略，还带 tool-call replay map 保证 DSML 精确重放。

当前会话还是有一个 live KV checkpoint 在内存里，但不同 session、重启、长前缀复用可以依赖 disk KV cache 恢复，避免每次从 token zero 重新 prefill。

因为 Apple Silicon 的统一内存架构（Unified Memory）+ 超高速 NVMe SSD，带宽和延迟组合远超普通场景，长上下文（1M tokens）产生的 KV Cache 体量巨大（几十到上百 GB），但 SSD 吞吐足够让 generation 速度只轻微下降：

从 26.68 t/s 掉到 21.47 t/s 在 11k+ token prefill 。

这是算是完全的范式转变？一般来说大家普遍都觉得 KV Cache 必须全在内存，否则 latency 爆炸，但是 Antirez 用磁盘当“扩展内存”的测试效果，也证明在特定硬件 + 压缩 + 优化 I/O 下其实也算是可行。

1M 不靠扩内存，单纯的 SSD 当 swap 还能稳定 27 tok/s， Apple Silicon 的 unified memory + NVMe IO 链路在长 context 上比想象中还给力。

##### （3）纯 Metal 原生实现

整个引擎只有几千行 C + Metal shader，没有任何通用框架开销（不依赖 GGML/llama.cpp 链接）：

Metal worker 单线程序列化推理，避免 race condition
只支持官方发布的 DeepSeek V4 Flash GGUF（q2 / q4 两种），tensor layout 和 metadata 都是定制的
额外支持实验性 MTP（speculative decoding），但提升不大

而对应在官方 benchmark，M3 Max 128GB q2 版本下的性能测试：

短 prompt：prefill 58.52 t/s，generation 26.68 t/s
11k+ token 长 prompt：prefill 250+ t/s，generation 21.47 t/s

27 t/s 感觉其实不快，但对 agent loop（思考 - 调用工具 - 继续生成）来说完其实也够用，因为 agent 场景就不是实时聊天，多轮迭代下也还过得去。

另外 2-bit 量化有一定损失，目前只有 Metal、无 CUDA，同时 server 是单请求序列化，CPU path 还会触发 macOS kernel bug。

虽然有一定局限性，但是「128GB 的 M3 Max」就能跑了啊！甚至配合 OpenAI/Anthropic 兼容的 ds4-server，就可以直接对接 OpenClaw、Claude Code 了，用高端模型做 Plan 和 Review ，本地模型做简单执行的混和模式，也可以了。

不过说实话，27 t/s 适合 agent，不适合高并发或实时对话，128GB 机型实际推荐上下文 100k–300k（1M 是理论上限，内存还得留给系统和其他），不过不支持 Windows 和 Linux ， CUDA 版本据说在开发，但是感觉这确实是一个不错的方向。

Antirez 提到过 CUDA 端口正在开发中，目前 private branch 上在 DGX Spark（GB10）跑通了 ~12 t/s generation + ~200 t/s prefill。

ds4 整体性能性能可以参考：

目前不少人实测已经跑通了，在 128GB M3 Max下载 q2 版本就能直接跑，不过目前测试下，q2 量化下 tool calling 偶尔 hallucinate end tokens 或 parser 状态坏掉。

另外有人测试，默认 DS4 设置下实测可以 14–15 t/s，62K 预填充实际编码对话，内存使用量在生成过程中保持稳定 85GB 分，对于一个完整的 100K 上下文窗口，磁盘缓存约为 8GB，最大的限制是每次出现压缩时，需要等待大概「每 10k 个上下文约 1 分钟」才能重新开始操作。

而且根据「 _#46 FYI: Works with 96 GB as well_」提到的，其实 96GB 也能跑，所以整体性能看起来还有近一步的空间，Metal 4 / M5 prefill 优化、Linux build 支持、typos 修复等也还在持续推进。

如果你有 128GB M3 Max 现在就可以直接试试，GitHub 已经可以一键 make + download_model.sh 。

项目地址

[github.com/antirez/ds4](https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2Fantirez%2Fds4 "https://github.com/antirez/ds4")

标签：

前端 AI编程人工智能

话题：

每日精选文章

本文收录于以下专栏

AI 思考录

专栏目录

AI 文章的解读和思考

44 订阅

·

43 篇文章

0/ 1000

标点符号、链接等不计算在有效字数内

⌘ + Enter

发送

登录 / 注册即可发布评论！

最热

相关推荐

[实用性 Max ，新 Flutter & Dart Agent Skills 深度解读 1.4k阅读 · 22点赞](https://juejin.cn/post/7637046499474538559 "实用性 Max ，新 Flutter & Dart Agent Skills 深度解读")[AndroidX 将引入有全新 AppState ，用于管理 Compose 状态 842阅读 · 11点赞](https://juejin.cn/post/7638535912314929206 "AndroidX 将引入有全新 AppState ，用于管理 Compose 状态")[我做了两个工具，一个 7MB 的壳，一个会记住的壳 631阅读 · 9点赞](https://juejin.cn/post/7637754131332890659 "我做了两个工具，一个 7MB 的壳，一个会记住的壳")[本地4B开源模型，把任何App当Skil用！告别token焦虑，私密性强~ 472阅读 · 3点赞](https://juejin.cn/post/7637885957680939051 "本地4B开源模型，把任何App当Skil用！告别token焦虑，私密性强~")[公测期 0 元/月！商汤 SenseNova 免费 Token 再不领就没了 98阅读 · 0点赞](https://juejin.cn/post/7637804704889913385 "公测期 0 元/月！商汤 SenseNova 免费 Token 再不领就没了")

精选内容

[Bun v1.3.14 深度解析：Image API、HTTP/3、全局虚拟存储与五十项变革 iDao技术魔方 · 74阅读 · 2点赞](https://juejin.cn/post/7639025195580194862 "Bun v1.3.14 深度解析：Image API、HTTP/3、全局虚拟存储与五十项变革")[老板逼我上AI，我偷偷在浏览器里跑LLaMA，省下20万API费 kyriewen · 98阅读 · 0点赞](https://juejin.cn/post/7639265898830970921 "老板逼我上AI，我偷偷在浏览器里跑LLaMA，省下20万API费")[前端转后端：SQL 是什么小小小小宇 · 67阅读 · 0点赞](https://juejin.cn/post/7639208988976644111 "前端转后端：SQL 是什么")[React Observer Hooks：7 种监听 DOM 而不写样板代码的方式前端导师顾北 · 37阅读 · 2点赞](https://juejin.cn/post/7639270931059867694 "React Observer Hooks：7 种监听 DOM 而不写样板代码的方式")[【未完待续】React高频面试题卷帘依旧 · 27阅读 · 2点赞](https://juejin.cn/post/7639181027916267535 "【未完待续】React高频面试题")

找对属于你的技术圈子

回复「进群」加入官方微信群

为你推荐

* [DeepSeek V4 发布：1.6 万亿参数，百万上下文，击穿地板的价格](https://juejin.cn/post/7633624945063378984 "DeepSeek V4 发布：1.6 万亿参数，百万上下文，击穿地板的价格") 盼星星盼月亮，在经过3次跳票之后，国产AI之光 DeepSeek 终于发布了最新的 DeepSeek V4。这段时间全国人民都在催，友商也一直在不断发布新模型，各种跑分，但是 DeepSeek 岿然

ServBay
15天前
65
1
评论

[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")[AIGC](https://juejin.cn/tag/AIGC "AIGC")[AI编程](https://juejin.cn/tag/AI%E7%BC%96%E7%A8%8B "AI编程")

* [Redis 作者出手！ds4：用 C 语言从零打造 DeepSeek V4 Flash 本地推理引擎，6600+ Stars 背后的硬核技术解析](https://juejin.cn/post/7638437596683550726 "Redis 作者出手！ds4：用 C 语言从零打造 DeepSeek V4 Flash 本地推理引擎，6600+ Stars 背后的硬核技术解析") antirez（Redis 之父）用纯 C + Metal 从零写了一个 DeepSeek V4 Flash 的本地推理引擎，2-bit 量化下 128GB 内存的 MacBook 就能跑 284B 参数的 MoE 模型，KV Cache 直接持久化到 SSD

吴琼琼
2天前
14
1
评论

[人工智能](https://juejin.cn/tag/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD "人工智能")

* [DeepSeek V4 正式发布：1M 上下文成标配，万亿参数 MoE，价格打到对手的 1/5](https://juejin.cn/post/7632208925454680098 "DeepSeek V4 正式发布：1M 上下文成标配，万亿参数 MoE，价格打到对手的 1/5") 4月24日，DeepSeek V4预览版正式上线并同步开源。至此，关于 V4 跳票的传言在中文和英文AI圈里来回奔走数轮后，终于落地。

老王的AI编程
19天前
65
点赞
评论

[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")

* [DeepSeek V4 来了：我熬了一中午，把技术报告啃完了](https://juejin.cn/post/7632208925455319074 "DeepSeek V4 来了：我熬了一中午，把技术报告啃完了") 前言盼了好久。今天早上睁开眼刷手机，DeepSeek V4 来了。不是预告，不是 rumor，是直接发布加开源。说实话，等这一天等得有点麻木了——AI 圈嘛，"下周有大新闻"听多了，耳朵都起茧。

HeteroCat
19天前
314
1
评论

[人工智能](https://juejin.cn/tag/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD "人工智能")

Image 29: DeepSeek V4 来了：我熬了一中午，把技术报告啃完了

* [DeepSeek-V4 发布：1.6T MoE + 百万上下文开源，QA 行业的测试工作将被如何重塑？](https://juejin.cn/post/7632506858189144064 "DeepSeek-V4 发布：1.6T MoE + 百万上下文开源，QA 行业的测试工作将被如何重塑？") 4月24日，DeepSeek 正式发布 V4 预览版并同步开源。这是继 V3 之后，DeepSeek 再次刷新开源大模型的上限。作为一枚在 QA 行业摸爬滚打 10 年的老兵，今天重点聊聊这次更新对

春风拂槛露华浓
17天前
31
点赞
评论

[测试](https://juejin.cn/tag/%E6%B5%8B%E8%AF%95 "测试")

* [DeepSeek V4 发布，该如何应对](https://juejin.cn/post/7635869939149717555 "DeepSeek V4 发布，该如何应对") 截至 2026 年 4 月 24 日，DeepSeek V4 Preview 已经不是传闻：官方新闻页、API 更新日志、价格页和 Hugging Face 模型卡都出现了 V4-Pro

用户652060307843
8天前
44
点赞
评论

[算法](https://juejin.cn/tag/%E7%AE%97%E6%B3%95 "算法")

* [实测DeepSeek V4：不炸裂了，但在做更重要的事](https://juejin.cn/post/7632237134600060980 "实测DeepSeek V4：不炸裂了，但在做更重要的事") 大家好，我是冷逸。千呼万唤始出来，DeepSeek V4终于发布了。这次一共有2个版本，V4 Pro和V4 Flash，都是1M上下文，也都开源。

沃垠AI
19天前
108
点赞
评论

[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")

* [DeepSeek V4 全面开源：1.6T 参数背后的中国式创新](https://juejin.cn/post/7633987404987170826 "DeepSeek V4 全面开源：1.6T 参数背后的中国式创新") 发生了什么 4月24日，深度求索（DeepSeek-AI）正式发布 V4 系列预览版，同步在 Hugging Face 和魔搭社区开源，MIT 协议，可商用。两个版本： V4-Pro（旗舰）：1.6

求索实验室
14天前
40
点赞
评论

[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")

Image 32: DeepSeek V4 全面开源：1.6T 参数背后的中国式创新

* [DeepSeek V4 接入 Claude Code 简易指南](https://juejin.cn/post/7632644475747860515 "DeepSeek V4 接入 Claude Code 简易指南") 2026 年 4 月 24 日，DeepSeek v4 版本发布。本文给出 DeepSeek 配置 Claude Code 的更合理指南和配置内容。

sigmarising
17天前
2.3k
1
2

[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")[Claude](https://juejin.cn/tag/Claude "Claude")

* [DeepSeek V4发布：让英伟达最焦虑的，不是模型](https://juejin.cn/post/7632228821949136905 "DeepSeek V4发布：让英伟达最焦虑的，不是模型") 2026年4月24日。没发布会。没预热。连个"即将揭晓"的倒计时都没见着。 DeepSeek 直接把 V4 扔出来了——开源、上线官网、上线 App、更新 API，同一秒钟全搞定。零帧起手。然后

小饕
19天前
55
点赞
评论

[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")[AI编程](https://juejin.cn/tag/AI%E7%BC%96%E7%A8%8B "AI编程")

* [Claude Code 白嫖接入 DeepSeek V4 教程](https://juejin.cn/post/7637065398849257498 "Claude Code 白嫖接入 DeepSeek V4 教程") 利用阿里云百炼 / 魔塔社区的免费额度，通过 CC Switch 桌面工具快速对接 Claude Code 与 DeepSeek V4 系列模型。

星浩AI
6天前
725
7
评论

[LLM](https://juejin.cn/tag/LLM "LLM")[VibeCoding](https://juejin.cn/tag/VibeCoding "VibeCoding")[Claude](https://juejin.cn/tag/Claude "Claude")

Image 34: Claude Code 白嫖接入 DeepSeek V4 教程

* [DeepSeek-TUI：基于 DeepSeek V4 的终端编程](https://juejin.cn/post/7635465776091824178 "DeepSeek-TUI：基于 DeepSeek V4 的终端编程") DeepSeek-TUI 是一个终端原生的编程 Agent，基于 DeepSeek V4 模型构建。本文从技术角度分析其架构特点、能力边界和适用场景。 01. 项目背景与要解决的问题当前终端 AI

GitFun
10天前
55
点赞
评论

[人工智能](https://juejin.cn/tag/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD "人工智能")

Image 35: DeepSeek-TUI：基于 DeepSeek V4 的终端编程

* [DeepSeek V4 全解析：百万上下文背后的技术牌，国产算力正式迈过临界点](https://juejin.cn/post/7632264475764867126 "DeepSeek V4 全解析：百万上下文背后的技术牌，国产算力正式迈过临界点") 目录一、跳票三次之后：DeepSeek 终于亮牌二、本质变化：算力竞赛转向效率竞赛三、核心机制拆解：三个维度的技术突破四、典型案例与对比：V4 到底处于什么位置五、工程落地启示：你有哪些可用

Hogwarts霍格沃兹测试开发学社
18天前
29
点赞
评论

[人工智能](https://juejin.cn/tag/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD "人工智能")

* [一个搞音乐的，用 AI 写了款编程工具DeepSeek TUI，本文就是它写的](https://juejin.cn/post/7637488101486002202 "一个搞音乐的，用 AI 写了款编程工具DeepSeek TUI，本文就是它写的") 这篇文章，从选题、大纲、到每一个字，都是用 DeepSeek TUI 写的。 0. 一个更让人意外的故事在聊这个工具之前，先说它的作者。 DeepSeek TUI 的缔造者是一位叫 Hunter B

星浩AI
4天前
115
1
评论

[Agent](https://juejin.cn/tag/Agent "Agent")[GitHub](https://juejin.cn/tag/GitHub "GitHub")[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")

Image 36: 一个搞音乐的，用 AI 写了款编程工具DeepSeek TUI，本文就是它写的

* [开源项目观察｜ds4：本地 Agent 推理，不只是把模型跑起来](https://juejin.cn/post/7638839672551342118 "开源项目观察｜ds4：本地 Agent 推理，不只是把模型跑起来") Redis 作者 antirez 开源了一个面向 DeepSeek V4 Flash 的本地推理引擎。它不追求通用，只想把模型加载、KV Cache、工具调用和 Agent API 适配压进一套专用实

七牛开发者
1天前
7
点赞
评论

[AI编程](https://juejin.cn/tag/AI%E7%BC%96%E7%A8%8B "AI编程")

Image 37: 开源项目观察｜ds4：本地 Agent 推理，不只是把模型跑起来

收藏成功！

已添加到「」，点击更改

微信微信扫码分享
新浪微博
QQ

AI代码助手上线啦

选中代码，体验AI替你一键快速解读代码

立即体验

APP内打开

下载APP 下载APP
微信扫一扫微信公众号
新浪微博

选择你感兴趣的技术方向

后端

前端

Android

iOS

人工智能

开发工具

代码人生

阅读

跳过

上一步

至少选择1个分类

温馨提示

当前操作失败，如有疑问，可点击申诉

前往申诉我知道了

沉浸阅读

确定屏蔽该用户

屏蔽后，对方将不能关注你、与你产生任何互动，无法查看你的主页

取消确定