DeepSeek V4 Flash 可以在 128GB 的 M3 Max 运行,还是 1M 上下文
TL;DR · AI 摘要
DeepSeek V4 Flash 模型通过不对称优化和硬件特性绑定,在 128GB 内存的 M3 Max MacBook Pro 上实现了 1M 上下文的稳定运行。
核心要点
- DeepSeek V4 Flash 使用不对称 2-bit 量化,仅对 MoE 专家部分进行量化,保持关键路径全精度。
- KV Cache 被优化至 SSD,利用 Apple Silicon 的统一内存架构和 NVMe SSD,实现长上下文的高效处理。
- ds4-engine 采用纯 Metal 实现,仅支持官方发布的 DeepSeek V4 Flash 模型,性能适合作为 agent 工具使用。
结构提纲
按章节快速跳转。
- §背景介绍
Redis 创始人 Antirez 开源了 ds4,展示了如何在有限资源下运行 1M 上下文的 DeepSeek V4 Flash 模型。
模型的 MoE 专家部分使用 2-bit 量化,而关键路径保持全精度,有效降低了内存占用。
KV Cache 被优化至 SSD,利用 Apple Silicon 的统一内存架构和 NVMe SSD,实现长上下文的高效处理。
ds4-engine 采用纯 Metal 实现,仅支持官方发布的 DeepSeek V4 Flash 模型,性能适合作为 agent 工具使用。
- ·性能测试
在 M3 Max 128GB q2 版本下,短 prompt 生成 26.68 t/s,长 prompt 生成 21.47 t/s。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- DeepSeek V4 Flash 在 128GB M3 Max 上的运行
金句 / Highlights
值得收藏与分享的关键句。
ds4 把 KV Cache 做成「内存活跃状态」配合 「磁盘持久化前缀缓存」的组合,KV Cache 可以移到 SSD ,用 SHA1 哈希 token 前缀做 key,压缩后 KV row 直接 plain read/write 落地。
2-bit 量化有一定损失,目前只有 Metal、无 CUDA,同时 server 是单请求序列化,CPU path 还会触发 macOS kernel bug。
Antirez 提到过 CUDA 端口正在开发中,目前 private branch 上在 DGX Spark(GB10)跑通了 ~12 t/s generation + ~200 t/s prefill。
DeepSeek V4 Flash 可以在 128GB 的 M3 Max 运行,还是 1M 上下文最近 Redis 创始 - 掘金

- * 搜索历史 清空
* 创作者中心
- 写文章
- 发沸点
- 写笔记
- 写代码
- 草稿箱
创作灵感 查看更多
- 登录 注册 ## 首次登录 / 注册免费领取 登录 / 注册
DeepSeek V4 Flash 可以在 128GB 的 M3 Max 运行,还是 1M 上下文
2026-05-11 2,763 阅读5分钟
专栏:
AI 思考录
关注
最近 Redis 创始人 Antirez 开源了一个项目 [_ds4_](https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2Fantirez%2Fds4 "https://github.com/antirez/ds4"),用几千行纯 C 代码把 1M 上下文的 「DeepSeek V4 Flash MoE 模型」,在一台 128GB 内存的 M3 Max MacBook Pro 上完整跑通,同时还能稳定支持 coding agent 循环。
这里的重点是, [_ds4_](https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2Fantirez%2Fds4 "https://github.com/antirez/ds4") 不是一个简单的量化操作,而是用「不对称优化」配合「硬件特性深度绑定」来突破「长上下文必须吃掉巨量 GPU/内存”」的限制。
[_ds4_](https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2Fantirez%2Fds4 "https://github.com/antirez/ds4") 其实不是通用推理引擎(不像 llama.cpp 或 vLLM),它是专门为 DeepSeek V4 Flash 这个特定模型量身定制,核心可以总结为三个技术概念:
##### (1)不对称 2-bit 量化(Asymmetric 2-bit Quantization)
这里核心做法就是模型 「90%+ 参数」在 MoE 的 routed experts 上做 2-bit 量化(up/gate 用 IQ2_XXS,down 用 Q2_K),而关键路径(routing、shared experts、projections 等)全部保持全精度。
因为 MoE 模型的专家部分体积很大,但激活稀疏,量化它们对最终输出影响远小于量化 dense 部分,这部分 Antirez 自己验证:
q2 版本在 coding agent 里「可靠调用工具、循环工作良好」。
对比起传统 2-bit 量化质量会骤降,但这种「只压大头,但保留精华」的不对称方案,把内存占用压到了 128GB 的水平,同时把 perplexity/质量损失控制在可接受范围。
所以,这属于对模型结构感知的量化,而不是通用量化。
##### (2)KV Cache 兼容到 SSD(Disk-native KV Cache)
ds4 把 KV Cache 做成「内存活跃状态」 配合 「磁盘持久化前缀缓存」的组合,KV Cache 可以移到 SSD , 用 SHA1 哈希 token 前缀做 key,压缩后 KV row 直接 plain read/write 落地(不用 mmap,避免 macOS VM 压力)。
支持 cold/continue/evict/shutdown 多种策略,还带 tool-call replay map 保证 DSML 精确重放。
当前会话还是有一个 live KV checkpoint 在内存里,但不同 session、重启、长前缀复用可以依赖 disk KV cache 恢复,避免每次从 token zero 重新 prefill。
因为 Apple Silicon 的统一内存架构(Unified Memory)+ 超高速 NVMe SSD,带宽和延迟组合远超普通场景,长上下文(1M tokens)产生的 KV Cache 体量巨大(几十到上百 GB),但 SSD 吞吐足够让 generation 速度只轻微下降:
从 26.68 t/s 掉到 21.47 t/s 在 11k+ token prefill 。
这是算是完全的范式转变?一般来说大家普遍都觉得 KV Cache 必须全在内存,否则 latency 爆炸,但是 Antirez 用磁盘当“扩展内存”的测试效果,也证明在特定硬件 + 压缩 + 优化 I/O 下其实也算是可行。
1M 不靠扩内存,单纯的 SSD 当 swap 还能稳定 27 tok/s, Apple Silicon 的 unified memory + NVMe IO 链路在长 context 上比想象中还给力。
##### (3)纯 Metal 原生实现
整个引擎只有几千行 C + Metal shader,没有任何通用框架开销(不依赖 GGML/llama.cpp 链接):
- Metal worker 单线程序列化推理,避免 race condition
- 只支持官方发布的 DeepSeek V4 Flash GGUF(q2 / q4 两种),tensor layout 和 metadata 都是定制的
- 额外支持实验性 MTP(speculative decoding),但提升不大
而对应在官方 benchmark,M3 Max 128GB q2 版本下的性能测试:
- 短 prompt:prefill 58.52 t/s,generation 26.68 t/s
- 11k+ token 长 prompt:prefill 250+ t/s,generation 21.47 t/s
27 t/s 感觉其实不快,但对 agent loop(思考 - 调用工具 - 继续生成)来说完其实也够用,因为 agent 场景就不是实时聊天,多轮迭代下也还过得去。
另外 2-bit 量化有一定损失,目前只有 Metal、无 CUDA,同时 server 是单请求序列化,CPU path 还会触发 macOS kernel bug。
虽然有一定局限性,但是「128GB 的 M3 Max」就能跑了啊! 甚至配合 OpenAI/Anthropic 兼容的 ds4-server,就可以直接对接 OpenClaw、Claude Code 了,用高端模型做 Plan 和 Review ,本地模型做简单执行的混和模式,也可以了。
不过说实话,27 t/s 适合 agent,不适合高并发或实时对话,128GB 机型实际推荐上下文 100k–300k(1M 是理论上限,内存还得留给系统和其他),不过不支持 Windows 和 Linux , CUDA 版本据说在开发,但是感觉这确实是一个不错的方向。
Antirez 提到过 CUDA 端口正在开发中,目前 private branch 上在 DGX Spark(GB10)跑通了 ~12 t/s generation + ~200 t/s prefill。
ds4 整体性能性能可以参考:
目前不少人实测已经跑通了,在 128GB M3 Max下载 q2 版本就能直接跑,不过目前测试下,q2 量化下 tool calling 偶尔 hallucinate end tokens 或 parser 状态坏掉。
另外有人测试,默认 DS4 设置下实测可以 14–15 t/s,62K 预填充实际编码对话 ,内存使用量在生成过程中保持稳定 85GB 分, 对于一个完整的 100K 上下文窗口,磁盘缓存约为 8GB,最大的限制是每次出现压缩时,需要等待大概「每 10k 个上下文约 1 分钟」才能重新开始操作。
而且根据 「 _#46 FYI: Works with 96 GB as well_」 提到的,其实 96GB 也能跑,所以整体性能看起来还有近一步的空间,Metal 4 / M5 prefill 优化、Linux build 支持、typos 修复等也还在持续推进。
如果你有 128GB M3 Max 现在就可以直接试试,GitHub 已经可以一键
make + download_model.sh。
项目地址
[github.com/antirez/ds4](https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2Fantirez%2Fds4 "https://github.com/antirez/ds4")
标签:
话题:
本文收录于以下专栏
AI 思考录
专栏目录
AI 文章的解读和思考
44 订阅
·
43 篇文章
订阅
上一篇
AI 时代开源协议将消亡,malus 讽刺性展示了这一点
评论 17
0/ 1000
标点符号、链接等不计算在有效字数内
⌘ + Enter
发送
登录 / 注册 即可发布评论!
最热
最新
啥时候可以在我m1 16g笔记本上跑通
1小时前
点赞
评论
- 屏蔽作者:java菜小鸟
- 举报
每秒 token 量慢吧,而且是不是不能并发使用(多 agent)了
17小时前
点赞
评论
- 屏蔽作者:执器
- 举报
@明略科技
ds4 用 Metal 原生实现确实比 llama.cpp 的 MPS backend 路径更干净。实测 M4 Pro 36GB 跑 DeepSeek-V3 0324 的 Q4 量化也能稳定 60+ tokens/s decode,内存不炸。端侧 Agent 场景下如果搭配 mano-cua 这类 GUI 自动化工具,本地模型+本地操控的闭环其实已经能跑通不少任务了。
1天前
1
评论
- 屏蔽作者:明略科技
- 举报
查看全部 17 条评论
9
17
收藏
加个关注,精彩更新不错过~
关注
加个关注,精彩更新不错过~
关注
已关注
目录
收起
相关推荐
[实用性 Max ,新 Flutter & Dart Agent Skills 深度解读 1.4k阅读 · 22点赞](https://juejin.cn/post/7637046499474538559 "实用性 Max ,新 Flutter & Dart Agent Skills 深度解读")[AndroidX 将引入有全新 AppState ,用于管理 Compose 状态 842阅读 · 11点赞](https://juejin.cn/post/7638535912314929206 "AndroidX 将引入有全新 AppState ,用于管理 Compose 状态")[我做了两个工具,一个 7MB 的壳,一个会记住的壳 631阅读 · 9点赞](https://juejin.cn/post/7637754131332890659 "我做了两个工具,一个 7MB 的壳,一个会记住的壳")[本地4B开源模型,把任何App当Skil用!告 别token焦虑,私密性强~ 472阅读 · 3点赞](https://juejin.cn/post/7637885957680939051 "本地4B开源模型,把任何App当Skil用!告 别token焦虑,私密性强~")[公测期 0 元/月!商汤 SenseNova 免费 Token 再不领就没了 98阅读 · 0点赞](https://juejin.cn/post/7637804704889913385 "公测期 0 元/月!商汤 SenseNova 免费 Token 再不领就没了")
精选内容
[Bun v1.3.14 深度解析:Image API、HTTP/3、全局虚拟存储与五十项变革 iDao技术魔方 · 74阅读 · 2点赞](https://juejin.cn/post/7639025195580194862 "Bun v1.3.14 深度解析:Image API、HTTP/3、全局虚拟存储与五十项变革")[老板逼我上AI,我偷偷在浏览器里跑LLaMA,省下20万API费 kyriewen · 98阅读 · 0点赞](https://juejin.cn/post/7639265898830970921 "老板逼我上AI,我偷偷在浏览器里跑LLaMA,省下20万API费")[前端转后端:SQL 是什么 小小小小宇 · 67阅读 · 0点赞](https://juejin.cn/post/7639208988976644111 "前端转后端:SQL 是什么")[React Observer Hooks:7 种监听 DOM 而不写样板代码的方式 前端导师顾北 · 37阅读 · 2点赞](https://juejin.cn/post/7639270931059867694 "React Observer Hooks:7 种监听 DOM 而不写样板代码的方式")[【未完待续】React高频面试题 卷帘依旧 · 27阅读 · 2点赞](https://juejin.cn/post/7639181027916267535 "【未完待续】React高频面试题")
找对属于你的技术圈子
回复「进群」加入官方微信群

为你推荐
* [DeepSeek V4 发布:1.6 万亿参数,百万上下文,击穿地板的价格](https://juejin.cn/post/7633624945063378984 "DeepSeek V4 发布:1.6 万亿参数,百万上下文,击穿地板的价格") 盼星星盼月亮,在经过3次跳票之后,国产AI之光 DeepSeek 终于发布了最新的 DeepSeek V4。 这段时间全国人民都在催,友商也一直在不断发布新模型,各种跑分,但是 DeepSeek 岿然
- ServBay
- 15天前
- 65
- 1
- 评论
[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")[AIGC](https://juejin.cn/tag/AIGC "AIGC")[AI编程](https://juejin.cn/tag/AI%E7%BC%96%E7%A8%8B "AI编程")
* [Redis 作者出手!ds4:用 C 语言从零打造 DeepSeek V4 Flash 本地推理引擎,6600+ Stars 背后的硬核技术解析](https://juejin.cn/post/7638437596683550726 "Redis 作者出手!ds4:用 C 语言从零打造 DeepSeek V4 Flash 本地推理引擎,6600+ Stars 背后的硬核技术解析") antirez(Redis 之父)用纯 C + Metal 从零写了一个 DeepSeek V4 Flash 的本地推理引擎,2-bit 量化下 128GB 内存的 MacBook 就能跑 284B 参数的 MoE 模型,KV Cache 直接持久化到 SSD
- 吴琼琼
- 2天前
- 14
- 1
- 评论
[人工智能](https://juejin.cn/tag/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD "人工智能")
* [DeepSeek V4 正式发布:1M 上下文成标配,万亿参数 MoE,价格打到对手的 1/5](https://juejin.cn/post/7632208925454680098 "DeepSeek V4 正式发布:1M 上下文成标配,万亿参数 MoE,价格打到对手的 1/5") 4月24日,DeepSeek V4预览版正式上线并同步开源。至此,关于 V4 跳票的传言在中文和英文AI圈里来回奔走数轮后,终于落地。
- 老王的AI编程
- 19天前
- 65
- 点赞
- 评论
[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")
* [DeepSeek V4 来了:我熬了一中午,把技术报告啃完了](https://juejin.cn/post/7632208925455319074 "DeepSeek V4 来了:我熬了一中午,把技术报告啃完了") 前言 盼了好久。 今天早上睁开眼刷手机,DeepSeek V4 来了。不是预告,不是 rumor,是直接发布加开源。 说实话,等这一天等得有点麻木了——AI 圈嘛,"下周有大新闻"听多了,耳朵都起茧。
- HeteroCat
- 19天前
- 314
- 1
- 评论
[人工智能](https://juejin.cn/tag/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD "人工智能")
* [DeepSeek-V4 发布:1.6T MoE + 百万上下文开源,QA 行业的测试工作将被如何重塑?](https://juejin.cn/post/7632506858189144064 "DeepSeek-V4 发布:1.6T MoE + 百万上下文开源,QA 行业的测试工作将被如何重塑?") 4月24日,DeepSeek 正式发布 V4 预览版并同步开源。这是继 V3 之后,DeepSeek 再次刷新开源大模型的上限。 作为一枚在 QA 行业摸爬滚打 10 年的老兵,今天重点聊聊这次更新对
- 春风拂槛露华浓
- 17天前
- 31
- 点赞
- 评论
[测试](https://juejin.cn/tag/%E6%B5%8B%E8%AF%95 "测试")
* [DeepSeek V4 发布,该如何应对](https://juejin.cn/post/7635869939149717555 "DeepSeek V4 发布,该如何应对") 截至 2026 年 4 月 24 日,DeepSeek V4 Preview 已经不是传闻:官方新闻页、API 更新日志、价格页和 Hugging Face 模型卡都出现了 V4-Pro
- 用户652060307843
- 8天前
- 44
- 点赞
- 评论
[算法](https://juejin.cn/tag/%E7%AE%97%E6%B3%95 "算法")
* [实测DeepSeek V4:不炸裂了,但在做更重要的事](https://juejin.cn/post/7632237134600060980 "实测DeepSeek V4:不炸裂了,但在做更重要的事") 大家好,我是冷逸。 千呼万唤始出来,DeepSeek V4终于发布了。 这次一共有2个版本,V4 Pro和V4 Flash,都是1M上下文,也都开源。
- 沃垠AI
- 19天前
- 108
- 点赞
- 评论
[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")
* [DeepSeek V4 全面开源:1.6T 参数背后的中国式创新](https://juejin.cn/post/7633987404987170826 "DeepSeek V4 全面开源:1.6T 参数背后的中国式创新") 发生了什么 4月24日,深度求索(DeepSeek-AI)正式发布 V4 系列预览版,同步在 Hugging Face 和魔搭社区开源,MIT 协议,可商用。 两个版本: V4-Pro(旗舰):1.6
- 求索实验室
- 14天前
- 40
- 点赞
- 评论
[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")
* [DeepSeek V4 接入 Claude Code 简易指南](https://juejin.cn/post/7632644475747860515 "DeepSeek V4 接入 Claude Code 简易指南") 2026 年 4 月 24 日,DeepSeek v4 版本发布。本文给出 DeepSeek 配置 Claude Code 的更合理指南和配置内容。
- sigmarising
- 17天前
- 2.3k
- 1
- 2
[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")[Claude](https://juejin.cn/tag/Claude "Claude")
* [DeepSeek V4发布:让英伟达最焦虑的,不是模型](https://juejin.cn/post/7632228821949136905 "DeepSeek V4发布:让英伟达最焦虑的,不是模型") 2026年4月24日。 没发布会。没预热。连个"即将揭晓"的倒计时都没见着。 DeepSeek 直接把 V4 扔出来了——开源、上线官网、上线 App、更新 API,同一秒钟全搞定。 零帧起手。 然后
- 小饕
- 19天前
- 55
- 点赞
- 评论
[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")[AI编程](https://juejin.cn/tag/AI%E7%BC%96%E7%A8%8B "AI编程")
* [Claude Code 白嫖接入 DeepSeek V4 教程](https://juejin.cn/post/7637065398849257498 "Claude Code 白嫖接入 DeepSeek V4 教程") 利用阿里云百炼 / 魔塔社区的免费额度,通过 CC Switch 桌面工具快速对接 Claude Code 与 DeepSeek V4 系列模型。
- 星浩AI
- 6天前
- 725
- 7
- 评论
[LLM](https://juejin.cn/tag/LLM "LLM")[VibeCoding](https://juejin.cn/tag/VibeCoding "VibeCoding")[Claude](https://juejin.cn/tag/Claude "Claude")
* [DeepSeek-TUI:基于 DeepSeek V4 的终端编程](https://juejin.cn/post/7635465776091824178 "DeepSeek-TUI:基于 DeepSeek V4 的终端编程") DeepSeek-TUI 是一个终端原生的编程 Agent,基于 DeepSeek V4 模型构建。本文从技术角度分析其架构特点、能力边界和适用场景。 01. 项目背景与要解决的问题 当前终端 AI
- GitFun
- 10天前
- 55
- 点赞
- 评论
[人工智能](https://juejin.cn/tag/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD "人工智能")
* [DeepSeek V4 全解析:百万上下文背后的技术牌,国产算力正式迈过临界点](https://juejin.cn/post/7632264475764867126 "DeepSeek V4 全解析:百万上下文背后的技术牌,国产算力正式迈过临界点") 目录 一、跳票三次之后:DeepSeek 终于亮牌 二、本质变化:算力竞赛转向效率竞赛 三、核心机制拆解:三个维度的技术突破 四、典型案例与对比:V4 到底处于什么位置 五、工程落地启示:你有哪些可用
- Hogwarts霍格沃兹测试开发学社
- 18天前
- 29
- 点赞
- 评论
[人工智能](https://juejin.cn/tag/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD "人工智能")
* [一个搞音乐的,用 AI 写了款编程工具DeepSeek TUI,本文就是它写的](https://juejin.cn/post/7637488101486002202 "一个搞音乐的,用 AI 写了款编程工具DeepSeek TUI,本文就是它写的") 这篇文章,从选题、大纲、到每一个字,都是用 DeepSeek TUI 写的。 0. 一个更让人意外的故事 在聊这个工具之前,先说它的作者。 DeepSeek TUI 的缔造者是一位叫 Hunter B
- 星浩AI
- 4天前
- 115
- 1
- 评论
[Agent](https://juejin.cn/tag/Agent "Agent")[GitHub](https://juejin.cn/tag/GitHub "GitHub")[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")
* [开源项目观察|ds4:本地 Agent 推理,不只是把模型跑起来](https://juejin.cn/post/7638839672551342118 "开源项目观察|ds4:本地 Agent 推理,不只是把模型跑起来") Redis 作者 antirez 开源了一个面向 DeepSeek V4 Flash 的本地推理引擎。它不追求通用,只想把模型加载、KV Cache、工具调用和 Agent API 适配压进一套专用实
- 七牛开发者
- 1天前
- 7
- 点赞
- 评论
[AI编程](https://juejin.cn/tag/AI%E7%BC%96%E7%A8%8B "AI编程")
收藏成功!
已添加到「」, 点击更改
- 微信
微信扫码分享
- 新浪微博

AI代码助手上线啦
选中代码,体验AI替你一键快速解读代码
立即体验
APP内打开
选择你感兴趣的技术方向
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
跳过
上一步
至少选择1个分类
温馨提示
当前操作失败,如有疑问,可点击申诉
前往申诉 我知道了
沉浸阅读
确定屏蔽该用户
屏蔽后,对方将不能关注你、与你产生任何互动,无法查看你的主页
取消 确定