T
traeai
登录
返回首页
掘金本周最热

DeepSeek V4 Flash 可以在 128GB 的 M3 Max 运行,还是 1M 上下文

8.5Score
DeepSeek V4 Flash 可以在 128GB 的 M3 Max 运行,还是 1M 上下文

TL;DR · AI 摘要

DeepSeek V4 Flash 模型通过不对称优化和硬件特性绑定,在 128GB 内存的 M3 Max MacBook Pro 上实现了 1M 上下文的稳定运行。

核心要点

  • DeepSeek V4 Flash 使用不对称 2-bit 量化,仅对 MoE 专家部分进行量化,保持关键路径全精度。
  • KV Cache 被优化至 SSD,利用 Apple Silicon 的统一内存架构和 NVMe SSD,实现长上下文的高效处理。
  • ds4-engine 采用纯 Metal 实现,仅支持官方发布的 DeepSeek V4 Flash 模型,性能适合作为 agent 工具使用。

结构提纲

按章节快速跳转。

  1. Redis 创始人 Antirez 开源了 ds4,展示了如何在有限资源下运行 1M 上下文的 DeepSeek V4 Flash 模型。

  2. 模型的 MoE 专家部分使用 2-bit 量化,而关键路径保持全精度,有效降低了内存占用。

  3. KV Cache 被优化至 SSD,利用 Apple Silicon 的统一内存架构和 NVMe SSD,实现长上下文的高效处理。

  4. ds4-engine 采用纯 Metal 实现,仅支持官方发布的 DeepSeek V4 Flash 模型,性能适合作为 agent 工具使用。

  5. 在 M3 Max 128GB q2 版本下,短 prompt 生成 26.68 t/s,长 prompt 生成 21.47 t/s。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • DeepSeek V4 Flash 在 128GB M3 Max 上的运行

金句 / Highlights

值得收藏与分享的关键句。

  • ds4 把 KV Cache 做成「内存活跃状态」配合 「磁盘持久化前缀缓存」的组合,KV Cache 可以移到 SSD ,用 SHA1 哈希 token 前缀做 key,压缩后 KV row 直接 plain read/write 落地。

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 2-bit 量化有一定损失,目前只有 Metal、无 CUDA,同时 server 是单请求序列化,CPU path 还会触发 macOS kernel bug。

    第 5 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Antirez 提到过 CUDA 端口正在开发中,目前 private branch 上在 DGX Spark(GB10)跑通了 ~12 t/s generation + ~200 t/s prefill。

    第 6 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#DeepSeek#MoE#量化#Apple Silicon#CUDA
打开原文

DeepSeek V4 Flash 可以在 128GB 的 M3 Max 运行,还是 1M 上下文最近 Redis 创始 - 掘金

![Image 8: 稀土掘金Image 9: 稀土掘金](https://juejin.cn/post/7637885957681659947)

  • * 搜索历史 清空

* 创作者中心

  • 写文章
  • 发沸点
  • 写笔记
  • 写代码
  • 草稿箱

创作灵感 查看更多

  • 登录 注册 ## 首次登录 / 注册免费领取 登录 / 注册

DeepSeek V4 Flash 可以在 128GB 的 M3 Max 运行,还是 1M 上下文

恋猫de小郭

2026-05-11 2,763 阅读5分钟

专栏:

AI 思考录

关注

最近 Redis 创始人 Antirez 开源了一个项目 [_ds4_](https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2Fantirez%2Fds4 "https://github.com/antirez/ds4"),用几千行纯 C 代码把 1M 上下文的 「DeepSeek V4 Flash MoE 模型」,在一台 128GB 内存的 M3 Max MacBook Pro 上完整跑通,同时还能稳定支持 coding agent 循环

Image 10

这里的重点是, [_ds4_](https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2Fantirez%2Fds4 "https://github.com/antirez/ds4") 不是一个简单的量化操作,而是用「不对称优化」配合「硬件特性深度绑定」来突破「长上下文必须吃掉巨量 GPU/内存”」的限制

[_ds4_](https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2Fantirez%2Fds4 "https://github.com/antirez/ds4") 其实不是通用推理引擎(不像 llama.cpp 或 vLLM),它是专门为 DeepSeek V4 Flash 这个特定模型量身定制,核心可以总结为三个技术概念:

##### (1)不对称 2-bit 量化(Asymmetric 2-bit Quantization)

这里核心做法就是模型 「90%+ 参数」在 MoE 的 routed experts 上做 2-bit 量化(up/gate 用 IQ2_XXS,down 用 Q2_K),而关键路径(routing、shared experts、projections 等)全部保持全精度

因为 MoE 模型的专家部分体积很大,但激活稀疏,量化它们对最终输出影响远小于量化 dense 部分,这部分 Antirez 自己验证:

q2 版本在 coding agent 里「可靠调用工具、循环工作良好」。

对比起传统 2-bit 量化质量会骤降,但这种「只压大头,但保留精华」的不对称方案,把内存占用压到了 128GB 的水平,同时把 perplexity/质量损失控制在可接受范围。

所以,这属于对模型结构感知的量化,而不是通用量化。

##### (2)KV Cache 兼容到 SSD(Disk-native KV Cache)

ds4 把 KV Cache 做成「内存活跃状态」 配合 「磁盘持久化前缀缓存」的组合,KV Cache 可以移到 SSD , 用 SHA1 哈希 token 前缀做 key,压缩后 KV row 直接 plain read/write 落地(不用 mmap,避免 macOS VM 压力)。

支持 cold/continue/evict/shutdown 多种策略,还带 tool-call replay map 保证 DSML 精确重放。

当前会话还是有一个 live KV checkpoint 在内存里,但不同 session、重启、长前缀复用可以依赖 disk KV cache 恢复,避免每次从 token zero 重新 prefill。

因为 Apple Silicon 的统一内存架构(Unified Memory)+ 超高速 NVMe SSD,带宽和延迟组合远超普通场景,长上下文(1M tokens)产生的 KV Cache 体量巨大(几十到上百 GB),但 SSD 吞吐足够让 generation 速度只轻微下降:

从 26.68 t/s 掉到 21.47 t/s 在 11k+ token prefill 。

这是算是完全的范式转变?一般来说大家普遍都觉得 KV Cache 必须全在内存,否则 latency 爆炸,但是 Antirez 用磁盘当“扩展内存”的测试效果,也证明在特定硬件 + 压缩 + 优化 I/O 下其实也算是可行。

1M 不靠扩内存,单纯的 SSD 当 swap 还能稳定 27 tok/s, Apple Silicon 的 unified memory + NVMe IO 链路在长 context 上比想象中还给力。

##### (3)纯 Metal 原生实现

整个引擎只有几千行 C + Metal shader,没有任何通用框架开销(不依赖 GGML/llama.cpp 链接):

  • Metal worker 单线程序列化推理,避免 race condition
  • 只支持官方发布的 DeepSeek V4 Flash GGUF(q2 / q4 两种),tensor layout 和 metadata 都是定制的
  • 额外支持实验性 MTP(speculative decoding),但提升不大

而对应在官方 benchmark,M3 Max 128GB q2 版本下的性能测试:

  • 短 prompt:prefill 58.52 t/s,generation 26.68 t/s
  • 11k+ token 长 prompt:prefill 250+ t/s,generation 21.47 t/s

27 t/s 感觉其实不快,但对 agent loop(思考 - 调用工具 - 继续生成)来说完其实也够用,因为 agent 场景就不是实时聊天,多轮迭代下也还过得去。

另外 2-bit 量化有一定损失,目前只有 Metal、无 CUDA,同时 server 是单请求序列化,CPU path 还会触发 macOS kernel bug。

虽然有一定局限性,但是「128GB 的 M3 Max」就能跑了啊! 甚至配合 OpenAI/Anthropic 兼容的 ds4-server,就可以直接对接 OpenClaw、Claude Code 了,用高端模型做 Plan 和 Review ,本地模型做简单执行的混和模式,也可以了。

不过说实话,27 t/s 适合 agent,不适合高并发或实时对话,128GB 机型实际推荐上下文 100k–300k(1M 是理论上限,内存还得留给系统和其他),不过不支持 Windows 和 Linux , CUDA 版本据说在开发,但是感觉这确实是一个不错的方向。

Antirez 提到过 CUDA 端口正在开发中,目前 private branch 上在 DGX Spark(GB10)跑通了 ~12 t/s generation + ~200 t/s prefill

Image 11
Image 12

ds4 整体性能性能可以参考:

Image 13

目前不少人实测已经跑通了,在 128GB M3 Max下载 q2 版本就能直接跑,不过目前测试下,q2 量化下 tool calling 偶尔 hallucinate end tokens 或 parser 状态坏掉。

Image 14

另外有人测试,默认 DS4 设置下实测可以 14–15 t/s,62K 预填充实际编码对话 ,内存使用量在生成过程中保持稳定 85GB 分, 对于一个完整的 100K 上下文窗口,磁盘缓存约为 8GB,最大的限制是每次出现压缩时,需要等待大概「每 10k 个上下文约 1 分钟」才能重新开始操作。

Image 15: ezgif-761cbe557836730e.gif

而且根据 「 _#46 FYI: Works with 96 GB as well_」 提到的,其实 96GB 也能跑,所以整体性能看起来还有近一步的空间,Metal 4 / M5 prefill 优化、Linux build 支持、typos 修复等也还在持续推进。Image 16

如果你有 128GB M3 Max 现在就可以直接试试,GitHub 已经可以一键 make + download_model.sh

项目地址

[github.com/antirez/ds4](https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2Fantirez%2Fds4 "https://github.com/antirez/ds4")

标签:

前端AI编程人工智能

话题:

每日精选文章

本文收录于以下专栏

Image 17: cover

AI 思考录

专栏目录

AI 文章的解读和思考

44 订阅

·

43 篇文章

订阅

上一篇

AI 时代开源协议将消亡,malus 讽刺性展示了这一点

评论 17

Image 18: avatar

0/ 1000

标点符号、链接等不计算在有效字数内

⌘ + Enter

发送

登录 / 注册 即可发布评论!

最热

最新

java菜小鸟

啥时候可以在我m1 16g笔记本上跑通

1小时前

点赞

评论

  • 屏蔽作者:java菜小鸟
  • 举报

执器

每秒 token 量慢吧,而且是不是不能并发使用(多 agent)了

17小时前

点赞

评论

  • 屏蔽作者:执器
  • 举报

明略科技

@明略科技

ds4 用 Metal 原生实现确实比 llama.cpp 的 MPS backend 路径更干净。实测 M4 Pro 36GB 跑 DeepSeek-V3 0324 的 Q4 量化也能稳定 60+ tokens/s decode,内存不炸。端侧 Agent 场景下如果搭配 mano-cua 这类 GUI 自动化工具,本地模型+本地操控的闭环其实已经能跑通不少任务了。

1天前

1

评论

  • 屏蔽作者:明略科技
  • 举报

查看全部 17 条评论

Image 22 9

Image 23 17

Image 24 收藏

加个关注,精彩更新不错过~

Image 25: avatar

关注

572 文章5.6m 阅读37k 粉丝

加个关注,精彩更新不错过~

关注

已关注

私信

目录

收起

相关推荐

[实用性 Max ,新 Flutter & Dart Agent Skills 深度解读 1.4k阅读 · 22点赞](https://juejin.cn/post/7637046499474538559 "实用性 Max ,新 Flutter & Dart Agent Skills 深度解读")[AndroidX 将引入有全新 AppState ,用于管理 Compose 状态 842阅读 · 11点赞](https://juejin.cn/post/7638535912314929206 "AndroidX 将引入有全新 AppState ,用于管理 Compose 状态")[我做了两个工具,一个 7MB 的壳,一个会记住的壳 631阅读 · 9点赞](https://juejin.cn/post/7637754131332890659 "我做了两个工具,一个 7MB 的壳,一个会记住的壳")[本地4B开源模型,把任何App当Skil用!告 别token焦虑,私密性强~ 472阅读 · 3点赞](https://juejin.cn/post/7637885957680939051 "本地4B开源模型,把任何App当Skil用!告 别token焦虑,私密性强~")[公测期 0 元/月!商汤 SenseNova 免费 Token 再不领就没了 98阅读 · 0点赞](https://juejin.cn/post/7637804704889913385 "公测期 0 元/月!商汤 SenseNova 免费 Token 再不领就没了")

精选内容

[Bun v1.3.14 深度解析:Image API、HTTP/3、全局虚拟存储与五十项变革 iDao技术魔方 · 74阅读 · 2点赞](https://juejin.cn/post/7639025195580194862 "Bun v1.3.14 深度解析:Image API、HTTP/3、全局虚拟存储与五十项变革")[老板逼我上AI,我偷偷在浏览器里跑LLaMA,省下20万API费 kyriewen · 98阅读 · 0点赞](https://juejin.cn/post/7639265898830970921 "老板逼我上AI,我偷偷在浏览器里跑LLaMA,省下20万API费")[前端转后端:SQL 是什么 小小小小宇 · 67阅读 · 0点赞](https://juejin.cn/post/7639208988976644111 "前端转后端:SQL 是什么")[React Observer Hooks:7 种监听 DOM 而不写样板代码的方式 前端导师顾北 · 37阅读 · 2点赞](https://juejin.cn/post/7639270931059867694 "React Observer Hooks:7 种监听 DOM 而不写样板代码的方式")[【未完待续】React高频面试题 卷帘依旧 · 27阅读 · 2点赞](https://juejin.cn/post/7639181027916267535 "【未完待续】React高频面试题")

找对属于你的技术圈子

回复「进群」加入官方微信群

Image 28

为你推荐

* [DeepSeek V4 发布:1.6 万亿参数,百万上下文,击穿地板的价格](https://juejin.cn/post/7633624945063378984 "DeepSeek V4 发布:1.6 万亿参数,百万上下文,击穿地板的价格") 盼星星盼月亮,在经过3次跳票之后,国产AI之光 DeepSeek 终于发布了最新的 DeepSeek V4。 这段时间全国人民都在催,友商也一直在不断发布新模型,各种跑分,但是 DeepSeek 岿然

[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")[AIGC](https://juejin.cn/tag/AIGC "AIGC")[AI编程](https://juejin.cn/tag/AI%E7%BC%96%E7%A8%8B "AI编程")

* [Redis 作者出手!ds4:用 C 语言从零打造 DeepSeek V4 Flash 本地推理引擎,6600+ Stars 背后的硬核技术解析](https://juejin.cn/post/7638437596683550726 "Redis 作者出手!ds4:用 C 语言从零打造 DeepSeek V4 Flash 本地推理引擎,6600+ Stars 背后的硬核技术解析") antirez(Redis 之父)用纯 C + Metal 从零写了一个 DeepSeek V4 Flash 的本地推理引擎,2-bit 量化下 128GB 内存的 MacBook 就能跑 284B 参数的 MoE 模型,KV Cache 直接持久化到 SSD

[人工智能](https://juejin.cn/tag/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD "人工智能")

* [DeepSeek V4 正式发布:1M 上下文成标配,万亿参数 MoE,价格打到对手的 1/5](https://juejin.cn/post/7632208925454680098 "DeepSeek V4 正式发布:1M 上下文成标配,万亿参数 MoE,价格打到对手的 1/5") 4月24日,DeepSeek V4预览版正式上线并同步开源。至此,关于 V4 跳票的传言在中文和英文AI圈里来回奔走数轮后,终于落地。

[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")

* [DeepSeek V4 来了:我熬了一中午,把技术报告啃完了](https://juejin.cn/post/7632208925455319074 "DeepSeek V4 来了:我熬了一中午,把技术报告啃完了") 前言 盼了好久。 今天早上睁开眼刷手机,DeepSeek V4 来了。不是预告,不是 rumor,是直接发布加开源。 说实话,等这一天等得有点麻木了——AI 圈嘛,"下周有大新闻"听多了,耳朵都起茧。

[人工智能](https://juejin.cn/tag/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD "人工智能")

Image 29: DeepSeek V4 来了:我熬了一中午,把技术报告啃完了

* [DeepSeek-V4 发布:1.6T MoE + 百万上下文开源,QA 行业的测试工作将被如何重塑?](https://juejin.cn/post/7632506858189144064 "DeepSeek-V4 发布:1.6T MoE + 百万上下文开源,QA 行业的测试工作将被如何重塑?") 4月24日,DeepSeek 正式发布 V4 预览版并同步开源。这是继 V3 之后,DeepSeek 再次刷新开源大模型的上限。 作为一枚在 QA 行业摸爬滚打 10 年的老兵,今天重点聊聊这次更新对

[测试](https://juejin.cn/tag/%E6%B5%8B%E8%AF%95 "测试")

* [DeepSeek V4 发布,该如何应对](https://juejin.cn/post/7635869939149717555 "DeepSeek V4 发布,该如何应对") 截至 2026 年 4 月 24 日,DeepSeek V4 Preview 已经不是传闻:官方新闻页、API 更新日志、价格页和 Hugging Face 模型卡都出现了 V4-Pro

[算法](https://juejin.cn/tag/%E7%AE%97%E6%B3%95 "算法")

Image 30: DeepSeek V4 发布,该如何应对

* [实测DeepSeek V4:不炸裂了,但在做更重要的事](https://juejin.cn/post/7632237134600060980 "实测DeepSeek V4:不炸裂了,但在做更重要的事") 大家好,我是冷逸。 千呼万唤始出来,DeepSeek V4终于发布了。 这次一共有2个版本,V4 Pro和V4 Flash,都是1M上下文,也都开源。

[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")

Image 31: 实测DeepSeek V4:不炸裂了,但在做更重要的事

* [DeepSeek V4 全面开源:1.6T 参数背后的中国式创新](https://juejin.cn/post/7633987404987170826 "DeepSeek V4 全面开源:1.6T 参数背后的中国式创新") 发生了什么 4月24日,深度求索(DeepSeek-AI)正式发布 V4 系列预览版,同步在 Hugging Face 和魔搭社区开源,MIT 协议,可商用。 两个版本: V4-Pro(旗舰):1.6

[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")

Image 32: DeepSeek V4 全面开源:1.6T 参数背后的中国式创新

* [DeepSeek V4 接入 Claude Code 简易指南](https://juejin.cn/post/7632644475747860515 "DeepSeek V4 接入 Claude Code 简易指南") 2026 年 4 月 24 日,DeepSeek v4 版本发布。本文给出 DeepSeek 配置 Claude Code 的更合理指南和配置内容。

[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")[Claude](https://juejin.cn/tag/Claude "Claude")

* [DeepSeek V4发布:让英伟达最焦虑的,不是模型](https://juejin.cn/post/7632228821949136905 "DeepSeek V4发布:让英伟达最焦虑的,不是模型") 2026年4月24日。 没发布会。没预热。连个"即将揭晓"的倒计时都没见着。 DeepSeek 直接把 V4 扔出来了——开源、上线官网、上线 App、更新 API,同一秒钟全搞定。 零帧起手。 然后

[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")[AI编程](https://juejin.cn/tag/AI%E7%BC%96%E7%A8%8B "AI编程")

Image 33: DeepSeek V4发布:让英伟达最焦虑的,不是模型

* [Claude Code 白嫖接入 DeepSeek V4 教程](https://juejin.cn/post/7637065398849257498 "Claude Code 白嫖接入 DeepSeek V4 教程") 利用阿里云百炼 / 魔塔社区的免费额度,通过 CC Switch 桌面工具快速对接 Claude Code 与 DeepSeek V4 系列模型。

[LLM](https://juejin.cn/tag/LLM "LLM")[VibeCoding](https://juejin.cn/tag/VibeCoding "VibeCoding")[Claude](https://juejin.cn/tag/Claude "Claude")

Image 34: Claude Code 白嫖接入 DeepSeek V4 教程

* [DeepSeek-TUI:基于 DeepSeek V4 的终端编程](https://juejin.cn/post/7635465776091824178 "DeepSeek-TUI:基于 DeepSeek V4 的终端编程") DeepSeek-TUI 是一个终端原生的编程 Agent,基于 DeepSeek V4 模型构建。本文从技术角度分析其架构特点、能力边界和适用场景。 01. 项目背景与要解决的问题 当前终端 AI

[人工智能](https://juejin.cn/tag/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD "人工智能")

Image 35: DeepSeek-TUI:基于 DeepSeek V4 的终端编程

* [DeepSeek V4 全解析:百万上下文背后的技术牌,国产算力正式迈过临界点](https://juejin.cn/post/7632264475764867126 "DeepSeek V4 全解析:百万上下文背后的技术牌,国产算力正式迈过临界点") 目录 一、跳票三次之后:DeepSeek 终于亮牌 二、本质变化:算力竞赛转向效率竞赛 三、核心机制拆解:三个维度的技术突破 四、典型案例与对比:V4 到底处于什么位置 五、工程落地启示:你有哪些可用

[人工智能](https://juejin.cn/tag/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD "人工智能")

* [一个搞音乐的,用 AI 写了款编程工具DeepSeek TUI,本文就是它写的](https://juejin.cn/post/7637488101486002202 "一个搞音乐的,用 AI 写了款编程工具DeepSeek TUI,本文就是它写的") 这篇文章,从选题、大纲、到每一个字,都是用 DeepSeek TUI 写的。 0. 一个更让人意外的故事 在聊这个工具之前,先说它的作者。 DeepSeek TUI 的缔造者是一位叫 Hunter B

[Agent](https://juejin.cn/tag/Agent "Agent")[GitHub](https://juejin.cn/tag/GitHub "GitHub")[DeepSeek](https://juejin.cn/tag/DeepSeek "DeepSeek")

Image 36: 一个搞音乐的,用 AI 写了款编程工具DeepSeek TUI,本文就是它写的

* [开源项目观察|ds4:本地 Agent 推理,不只是把模型跑起来](https://juejin.cn/post/7638839672551342118 "开源项目观察|ds4:本地 Agent 推理,不只是把模型跑起来") Redis 作者 antirez 开源了一个面向 DeepSeek V4 Flash 的本地推理引擎。它不追求通用,只想把模型加载、KV Cache、工具调用和 Agent API 适配压进一套专用实

[AI编程](https://juejin.cn/tag/AI%E7%BC%96%E7%A8%8B "AI编程")

Image 37: 开源项目观察|ds4:本地 Agent 推理,不只是把模型跑起来

收藏成功!

已添加到「」, 点击更改

  • 微信Image 38微信扫码分享
  • 新浪微博
  • QQ
Image 39: image

AI代码助手上线啦

选中代码,体验AI替你一键快速解读代码

立即体验

APP内打开

Image 42选择你感兴趣的技术方向

后端

前端

Android

iOS

人工智能

开发工具

代码人生

阅读

跳过

上一步

至少选择1个分类

Image 43

温馨提示

当前操作失败,如有疑问,可点击申诉

前往申诉 我知道了

沉浸阅读

确定屏蔽该用户

屏蔽后,对方将不能关注你、与你产生任何互动,无法查看你的主页

取消 确定

AI 可能会生成不准确的信息,请核实重要内容