Step 3.7 Flash:专为推理优化设计的 196B MoE 模型

TL;DR · AI 摘要
Step 3.7 Flash 是一个专为推理优化设计的 196B MoE 模型,采用 MFA 和 AFD 技术,KV-cache 占用仅为 DeepSeek 的 22%,支持高效代理、编码和多模态任务,已开源并可在 Fireworks 平台使用。
核心要点
- Step 3.7 Flash 是 196B MoE 模型,从设计之初就聚焦推理效率,而非事后优化。
- 其 Multi-Matrix Factorization Attention (MFA) 技术使 KV-cache 占用降至 DeepSeek 的约 22%。
- Attention-FFN Disaggregation (AFD) 解耦注意力与 FFN,实现硬件优化服务,适用于代理、编码等场景。
结构提纲
按章节快速跳转。
许多研究实验室在模型训练完成后才考虑推理效率,而 Step 3.7 Flash 从设计阶段即以推理优化为核心目标。
Step 3.7 Flash 采用 Multi-Matrix Factorization Attention (MFA) 和 Attention-FFN Disaggregation (AFD) 两项关键技术提升推理效率。
- ·性能表现
在 ClawEval-1.1、SimpleVQA Search、SWE-PRO 等基准测试中表现优异,分别取得 67.1、79.2、56.3 分。
模型权重已开放 Apache 2.0 许可证,并可通过 Fireworks AI 平台直接调用,支持多模态与代理工作流。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Step 3.7 Flash 模型
- 设计哲学
- 从头优化推理效率
- 非事后优化
- 核心技术
- MFA: KV-cache 降为 DeepSeek 22%
- AFD: 注意力与 FFN 解耦
- 性能指标
- ClawEval-1.1: 67.1
- SimpleVQA Search: 79.2
- SWE-PRO: 56.3
- V* Python: 95.3
- 部署与许可
- Apache 2.0 开源
- Fireworks AI 平台可用
金句 / Highlights
值得收藏与分享的关键句。
Step 3.7 Flash 是一个 196B MoE 模型,专为推理效率从头设计,而非事后优化。
Multi-Matrix Factorization Attention (MFA) 将 KV-cache 占用降低至 DeepSeek 的约 22%,显著节省内存。
Attention-FFN Disaggregation (AFD) 解耦注意力与 FFN,实现硬件优化服务,提升推理吞吐量。
在 ClawEval-1.1 上得分 67.1,SimpleVQA Search 得分 79.2,SWE-PRO 得分 56.3,V* Python 达到 95.3。

许多研究实验室只在模型训练完成后才考虑推理效率。Step 3.7 Flash 是一个 196B 的 MoE 模型,由 @StepFun_ai 从一开始就专为推理优化而设计。
多矩阵分解注意力(MFA)→ KV 缓存大小约为 DeepSeek 的 22%。 注意力-FFN 解耦(AFD)→ 将注意力机制与 FFN 分离,实现硬件优化的部署服务。 现在即可在 Fireworks 上试用。Apache 2.0 开源许可证 → fireworks.ai/models/firewor
引用

StepFun @StepFun_ai 5月29日
⚡️ Step 3.7 Flash 正式发布:新的前沿是代理效率。#1 ClawEval-1.1(67.1),#1 SimpleVQA Search(79.2),#2 SWE-PRO(56.3),V* Python 得分 95.3。权重开源,采用 Apache 2.0 许可证。专为代理、编程、搜索和多模态工作流设计——兼顾速度、成本与性能。