Step 3.7 Flash：专为推理优化设计的 196B MoE 模型

Fireworks AI(@FireworksAI_HQ)

Fireworks AI(@FireworksAI_HQ)2026年6月1日

Step 3.7 Flash：专为推理优化设计的 196B MoE 模型

8.5Score

TL;DR · AI 摘要

Step 3.7 Flash 是一个专为推理优化设计的 196B MoE 模型，采用 MFA 和 AFD 技术，KV-cache 占用仅为 DeepSeek 的 22%，支持高效代理、编码和多模态任务，已开源并可在 Fireworks 平台使用。

核心要点

Step 3.7 Flash 是 196B MoE 模型，从设计之初就聚焦推理效率，而非事后优化。
其 Multi-Matrix Factorization Attention (MFA) 技术使 KV-cache 占用降至 DeepSeek 的约 22%。
Attention-FFN Disaggregation (AFD) 解耦注意力与 FFN，实现硬件优化服务，适用于代理、编码等场景。

结构提纲

按章节快速跳转。

§模型定位与背景
许多研究实验室在模型训练完成后才考虑推理效率，而 Step 3.7 Flash 从设计阶段即以推理优化为核心目标。
·核心架构创新
Step 3.7 Flash 采用 Multi-Matrix Factorization Attention (MFA) 和 Attention-FFN Disaggregation (AFD) 两项关键技术提升推理效率。
·性能表现
在 ClawEval-1.1、SimpleVQA Search、SWE-PRO 等基准测试中表现优异，分别取得 67.1、79.2、56.3 分。
·部署与开源
模型权重已开放 Apache 2.0 许可证，并可通过 Fireworks AI 平台直接调用，支持多模态与代理工作流。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Step 3.7 Flash 模型
- 设计哲学
  - 从头优化推理效率
  - 非事后优化
- 核心技术
  - MFA: KV-cache 降为 DeepSeek 22%
  - AFD: 注意力与 FFN 解耦
- 性能指标
  - ClawEval-1.1: 67.1
  - SimpleVQA Search: 79.2
  - SWE-PRO: 56.3
  - V* Python: 95.3
- 部署与许可
  - Apache 2.0 开源
  - Fireworks AI 平台可用

金句 / Highlights

值得收藏与分享的关键句。

Step 3.7 Flash 是一个 196B MoE 模型，专为推理效率从头设计，而非事后优化。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
Multi-Matrix Factorization Attention (MFA) 将 KV-cache 占用降低至 DeepSeek 的约 22%，显著节省内存。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
Attention-FFN Disaggregation (AFD) 解耦注意力与 FFN，实现硬件优化服务，提升推理吞吐量。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
在 ClawEval-1.1 上得分 67.1，SimpleVQA Search 得分 79.2，SWE-PRO 得分 56.3，V* Python 达到 95.3。
— StepFun 推文
⬇︎ 下载 PNG 𝕏 分享到 X

#Step 3.7 Flash#MoE#推理优化#Fireworks AI#Apache 2.0

打开原文

许多研究实验室只在模型训练完成后才考虑推理效率。Step 3.7 Flash 是一个 196B 的 MoE 模型，由 @StepFun_ai 从一开始就专为推理优化而设计。

多矩阵分解注意力（MFA）→ KV 缓存大小约为 DeepSeek 的 22%。注意力-FFN 解耦（AFD）→ 将注意力机制与 FFN 分离，实现硬件优化的部署服务。现在即可在 Fireworks 上试用。Apache 2.0 开源许可证 → fireworks.ai/models/firewor

引用

StepFun @StepFun_ai 5月29日

⚡️ Step 3.7 Flash 正式发布：新的前沿是代理效率。#1 ClawEval-1.1（67.1），#1 SimpleVQA Search（79.2），#2 SWE-PRO（56.3），V* Python 得分 95.3。权重开源，采用 Apache 2.0 许可证。专为代理、编程、搜索和多模态工作流设计——兼顾速度、成本与性能。