T
traeai
登录
返回首页
Fireworks AI(@FireworksAI_HQ)

Step 3.7 Flash:专为推理优化设计的 196B MoE 模型

8.5Score
Step 3.7 Flash:专为推理优化设计的 196B MoE 模型

TL;DR · AI 摘要

Step 3.7 Flash 是一个专为推理优化设计的 196B MoE 模型,采用 MFA 和 AFD 技术,KV-cache 占用仅为 DeepSeek 的 22%,支持高效代理、编码和多模态任务,已开源并可在 Fireworks 平台使用。

核心要点

  • Step 3.7 Flash 是 196B MoE 模型,从设计之初就聚焦推理效率,而非事后优化。
  • 其 Multi-Matrix Factorization Attention (MFA) 技术使 KV-cache 占用降至 DeepSeek 的约 22%。
  • Attention-FFN Disaggregation (AFD) 解耦注意力与 FFN,实现硬件优化服务,适用于代理、编码等场景。

结构提纲

按章节快速跳转。

  1. 许多研究实验室在模型训练完成后才考虑推理效率,而 Step 3.7 Flash 从设计阶段即以推理优化为核心目标。

  2. Step 3.7 Flash 采用 Multi-Matrix Factorization Attention (MFA) 和 Attention-FFN Disaggregation (AFD) 两项关键技术提升推理效率。

  3. 在 ClawEval-1.1、SimpleVQA Search、SWE-PRO 等基准测试中表现优异,分别取得 67.1、79.2、56.3 分。

  4. 模型权重已开放 Apache 2.0 许可证,并可通过 Fireworks AI 平台直接调用,支持多模态与代理工作流。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Step 3.7 Flash 模型
    • 设计哲学
      • 从头优化推理效率
      • 非事后优化
    • 核心技术
      • MFA: KV-cache 降为 DeepSeek 22%
      • AFD: 注意力与 FFN 解耦
    • 性能指标
      • ClawEval-1.1: 67.1
      • SimpleVQA Search: 79.2
      • SWE-PRO: 56.3
      • V* Python: 95.3
    • 部署与许可
      • Apache 2.0 开源
      • Fireworks AI 平台可用

金句 / Highlights

值得收藏与分享的关键句。

  • Step 3.7 Flash 是一个 196B MoE 模型,专为推理效率从头设计,而非事后优化。

    第 1 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Multi-Matrix Factorization Attention (MFA) 将 KV-cache 占用降低至 DeepSeek 的约 22%,显著节省内存。

    第 1 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Attention-FFN Disaggregation (AFD) 解耦注意力与 FFN,实现硬件优化服务,提升推理吞吐量。

    第 1 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 在 ClawEval-1.1 上得分 67.1,SimpleVQA Search 得分 79.2,SWE-PRO 得分 56.3,V* Python 达到 95.3。

    StepFun 推文

    ⬇︎ 下载 PNG𝕏 分享到 X
#Step 3.7 Flash#MoE#推理优化#Fireworks AI#Apache 2.0
打开原文
Image 1: Square profile picture

许多研究实验室只在模型训练完成后才考虑推理效率。Step 3.7 Flash 是一个 196B 的 MoE 模型,由 @StepFun_ai 从一开始就专为推理优化而设计。

多矩阵分解注意力(MFA)→ KV 缓存大小约为 DeepSeek 的 22%。 注意力-FFN 解耦(AFD)→ 将注意力机制与 FFN 分离,实现硬件优化的部署服务。 现在即可在 Fireworks 上试用。Apache 2.0 开源许可证 → fireworks.ai/models/firewor

引用

Image 2: Square profile picture

StepFun @StepFun_ai 5月29日

⚡️ Step 3.7 Flash 正式发布:新的前沿是代理效率。#1 ClawEval-1.1(67.1),#1 SimpleVQA Search(79.2),#2 SWE-PRO(56.3),V* Python 得分 95.3。权重开源,采用 Apache 2.0 许可证。专为代理、编程、搜索和多模态工作流设计——兼顾速度、成本与性能。

Image 4: Image

AI 可能会生成不准确的信息,请核实重要内容

Step 3.7 Flash:专为推理优化设计的 196B MoE 模型 | Fireworks AI(@FireworksAI_HQ) | traeai