Fireworks AI 推出 Step 3.7 Flash:从设计出发的 198B 稀疏 MoE 视觉语言模型
Fireworks AI 引入 Step 3.7 Flash:从推理效率出发设计的 198B 稀疏 MoE 视觉语言模型,集成 196B 语言与 1.8B 视觉编码器,实现实际代理任务最高 400 token/s 推理。
入选理由:从设计阶段即优化推理效率,非事后补强。
模型
别名:Visual Language Model
视觉语言模型,集成视觉与语言理解能力。
已跟踪 2 条高相关材料
最近变化
2026-06-04 · 从设计阶段即优化推理效率,非事后补强。
为什么值得关注
VLM 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
Many research labs only consider inference efficiency after the fact. Step 3.7 Flash is a 198B spars...
Fireworks AI(@FireworksAI_HQ) · 8.2 分
Fireworks AI 引入 Step 3.7 Flash:198B 稀疏 MoE 视觉语言模型,从推理出发设计,集成 196B 语言与 1.8B 视觉编码器,实现实际代理任务最高 400 token/s 推理。
Parsing PDFs is hard This past week I gave a few talks (at both AI Dev '26 by @DeepLearningAI and ...
Jerry Liu(@jerryjliu0) · 7.8 分
PDF解析仍属开放难题,因其本质是面向打印/显示的格式,缺乏语义结构与文本顺序保证,而AI Agent对高质量OCR和结构化提取的需求正急剧提升。
已收录 2 条与 VLM 相关的内容,按评分排序。
Fireworks AI 引入 Step 3.7 Flash:从推理效率出发设计的 198B 稀疏 MoE 视觉语言模型,集成 196B 语言与 1.8B 视觉编码器,实现实际代理任务最高 400 token/s 推理。
入选理由:从设计阶段即优化推理效率,非事后补强。
PDF解析仍属开放难题,因其本质是面向打印/显示的格式,缺乏语义结构与文本顺序保证,而AI Agent对高质量OCR和结构化提取的需求正急剧提升。
入选理由:PDF设计初衷非为机器可读,文本与表格以无序字符/线条堆叠方式存储