MoE 最近有什么新动态？

traeai 已收录 14 篇与 MoE 相关的内容。最新一篇是「将 600 亿参数大模型装进手机的瓶颈，终于被中国 AI 公司突破了」，由爱范儿发布。

概念

MoE

别名：Mixture of Experts

混合专家模型架构，通过稀疏激活实现大参数量下的高效推理。

已跟踪 14 条高相关材料

TraeAI 观察

如果只读 3 篇

将 600 亿参数大模型装进手机的瓶颈，终于被中国 AI 公司突破了

爱范儿 · 9.2 分

中国AI公司突破三值量化技术，使600亿参数模型可在手机运行，节省6倍显存且性能损失极小。

https://t.co/nw0GoHamCI

宝玉(@dotey) · 9.2 分

DeepSeek通过多项底层技术创新构建低成本高效能模型体系，旨在撬动中国10万亿美元AI硬件生态并实现自身万亿美元市值。

DeepSeek 的 10 万亿美元大战略

宝玉的分享 · 9.2 分

DeepSeek通过多项技术创新大幅降低大模型推理中的KV缓存需求，推动中国AI硬件生态发展，目标打造价值10万亿美元的产业巨兽。

将 600 亿参数大模型装进手机的瓶颈，终于被中国 AI 公司突破了

爱范儿5月25日2653 字 (约 11 分钟)

中国AI公司突破三值量化技术，使600亿参数模型可在手机运行，节省6倍显存且性能损失极小。

入选理由：三值量化可节省6倍显存，保留97%模型能力，支持在8GB内存手机运行600亿参数模型。

精选文章#AI模型#三值量化#昇腾芯片#端侧AI#模型压缩中文

DeepSeek 的 10 万亿美元大战略【译】

宝玉(@dotey)5月25日5655 字 (约 23 分钟)

DeepSeek通过多项底层技术创新构建低成本高效能模型体系，旨在撬动中国10万亿美元AI硬件生态并实现自身万亿美元市值。

入选理由：DeepSeek V4 Pro在100万上下文中仅需5.48GB HBM显存，远低于竞品的60-89GB。

精选推文#DeepSeek#AI模型#MoE#KV缓存优化#硬件生态中文

DeepSeek 的 10 万亿美元大战略

宝玉的分享5月24日5756 字 (约 24 分钟)

DeepSeek通过多项技术创新大幅降低大模型推理中的KV缓存需求，推动中国AI硬件生态发展，目标打造价值10万亿美元的产业巨兽。

入选理由：DeepSeek V4 Pro仅需5.48GB HBM，相比GLM5的60GB和Qwen3-235B-A22B的89GB显著节省显存

精选文章#AI模型#硬件生态#KV缓存#DeepSeek#中国AI中文

[AINews] Thinking Machines' Native Interaction Models - TML-Interaction-Small 276B-A12B - advances SOTA Realtime Voice and kills standard VAD

[AINews] Thinking Machines的原生交互模型 - TML-Interaction-Small 276B-A12B - 推进SOTA实时语音并淘汰标准VAD

Latent Space5月12日2369 字 (约 10 分钟)

Thinking Machines发布TML-Interaction-Small 276B-A12B模型，采用2760亿参数MoE架构与120亿活跃参数，实现<200ms端到端延迟，显著超越GPT-4o和Gemini 3.1-Flash，在实时语音交互、时间对齐微回合与视觉主动性任务上达到SOTA，彻底淘汰传统VAD机制。

入选理由：TML-Interaction-Small为276B参数MoE模型，仅12B激活参数，实现<200ms端到端延迟。

精选文章#AI#语音交互#MoE#实时系统#模型架构中文

Mellum2 Goes Open Source: A Fast Model for AI Workflows

Mellum2 开源：适用于AI工作流的快速模型

The JetBrains Blog6月2日606 字 (约 3 分钟)

Mellum2是JetBrains开源的12B参数AI模型，采用MoE架构使每token仅激活2.5B参数，推理速度比同类模型快50%，专为软件工程环境设计，适用于路由、RAG管道和私有AI部署等场景。

入选理由：Mellum2采用MoE架构，12B参数模型每token仅激活2.5B参数，推理速度比同类模型快50%，显著降低生产环境延迟和成本

精选文章#AI#模型#Mellum2#MoE#软件工程中文

任务成本仅为Claude Opus 4.6 1/9，阶跃刷新Flash模型效率

爱范儿6月2日4293 字 (约 18 分钟)

阶跃星辰发布的 Step 3.7 Flash 是面向生产级 AI Agent 的新一代 Flash 模型，具备原生多模态理解、高吞吐低延迟和联网搜索增强能力，在编程任务中性能接近 Claude Opus 4.6 的 97%，但成本仅为后者约 1/9，适合高频、复杂、真实工作流场景。

入选理由：Step 3.7 Flash 采用稀疏 MoE 架构，激活参数仅 11B，最高生成速度达 400 Tokens/s，支持 40 个 Agent 并行运行。

精选文章#AI Agent#多模态#Flash 模型#阶跃星辰#生产级部署中文

Step 3.7 Flash from @StepFun_ai is live on OpenRouter. A multimodal (image/video/text) MoE that act...

OpenRouter(@OpenRouterAI)5月29日166 字 (约 1 分钟)

Step 3.7 Flash 是一个支持多模态的 MoE 模型，仅激活 11B 参数即可处理 196B 参数规模的任务，适用于编码、代理工作流和结构化输出。

入选理由：Step 3.7 Flash 模型通过激活 11B 参数处理 196B 参数规模任务，显著降低计算成本。

精选推文#MoE#多模态#AI 模型#OpenRouter中文

MoE环游记：8、强制序列级均衡

科学空间5月23日4785 字 (约 20 分钟)

文章提出了一种新的序列级负载均衡方法Moving Quantile Balancing（MQB），可在不依赖辅助损失的情况下实现MoE模型中的细粒度均衡。

入选理由：MQB方法基于Quantile Balancing演化而来，适用于序列级负载均衡。

精选文章#MoE#负载均衡#深度学习#路由机制#MQB中文

We published new research on how we serve post-trained Qwen3 235B models on NVIDIA GB200 NVL72 Black...

我们在 NVIDIA GB200 NVL72 Blackwell 机架上发布了 Qwen3 235B 模型的部署研究

Perplexity(@perplexity_ai)5月13日101 字 (约 1 分钟)

Perplexity 发布了关于如何在 NVIDIA GB200 NVL72 Blackwell 机架上部署 Qwen3 235B 模型的研究，GB200 在大规模 MoE 模型的高吞吐量推理方面优于 Hopper。

入选理由：Qwen3 235B 模型在 NVIDIA GB200 上实现了高效的高吞吐量推理。

精选推文#NVIDIA#GB200#Qwen3#MoE#高性能计算中文

The benchmarks show the gap. NVLS all-reduce latency drops from 586.1µs on H200 to 313.3µs on GB200....

基准测试显示差距。NVLS 全归约延迟从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒...

Perplexity(@perplexity_ai)5月13日107 字 (约 1 分钟)

NVLS 全归约延迟显著改善，从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒，MoE 预填充和解码吞吐量也有显著提升。

入选理由：NVLS all-reduce latency drops from 586.1µs on H200 to 313.3µs on GB200.

精选推文#NVLS#H200#GB200#MoE#性能英文

Today we're shipping Nemotron 3 Ultra.

A 550B MoE frontier-intelligence open model built for long-r...

NVIDIA发布Nemotron 3 Ultra：550B MoE开源模型

NVIDIA AI(@NVIDIAAI)昨天104 字 (约 1 分钟)

NVIDIA发布550B参数MoE开源模型Nemotron 3 Ultra，专为长时运行Agent设计，推理速度提升5倍且复杂任务成本降低30%。

入选理由：Nemotron 3 Ultra采用550B参数MoE架构，是面向前沿智能的开源模型。

精选推文#NVIDIA#Nemotron#MoE#AI Agent#开源模型英文

7/ 🧩这不是剪枝

AI Will(@FinanceYF5)5月25日244 字 (约 1 分钟)

ZEDA 是一种新型 MoE 技术，通过自蒸馏实现动态专家跳过，提升推理效率并赋予模型算力预算意识。

入选理由：ZEDA 使用自蒸馏方法使 MoE 模型跳过一半专家，提升推理效率。

精选推文#MoE#Mixture-of-Experts#AI Efficiency#Self-Distillation#ZEDA中文

本周Huggingface暂时第一名的论文：MACE

向阳乔木(@vista8)5月11日124 字 (约 1 分钟)

MACE论文提出基于MoE架构的音乐驱动舞蹈视频生成方法，提升动作与节奏的同步性，可能应用于抖音等平台的AI跳舞视频。

入选理由：MACE使用MoE架构实现音乐到舞蹈动作的高精度对齐，提升生成视频的真实感。

精选推文#MACE#MoE#音乐驱动舞蹈#Hugging Face#AI视频生成中文

Nemotron 3 Ultra即将发布

NVIDIA Developer6月2日395 字 (约 2 分钟)

NVIDIA推出Nemotron 3 Ultra开源模型，宣称推理速度提升5倍、运行成本降低30%，但未提供架构细节和实证数据。

入选理由：Nemotron 3 Ultra采用SSM与MoE混合架构，推理速度比现有开源模型快5倍。

精选视频#Nemotron#SSM#MoE#开源模型#NVIDIA英文

跨材料问答 · MoE

回答基于：MoE 相关 14 条材料