T
traeai
登录

概念

MoE

别名:Mixture of Experts

混合专家模型架构,通过稀疏激活实现大参数量下的高效推理。

已跟踪 14 条高相关材料

TraeAI 观察

相关材料

已收录 14 条与 MoE 相关的内容,按评分排序。

将 600 亿参数大模型装进手机的瓶颈,终于被中国 AI 公司突破了

中国AI公司突破三值量化技术,使600亿参数模型可在手机运行,节省6倍显存且性能损失极小。

入选理由:三值量化可节省6倍显存,保留97%模型能力,支持在8GB内存手机运行600亿参数模型。

精选文章#AI模型#三值量化#昇腾芯片#端侧AI#模型压缩中文
https://t.co/nw0GoHamCI

DeepSeek 的 10 万亿美元大战略【译】

宝玉(@dotey)5655 字 (约 23 分钟)
92

DeepSeek通过多项底层技术创新构建低成本高效能模型体系,旨在撬动中国10万亿美元AI硬件生态并实现自身万亿美元市值。

入选理由:DeepSeek V4 Pro在100万上下文中仅需5.48GB HBM显存,远低于竞品的60-89GB。

精选推文#DeepSeek#AI模型#MoE#KV缓存优化#硬件生态中文
DeepSeek 的 10 万亿美元大战略

DeepSeek 的 10 万亿美元大战略

宝玉的分享5756 字 (约 24 分钟)
92

DeepSeek通过多项技术创新大幅降低大模型推理中的KV缓存需求,推动中国AI硬件生态发展,目标打造价值10万亿美元的产业巨兽。

入选理由:DeepSeek V4 Pro仅需5.48GB HBM,相比GLM5的60GB和Qwen3-235B-A22B的89GB显著节省显存

精选文章#AI模型#硬件生态#KV缓存#DeepSeek#中国AI中文
[AINews] Thinking Machines' Native Interaction Models - TML-Interaction-Small 276B-A12B - advances SOTA Realtime Voice and kills standard VAD

Thinking Machines发布TML-Interaction-Small 276B-A12B模型,采用2760亿参数MoE架构与120亿活跃参数,实现<200ms端到端延迟,显著超越GPT-4o和Gemini 3.1-Flash,在实时语音交互、时间对齐微回合与视觉主动性任务上达到SOTA,彻底淘汰传统VAD机制。

入选理由:TML-Interaction-Small为276B参数MoE模型,仅12B激活参数,实现<200ms端到端延迟。

精选文章#AI#语音交互#MoE#实时系统#模型架构中文
Mellum2 Goes Open Source: A Fast Model for AI Workflows

Mellum2 开源:适用于AI工作流的快速模型

The JetBrains Blog606 字 (约 3 分钟)
85

Mellum2是JetBrains开源的12B参数AI模型,采用MoE架构使每token仅激活2.5B参数,推理速度比同类模型快50%,专为软件工程环境设计,适用于路由、RAG管道和私有AI部署等场景。

入选理由:Mellum2采用MoE架构,12B参数模型每token仅激活2.5B参数,推理速度比同类模型快50%,显著降低生产环境延迟和成本

精选文章#AI#模型#Mellum2#MoE#软件工程中文
任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率

任务成本仅为Claude Opus 4.6 1/9,阶跃刷新Flash模型效率

爱范儿4293 字 (约 18 分钟)
85

阶跃星辰发布的 Step 3.7 Flash 是面向生产级 AI Agent 的新一代 Flash 模型,具备原生多模态理解、高吞吐低延迟和联网搜索增强能力,在编程任务中性能接近 Claude Opus 4.6 的 97%,但成本仅为后者约 1/9,适合高频、复杂、真实工作流场景。

入选理由:Step 3.7 Flash 采用稀疏 MoE 架构,激活参数仅 11B,最高生成速度达 400 Tokens/s,支持 40 个 Agent 并行运行。

精选文章#AI Agent#多模态#Flash 模型#阶跃星辰#生产级部署中文
Step 3.7 Flash from @StepFun_ai is live on OpenRouter.

A multimodal (image/video/text) MoE that act...

Step 3.7 Flash 是一个支持多模态的 MoE 模型,仅激活 11B 参数即可处理 196B 参数规模的任务,适用于编码、代理工作流和结构化输出。

入选理由:Step 3.7 Flash 模型通过激活 11B 参数处理 196B 参数规模任务,显著降低计算成本。

精选推文#MoE#多模态#AI 模型#OpenRouter中文
MoE环游记:8、强制序列级均衡

MoE环游记:8、强制序列级均衡

科学空间4785 字 (约 20 分钟)
85

文章提出了一种新的序列级负载均衡方法Moving Quantile Balancing(MQB),可在不依赖辅助损失的情况下实现MoE模型中的细粒度均衡。

入选理由:MQB方法基于Quantile Balancing演化而来,适用于序列级负载均衡。

精选文章#MoE#负载均衡#深度学习#路由机制#MQB中文
We published new research on how we serve post-trained Qwen3 235B models on NVIDIA GB200 NVL72 Black...

我们在 NVIDIA GB200 NVL72 Blackwell 机架上发布了 Qwen3 235B 模型的部署研究

Perplexity(@perplexity_ai)101 字 (约 1 分钟)
85

Perplexity 发布了关于如何在 NVIDIA GB200 NVL72 Blackwell 机架上部署 Qwen3 235B 模型的研究,GB200 在大规模 MoE 模型的高吞吐量推理方面优于 Hopper。

入选理由:Qwen3 235B 模型在 NVIDIA GB200 上实现了高效的高吞吐量推理。

精选推文#NVIDIA#GB200#Qwen3#MoE#高性能计算中文
Today we're shipping Nemotron 3 Ultra.

A 550B MoE frontier-intelligence open model built for long-r...

NVIDIA发布Nemotron 3 Ultra:550B MoE开源模型

NVIDIA AI(@NVIDIAAI)104 字 (约 1 分钟)
75

NVIDIA发布550B参数MoE开源模型Nemotron 3 Ultra,专为长时运行Agent设计,推理速度提升5倍且复杂任务成本降低30%。

入选理由:Nemotron 3 Ultra采用550B参数MoE架构,是面向前沿智能的开源模型。

精选推文#NVIDIA#Nemotron#MoE#AI Agent#开源模型英文
7/ 🧩这不是剪枝

ZEDA 更像让 MoE 有了“算力预算意识”。

未来模型不只决定回答什么,还会决定每个 token 值不值得认真思考。

Paper: Post-Trained MoE C...

7/ 🧩这不是剪枝

AI Will(@FinanceYF5)244 字 (约 1 分钟)
75

ZEDA 是一种新型 MoE 技术,通过自蒸馏实现动态专家跳过,提升推理效率并赋予模型算力预算意识。

入选理由:ZEDA 使用自蒸馏方法使 MoE 模型跳过一半专家,提升推理效率。

精选推文#MoE#Mixture-of-Experts#AI Efficiency#Self-Distillation#ZEDA中文
本周Huggingface暂时第一名的论文:MACE

用MoE构架做音乐驱动舞蹈视频。

哈哈哈,感觉抖音AI跳舞视频估计要更真了。

https://t.co/qmSpyQGC0a

本周Huggingface暂时第一名的论文:MACE

向阳乔木(@vista8)124 字 (约 1 分钟)
55

MACE论文提出基于MoE架构的音乐驱动舞蹈视频生成方法,提升动作与节奏的同步性,可能应用于抖音等平台的AI跳舞视频。

入选理由:MACE使用MoE架构实现音乐到舞蹈动作的高精度对齐,提升生成视频的真实感。

精选推文#MACE#MoE#音乐驱动舞蹈#Hugging Face#AI视频生成中文
Nemotron 3 Ultra is coming.

Nemotron 3 Ultra即将发布

NVIDIA Developer395 字 (约 2 分钟)
45

NVIDIA推出Nemotron 3 Ultra开源模型,宣称推理速度提升5倍、运行成本降低30%,但未提供架构细节和实证数据。

入选理由:Nemotron 3 Ultra采用SSM与MoE混合架构,推理速度比现有开源模型快5倍。

精选视频#Nemotron#SSM#MoE#开源模型#NVIDIA英文

跨材料问答 · MoE

回答基于:MoE 相关 14 条材料
    0 / 500

    AI 可能会生成不准确的信息,请核实重要内容