NVIDIA与SakanaAILabs合作发布ICML2026稀疏Transformer优化论文

TL;DR · AI 摘要
NVIDIA与SakanaAILabs合作发表ICML2026论文,提出TwELL稀疏打包与融合CUDA内核,实现20%+推理/训练加速。
核心要点
- TwELL稀疏打包格式可实现99%以上神经元稀疏度,对下游性能影响小于1%
- 融合CUDA内核在大规模模型上带来20%+的推理与训练速度提升
- 通过L1正则化诱导稀疏性,使FFN层中超过95%神经元保持静默
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- 稀疏Transformer优化:TwELL与GPU加速
- 核心挑战
- LLM前馈层95%+神经元静默
- 传统硬件不支持稀疏计算
- 技术方案
- TwELL稀疏打包格式
- 融合CUDA内核设计
- 关键成果
- 99%+稀疏度(L1正则)
- 20%+推理/训练加速
- 能效与内存效率提升
金句 / Highlights
值得收藏与分享的关键句。
超过95%的前馈层神经元在任意词输入时保持静默,但现有硬件惩罚这种稀疏性。
L1正则化可诱导超过99%的稀疏度,对下游性能影响可忽略不计。
TwELL稀疏打包与融合CUDA内核在大规模模型上带来20%+的推理与训练加速。
• TwELL sparse packing • Fused CUDA kernels • 20%+ inference/training speedups at scale
Paper + code below 👇" / X

Great collab with
on an #ICML26 paper about sparse transformer kernels + formats optimized for modern NVIDIA GPU execution. • TwELL sparse packing • Fused CUDA kernels • 20%+ inference/training speedups at scale Paper + code below
Quote
hardmaru
@hardmaru
12h
The human brain is incredibly efficient because it only activates the specific neurons needed for a thought. Modern LLMs naturally try to do this too (> 95% of neurons in feedforward layers stay silent for any given word), but our hardware punishes them for it. One of the most x.com/SakanaAILabs/s…
read image description