SGLang 最近有什么新动态？

traeai 已收录 6 篇与 SGLang 相关的内容。最新一篇是「[AINews] Reve 2 and Ideogram 4: Layouts in Imagegen」，由 Latent Space 发布。

产品

SGLang

Q: 什么是 SGLang？

微软技术栈中使用的序列生成语言工具。

已跟踪 6 条高相关材料

TraeAI 观察

如果只读 3 篇

[AINews] Reve 2 and Ideogram 4: Layouts in Imagegen

Latent Space · 8.7 分

图像生成布局能力被两大模型同时突破，Ideogram 4 登顶公开图像模型榜单；与此同时，微软发布 MAI-Thinking-1，97% 解决 AIME 2025 且无合成数据、无蒸馏，公开训练细节与 MoE 阶梯，Frontier Tuning 使企业工作流模型效率提升 10...

Benchmarking inference at scale: coding agents

Together AI Blog · 8.5 分

Together Inference Engine在编码代理工作负载中比其他OSS引擎多提供31%的TPS，并在达到饱和时保持2倍的TTFT优势。性能提升来自全栈优化：ThunderMLA、自定义内核重写和真实流量的端到端分析。

国产GPU组了个开源局，把SGLang等核心开发者都摇来了！

量子位 · 8.5 分

国产GPU厂商摩尔线程通过SGLang × MUSA Meetup，成功吸引多个大模型推理框架核心开发者，推动国产GPU进入主流开源工程链路。

Reve 2 与 Ideogram 4：图像生成布局突破

Latent Space6月4日1547 字 (约 7 分钟)

图像生成布局能力被 Reve 2 与 Ideogram 4 同步突破，后者登顶公开图像模型榜单；微软发布 MAI-Thinking-1，AIME 2025 97% 且无合成数据、无蒸馏，公开训练细节与 MoE 阶梯；开源侧 Gemma 4 12B 等多款模型升级，强化本地优先部署。

入选理由：Ideogram 4.0 登顶 Arena 开放图像模型榜单，图像布局能力显著提升。

精选文章#图像生成#布局#MAI-Thinking-1#Frontier Tuning#Gemma 4 12B英文

Benchmarking inference at scale: coding agents

大规模推理基准测试：编码代理

Together AI Blog5月21日1358 字 (约 6 分钟)

Together推理引擎在编码代理工作负载中比其他开源引擎多提供31%的TPS，并在饱和状态下保持2倍的TTFT优势。性能提升来自全栈优化。

入选理由：ThunderMLA、自定义内核重写和端到端优化使Together引擎比其他OSS引擎多31%的TPS

精选文章#Together AI#推理引擎#编码代理#性能优化#TTFT英文

国产GPU组了个开源局，把SGLang等核心开发者都摇来了！

量子位5月15日3400 字 (约 14 分钟)

国产GPU厂商摩尔线程通过开源活动吸引多个大模型推理框架核心开发者。

入选理由：SGLang在12个H100节点上实现52.3k输入token/s/node性能

精选文章#GPU#开源生态#大模型推理中文

163: 详解DeepSeekV4：Infra巨鲸、百万上下文走进现实、极致效率优化

晚点聊 LateTalk5月1日2079 字 (约 9 分钟)

DeepSeekV4发布，通过组合创新和工程优化，在R1的“测试时扩展”范式下，实现百万上下文从理论到实用的飞跃，对Agent和多步复杂任务具有重要意义。

入选理由：DeepSeek V4沿用现有范式，未带来范式变化，但通过一系列技术创新显著提升了长上下文处理能力。

精选播客#DeepSeek#大模型#注意力机制#优化器#稀疏注意力中文

SGLang is hitting 180 tok/s/GPU on DeepSeek-V4 decode with ~1M context on Blackwell. Good to see f...

NVIDIA AI(@NVIDIAAI)5月1日212 字 (约 1 分钟)

NVIDIA AI 报告称，SGLang 在 Blackwell 硬件上使用 DeepSeek-V4 模型解码达到 180 tok/s/GPU 的速度，约 1M 上下文，得益于 LMSYS 组织针对 Blackwell 的特定优化，提高了混合稀疏注意力的利用效率。

入选理由：SGLang 在 DeepSeek-V4 解码任务上实现高性能，达 180 tok/s/GPU。

精选推文#NVIDIA#DeepSeek-V4#SGLang#Blackwell#LMSYS中文

> Ecosystem: Compatible with llama.cpp, MLX, @LMStudio, vLLM, @ollama, @UnslothAI, and SGLang.
&g...

Google AI Developers：Gemma 4 生态兼容与下载

Google AI Developers(@googleaidevs)6月4日78 字 (约 1 分钟)

Google 宣布其模型权重与主流开源生态兼容，可在 Hugging Face 和 Kaggle 直接下载，降低部署门槛。

入选理由：Gemma 4 权重与 llama.cpp、vLLM、Ollama 等生态兼容，便于本地部署与推理。

精选推文#Gemma#开源生态#模型部署#Hugging Face#Kaggle英文

跨材料问答 · SGLang

回答基于：SGLang 相关 6 条材料