我们开发了自研推理引擎 ROSE

Perplexity(@perplexity_ai)

Perplexity(@perplexity_ai)2026年5月6日

我们开发了自研推理引擎 ROSE

6.5Score

TL;DR · AI 摘要

Perplexity 推出自研推理引擎 ROSE，支持从嵌入模型到万亿参数大模型的高效服务，并集成 CuTeDSL 以加速 GPU 内核定制。

核心要点

Perplexity 自主研发了推理引擎 ROSE，提升大模型服务效率。
ROSE 支持从嵌入模型到万亿参数 LLM 的全栈推理需求。
集成 CuTeDSL 可快速构建专用 GPU 内核，优化在 Hopper/Blackwell GPU 上的性能。

结构提纲

按章节快速跳转。

§引言：推出自研推理引擎
Perplexity 宣布开发 Runtime-Optimized Serving Engine (ROSE)。
·ROSE 的核心能力
支持从小模型到万亿参数 LLM 的统一推理服务。
·CuTeDSL 集成优势
通过领域特定语言加速 GPU 内核开发与部署。
›硬件级性能优化
针对 NVIDIA Hopper 和 Blackwell 架构进行峰值性能调优。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

ROSE 推理引擎
- 多规模模型支持
  - 嵌入模型
  - 万亿参数 LLM
- 关键技术集成
  - CuTeDSL
  - GPU 内核加速
- 硬件优化目标
  - NVIDIA Hopper
  - NVIDIA Blackwell

金句 / Highlights

值得收藏与分享的关键句。

We’ve developed our own inference engine Runtime-Optimized Serving Engine (ROSE) to serve models ranging from embeddings to trillion-parameter LLMs.
— Post
⬇︎ 下载 PNG 𝕏 分享到 X
With CuTeDSL integrated into our inference engine, Perplexity can build the specialized GPU kernels faster...
— Post
⬇︎ 下载 PNG 𝕏 分享到 X
to bring models up to peak performance on NVIDIA Hopper and Blackwell GPUs.
— Post
⬇︎ 下载 PNG 𝕏 分享到 X

#ROSE#CuTeDSL#GPU优化#大模型推理#Perplexity

打开原文

Perplexity 在 X 上发布：“我们开发了自有的推理引擎——运行时优化服务引擎（ROSE），用于部署从嵌入模型到万亿参数大语言模型（LLM）的各种模型。通过将 CuTeDSL 集成到我们的推理引擎中，Perplexity 能够更快地构建专用 GPU 内核，从而让模型在 NVIDIA Hopper 和 Blackwell GPU 上实现峰值性能。” / X

不要错过正在发生的事

X 上的人总是第一时间知晓。

登录

注册

帖子

查看最新帖子

对话

Perplexity

@perplexity_ai

我们开发了自有的推理引擎——运行时优化服务引擎（ROSE），用于部署从嵌入模型到万亿参数大语言模型（LLM）的各种模型。通过将 CuTeDSL 集成到我们的推理引擎中，Perplexity 能够更快地构建专用 GPU 内核，从而让模型在 NVIDIA Hopper 和 Blackwell GPU 上实现峰值性能。