Perplexity(@perplexity_ai)
我们开发了自研推理引擎 ROSE
6.5Score

TL;DR · AI 摘要
Perplexity 推出自研推理引擎 ROSE,支持从嵌入模型到万亿参数大模型的高效服务,并集成 CuTeDSL 以加速 GPU 内核定制。
核心要点
- Perplexity 自主研发了推理引擎 ROSE,提升大模型服务效率。
- ROSE 支持从嵌入模型到万亿参数 LLM 的全栈推理需求。
- 集成 CuTeDSL 可快速构建专用 GPU 内核,优化在 Hopper/Blackwell GPU 上的性能。
结构提纲
按章节快速跳转。
Perplexity 宣布开发 Runtime-Optimized Serving Engine (ROSE)。
支持从小模型到万亿参数 LLM 的统一推理服务。
通过领域特定语言加速 GPU 内核开发与部署。
针对 NVIDIA Hopper 和 Blackwell 架构进行峰值性能调优。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- ROSE 推理引擎
- 多规模模型支持
- 嵌入模型
- 万亿参数 LLM
- 关键技术集成
- CuTeDSL
- GPU 内核加速
- 硬件优化目标
- NVIDIA Hopper
- NVIDIA Blackwell
金句 / Highlights
值得收藏与分享的关键句。
We’ve developed our own inference engine Runtime-Optimized Serving Engine (ROSE) to serve models ranging from embeddings to trillion-parameter LLMs.
With CuTeDSL integrated into our inference engine, Perplexity can build the specialized GPU kernels faster...
to bring models up to peak performance on NVIDIA Hopper and Blackwell GPUs.
#ROSE#CuTeDSL#GPU优化#大模型推理#Perplexity
打开原文Perplexity 在 X 上发布:“我们开发了自有的推理引擎——运行时优化服务引擎(ROSE),用于部署从嵌入模型到万亿参数大语言模型(LLM)的各种模型。通过将 CuTeDSL 集成到我们的推理引擎中,Perplexity 能够更快地构建专用 GPU 内核,从而让模型在 NVIDIA Hopper 和 Blackwell GPU 上实现峰值性能。” / X
不要错过正在发生的事
X 上的人总是第一时间知晓。
帖子
查看最新帖子
对话

我们开发了自有的推理引擎——运行时优化服务引擎(ROSE),用于部署从嵌入模型到万亿参数大语言模型(LLM)的各种模型。通过将 CuTeDSL 集成到我们的推理引擎中,Perplexity 能够更快地构建专用 GPU 内核,从而让模型在 NVIDIA Hopper 和 Blackwell GPU 上实现峰值性能。
·
46
83
674
219
阅读 46 条回复
新用户?
立即注册,获取专属于你的个性化时间线!
使用 Apple 注册
相关人物
-  Perplexity @perplexity_ai 关注 点击关注 perplexity_ai 好奇心改变一切。在 iOS、Mac、Windows 和 Android 上免费下载我们的应用。
当前热门
正在发生什么
游戏 · 热门
Star Fox
与 Fox McCloud、Nintendo Switch 2 一同热门
游戏 · 热门
SNES
在美国 trending
Slippy
游戏 · 热门
Ocarina of Time
|
|
|
|
|
更多
© 2026 X 公司