按成本、延迟或吞吐量对AI网关中的提供商进行排序

Vercel News

Vercel News2026年5月15日

按成本、延迟或吞吐量对AI网关中的提供商进行排序

8.5Score

TL;DR · AI 摘要

Vercel AI Gateway现在支持按成本、延迟或吞吐量对模型提供商进行排序，帮助开发者更高效地选择服务。

核心要点

开发者可以使用`sort`参数按成本、TTFT或TPS对AI模型提供商进行排序。
排序后，系统会根据指定指标自动选择最优的提供商，无需代码更改。
排序功能与零数据保留等其他路由控制机制兼容，提升路由决策的灵活性。

结构提纲

按章节快速跳转。

§引言
Vercel AI Gateway新增排序功能，支持按成本、延迟或吞吐量对模型提供商进行排序。
·核心机制
通过`sort`参数设置排序维度，系统在请求时动态计算并选择最优提供商。
·使用场景
适用于高成本敏感、低延迟或高吞吐量需求的工作负载，提升服务选择效率。
·功能集成
支持与零数据保留等路由控制机制结合使用，增强路由策略的灵活性。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

AI Gateway 排序功能
- 核心机制
  - 排序参数设置
  - 动态计算与选择
- 使用场景
  - 成本敏感型工作
  - 低延迟需求
  - 高吞吐量需求
- 功能集成
  - 零数据保留
  - 路由策略优化

金句 / Highlights

值得收藏与分享的关键句。

开发者可以使用`sort`参数按成本、TTFT或TPS对AI模型提供商进行排序，优化服务选择。
— 第2段
⬇︎ 下载 PNG 𝕏 分享到 X
排序后，系统会根据指定指标自动选择最优的提供商，无需代码更改。
— 第3段
⬇︎ 下载 PNG 𝕏 分享到 X
排序功能与零数据保留等其他路由控制机制兼容，提升路由决策的灵活性。
— 第4段
⬇︎ 下载 PNG 𝕏 分享到 X

#AI Gateway#Vercel#模型提供商

打开原文

标题: 在 AI Gateway 上按成本、延迟或吞吐量对提供者进行排序 - Vercel

URL 源: https://vercel.com/changelog/sort-providers-by-cost-latency-or-throughput-on-ai-gateway

Markdown 内容: 2 分钟阅读

2026 年 5 月 15 日

你现在可以在 AI Gateway 中按成本、首次令牌时间（TTFT）或吞吐量（TPS）对模型背后的提供者进行排序。

默认的提供者顺序结合了提供者的可靠性、模型输出质量、成本和响应速度。现在你可以使用 sort 来明确控制排序标准。

对于拥有许多提供者且成本或速度有明显差异的模型，你可以使用 sort 来优化你选择的维度。排序是在请求时计算的，因此新添加的提供者、价格变化以及观察到的延迟或吞吐量的变化会自动生效，而无需任何代码更改。

在 providerOptions.gateway 上设置 sort 为以下三个值之一：

值描述方向何时使用 'cost' 按提供者的输入价格每百万个标记进行排序最低价格优先高流量、成本敏感的工作 'ttft' 按中位数首次令牌时间（以毫秒为单位）进行排序最低延迟优先对响应速度敏感的工作负载 'tps' 按中位数每秒令牌吞吐量进行排序最高优先长输出生成，其中总响应时间最重要

[链接到标题](https://vercel.com/changelog/sort-providers-by-cost-latency-or-throughput-on-ai-gateway#basic-usage)基本用法

使用 sort 来确保优化你选择的指标。

在这个例子中，AI Gateway 为 GPT OSS 120B 有超过五个提供者，价格各不相同，因此按成本排序是一个有用的选项，用于希望路由到最低价格提供者的请求。

提供者按照排序顺序进行尝试。只有当更高排名的提供者不可用时，才会回退到下一个提供者。

sort-cost

import { streamText } from 'ai';const result = streamText({ model: 'openai/gpt-oss-120b', prompt: 'Summarize this internal document.', providerOptions: { gateway: { sort: 'cost', // 首先使用成本最低的提供者 }, },});

按成本对 GPT OSS 120B 进行排序示例

[链接到标题](https://vercel.com/changelog/sort-providers-by-cost-latency-or-throughput-on-ai-gateway#combine-with-other-routing-controls)与其他路由控制结合使用

sort 与其他网关路由选项如零数据保留（ZDR）兼容。

下面的例子使用 deepseek/deepseek-v4-pro 处理一个交互式请求，其中延迟和数据保留很重要：AI Gateway 过滤出仅适用于 Deepseek V4 Pro 的提供者，这些提供者具有零数据保留，并按首次令牌时间（TTFT）对剩余提供者进行排序。

sort-zdr

import { streamText } from 'ai';const result = streamText({ model: 'deepseek/deepseek-v4-pro', prompt, providerOptions: { gateway: { zeroDataRetention: true, sort: 'ttft', // 在此集合中的 ZDR 兼容提供者中，首先尝试延迟最低的提供者 }, },});

DeepSeek V4 Pro 的 ZDR 过滤和 TTFT 排序示例

sort 也与 order 结合使用：在 order 中列出的提供者会被推到前面，其余提供者则遵循所请求的排序标准。

[链接到标题](https://vercel.com/changelog/sort-providers-by-cost-latency-or-throughput-on-ai-gateway#inspecting-routing-decisions)检查路由决策

查看每个请求为何被路由到特定位置。每个响应都包含一个 sort 块，在路由元数据中显示考虑的提供者、用于排序的指标值、尝试的顺序以及因健康状况下降而被降级的提供者。

sample-sort-metadata

{ "gateway": { "routing": { "sort": { "option": "cost", "executionOrder": ["novita", "groq", "fireworks", "baseten", "cerebras"], "metrics": { "novita": 0.10, "groq": 0.15, "cerebras": 0.20, "fireworks": 0.22, "baseten": 0.25 }, "deprioritizedProviders": ["cerebras"] } } }}

GPT OSS 120B 的执行顺序示例

如需了解如何通过 AI Gateway 进行排序，请阅读文档。

按成本、延迟或吞吐量对AI网关中的提供商进行排序

TL;DR · AI 摘要

核心要点

结构提纲

思维导图

金句 / Highlights

[链接到标题](https://vercel.com/changelog/sort-providers-by-cost-latency-or-throughput-on-ai-gateway#basic-usage)**基本用法**

[链接到标题](https://vercel.com/changelog/sort-providers-by-cost-latency-or-throughput-on-ai-gateway#combine-with-other-routing-controls)**与其他路由控制结合使用**

[链接到标题](https://vercel.com/changelog/sort-providers-by-cost-latency-or-throughput-on-ai-gateway#inspecting-routing-decisions)**检查路由决策**

[链接到标题](https://vercel.com/changelog/sort-providers-by-cost-latency-or-throughput-on-ai-gateway#basic-usage)基本用法

[链接到标题](https://vercel.com/changelog/sort-providers-by-cost-latency-or-throughput-on-ai-gateway#combine-with-other-routing-controls)与其他路由控制结合使用

[链接到标题](https://vercel.com/changelog/sort-providers-by-cost-latency-or-throughput-on-ai-gateway#inspecting-routing-decisions)检查路由决策