T
traeai
登录
返回首页
Vercel News

按成本、延迟或吞吐量对AI网关中的提供商进行排序

8.5Score

TL;DR · AI 摘要

Vercel AI Gateway现在支持按成本、延迟或吞吐量对模型提供商进行排序,帮助开发者更高效地选择服务。

核心要点

  • 开发者可以使用`sort`参数按成本、TTFT或TPS对AI模型提供商进行排序。
  • 排序后,系统会根据指定指标自动选择最优的提供商,无需代码更改。
  • 排序功能与零数据保留等其他路由控制机制兼容,提升路由决策的灵活性。

结构提纲

按章节快速跳转。

  1. Vercel AI Gateway新增排序功能,支持按成本、延迟或吞吐量对模型提供商进行排序。

  2. 通过`sort`参数设置排序维度,系统在请求时动态计算并选择最优提供商。

  3. 适用于高成本敏感、低延迟或高吞吐量需求的工作负载,提升服务选择效率。

  4. 支持与零数据保留等路由控制机制结合使用,增强路由策略的灵活性。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • AI Gateway 排序功能
    • 核心机制
      • 排序参数设置
      • 动态计算与选择
    • 使用场景
      • 成本敏感型工作
      • 低延迟需求
      • 高吞吐量需求
    • 功能集成
      • 零数据保留
      • 路由策略优化

金句 / Highlights

值得收藏与分享的关键句。

  • 开发者可以使用`sort`参数按成本、TTFT或TPS对AI模型提供商进行排序,优化服务选择。

    第2段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 排序后,系统会根据指定指标自动选择最优的提供商,无需代码更改。

    第3段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 排序功能与零数据保留等其他路由控制机制兼容,提升路由决策的灵活性。

    第4段

    ⬇︎ 下载 PNG𝕏 分享到 X
#AI Gateway#Vercel#模型提供商
打开原文

标题: 在 AI Gateway 上按成本、延迟或吞吐量对提供者进行排序 - Vercel

URL 源: https://vercel.com/changelog/sort-providers-by-cost-latency-or-throughput-on-ai-gateway

Markdown 内容: 2 分钟阅读

2026 年 5 月 15 日

你现在可以在 AI Gateway 中按成本、首次令牌时间(TTFT)或吞吐量(TPS)对模型背后的提供者进行排序。

默认的提供者顺序结合了提供者的可靠性、模型输出质量、成本和响应速度。现在你可以使用 sort 来明确控制排序标准。

对于拥有许多提供者且成本或速度有明显差异的模型,你可以使用 sort 来优化你选择的维度。排序是在请求时计算的,因此新添加的提供者、价格变化以及观察到的延迟或吞吐量的变化会自动生效,而无需任何代码更改。

providerOptions.gateway 上设置 sort 为以下三个值之一:

描述方向何时使用 'cost' 按提供者的输入价格每百万个标记进行排序 最低价格优先 高流量、成本敏感的工作 'ttft' 按中位数首次令牌时间(以毫秒为单位)进行排序 最低延迟优先 对响应速度敏感的工作负载 'tps' 按中位数每秒令牌吞吐量进行排序 最高优先 长输出生成,其中总响应时间最重要

[链接到标题](https://vercel.com/changelog/sort-providers-by-cost-latency-or-throughput-on-ai-gateway#basic-usage)**基本用法**

使用 sort 来确保优化你选择的指标。

在这个例子中,AI Gateway 为 GPT OSS 120B 有超过五个提供者,价格各不相同,因此按成本排序是一个有用的选项,用于希望路由到最低价格提供者的请求。

提供者按照排序顺序进行尝试。只有当更高排名的提供者不可用时,才会回退到下一个提供者。

sort-cost

import { streamText } from 'ai';const result = streamText({ model: 'openai/gpt-oss-120b', prompt: 'Summarize this internal document.', providerOptions: { gateway: { sort: 'cost', // 首先使用成本最低的提供者 }, },});

按成本对 GPT OSS 120B 进行排序示例

[链接到标题](https://vercel.com/changelog/sort-providers-by-cost-latency-or-throughput-on-ai-gateway#combine-with-other-routing-controls)**与其他路由控制结合使用**

sort 与其他网关路由选项如零数据保留(ZDR)兼容。

下面的例子使用 deepseek/deepseek-v4-pro 处理一个交互式请求,其中延迟和数据保留很重要:AI Gateway 过滤出仅适用于 Deepseek V4 Pro 的提供者,这些提供者具有零数据保留,并按首次令牌时间(TTFT)对剩余提供者进行排序。

sort-zdr

import { streamText } from 'ai';const result = streamText({ model: 'deepseek/deepseek-v4-pro', prompt, providerOptions: { gateway: { zeroDataRetention: true, sort: 'ttft', // 在此集合中的 ZDR 兼容提供者中,首先尝试延迟最低的提供者 }, },});

DeepSeek V4 Pro 的 ZDR 过滤和 TTFT 排序示例

sort 也与 order 结合使用:在 order 中列出的提供者会被推到前面,其余提供者则遵循所请求的排序标准。

[链接到标题](https://vercel.com/changelog/sort-providers-by-cost-latency-or-throughput-on-ai-gateway#inspecting-routing-decisions)**检查路由决策**

查看每个请求为何被路由到特定位置。每个响应都包含一个 sort 块,在路由元数据中显示考虑的提供者、用于排序的指标值、尝试的顺序以及因健康状况下降而被降级的提供者。

sample-sort-metadata

{ "gateway": { "routing": { "sort": { "option": "cost", "executionOrder": ["novita", "groq", "fireworks", "baseten", "cerebras"], "metrics": { "novita": 0.10, "groq": 0.15, "cerebras": 0.20, "fireworks": 0.22, "baseten": 0.25 }, "deprioritizedProviders": ["cerebras"] } } }}

GPT OSS 120B 的执行顺序示例

如需了解如何通过 AI Gateway 进行排序,请阅读文档

AI 可能会生成不准确的信息,请核实重要内容