优先处理 | OpenAI API

与标准处理相比，优先处理可显著降低延迟并保持更高的一致性，同时保留按需付费的灵活性。

优先处理非常适合流量稳定且对延迟要求极高的高价值面向用户的应用。优先处理不应用于数据处理、评估或其他波动性极大的流量。

配置优先处理

发送至 Responses 或 Completions 端点的请求，可以通过请求参数或项目设置来配置使用优先处理。

要在请求级别启用优先处理，请在 Completions 或 Responses 中包含 service_tier=priority 参数。

创建使用优先处理的 response

python

1
2
3
4
5
curl https://api.openai.com/v1/responses   -H "Authorization: Bearer $OPENAI_API_KEY"   -H "Content-Type: application/json"   -d '{
    "model": "gpt-5",
    "input": "What does 'fit check for my napalm era' mean?",
    "service_tier": "priority"
  }'

1
2
3
4
5
6
7
8
9
10
11
import OpenAI from "openai";

const openai = new OpenAI();

const response = await openai.responses.create({
  model: "gpt-5",
  input: "What does 'fit check for my napalm era' mean?",
  service_tier: "priority"
});

console.log(response);

1
2
3
4
5
6
7
8
9
10
from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5",
    input="What does 'fit check for my napalm era' mean?",
    service_tier="priority"
)
print(response)

要在项目级别启用，请导航至“设置”页面，在“项目”下选择“通用”标签，然后将“项目服务层级”更改为优先。一旦在项目上完成配置，未指定 service_tier 的请求将默认使用优先处理。请注意，该项目下的请求将逐步过渡到优先处理。

The service_tier 字段中使用响应 or 补全 response 对象将包含用于处理该请求的服务层级。

速率限制与爬升速率

基线限制

在速率限制计算中，优先处理的消耗与标准处理同等对待。请使用您常规的重试和退避逻辑。对于给定模型，速率限制由标准处理和优先处理共享。

爬升速率限制

如果您的流量爬升过快，部分优先处理请求可能会被降级为标准处理，并按标准费率计费。如果超出爬升速率限制，响应将显示 service_tier=“default”。目前，如果您在 15 分钟内发送的流量达到 100 万 TPM 以上且 TPM 增幅超过 50%，则可能会触发爬升速率限制。

为避免触发爬升速率限制，我们建议：

在更改模型或快照时逐步爬升
使用功能开关在数小时内逐步切换流量，而不是瞬间切换。
避免在优先处理中运行大型 ETL 或批处理任务

使用注意事项

每个 token 的费用高于标准价格 - 请参阅定价 for more information.
优先处理请求仍会应用缓存折扣。
优先处理同样适用于多模态/图像输入请求。
在控制面板中使用“按服务层级分组”选项，可以查看由优先处理的请求。
参阅 GitHub 上的中找到了解当前哪些模型支持优先处理。
目前尚不支持长上下文、微调模型和嵌入。

推荐

入门

核心概念

Apps SDK

工具

运行与扩展

评估

实时与音频

模型优化

专业模型

正式上线

旧版 API

资源

入门指南

使用 Codex

配置

管理

自动化

学习

发布

核心概念

规划

构建

部署

转化应用

指南

资源

指南

文件上传

API

衡量

广告主 API

API 参考

最新

主题

主题

贡献

分类

主题

项目

活动

配置优先处理

速率限制与爬升速率

使用注意事项