English
主导航

旧版 API

优先处理

通过灵活的定价在 API 中获得更快的处理速度。

与标准处理相比,优先处理可显著降低延迟并保持更高的一致性,同时保留按需付费的灵活性。

优先处理非常适合流量稳定且对延迟要求极高的高价值面向用户的应用。优先处理不应用于数据处理、评估或其他波动性极大的流量。

配置优先处理

发送至 Responses 或 Completions 端点的请求,可以通过请求参数或项目设置来配置使用优先处理。

要在请求级别启用优先处理,请在 Completions 或 Responses 中包含 service_tier=priority 参数。

创建使用优先处理的 response
1
2
3
4
5
6
7
8
9
10
from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5",
    input="What does 'fit check for my napalm era' mean?",
    service_tier="priority"
)
print(response)

要在项目级别启用,请导航至“设置”页面,在“项目”下选择“通用”标签,然后将“项目服务层级”更改为优先。一旦在项目上完成配置,未指定 service_tier 的请求将默认使用优先处理。请注意,该项目下的请求将逐步过渡到优先处理。

The service_tier 字段中使用 响应 or 补全 response 对象将包含用于处理该请求的服务层级。

速率限制与爬升速率

基线限制

在速率限制计算中,优先处理的消耗与标准处理同等对待。请使用您常规的重试和退避逻辑。对于给定模型,速率限制由标准处理和优先处理共享。

爬升速率限制

如果您的流量爬升过快,部分优先处理请求可能会被降级为标准处理,并按标准费率计费。如果超出爬升速率限制,响应将显示 service_tier=“default”。目前,如果您在 15 分钟内发送的流量达到 100 万 TPM 以上且 TPM 增幅超过 50%,则可能会触发爬升速率限制。

为避免触发爬升速率限制,我们建议:

  • 在更改模型或快照时逐步爬升
  • 使用功能开关在数小时内逐步切换流量,而不是瞬间切换。
  • 避免在优先处理中运行大型 ETL 或批处理任务

使用注意事项

  • 每个 token 的费用高于标准价格 - 请参阅 定价 for more information.
  • 优先处理请求仍会应用缓存折扣。
  • 优先处理同样适用于多模态/图像输入请求。
  • 在控制面板中使用“按服务层级分组”选项,可以查看由优先处理的请求。
  • 参阅 GitHub 上的 中找到 了解当前哪些模型支持优先处理。
  • 目前尚不支持长上下文、微调模型和嵌入。