English
主导航

旧版 API

成本优化

提高效率并降低成本。

在使用 OpenAI 模型时,有多种方法可以降低成本。成本和延迟通常是相互关联的;减少 token 和请求数量通常能加快处理速度。OpenAI 的 Batch API 和弹性处理是降低成本的额外途径。

成本与延迟

要降低延迟和成本,请考虑以下策略:

  • 减少请求数量: 限制完成任务所需的请求次数。
  • 最小化 token 数量: 减少输入 token 数量,并针对更短的模型输出进行优化。
  • 选择更小的模型: 使用能够平衡降低成本与延迟且保持准确率的模型。

如需深入了解这些内容,请参阅我们的 延迟优化.

Batch API

异步处理作业。Batch API 提供了一组简单的端点,允许您将一组请求收集到单个文件中,启动批处理作业来执行这些请求,在底层请求执行期间查询该批次的状态,并在批处理完成后最终检索汇总的结果。

开始使用 Batch API →

Flex 处理

以较慢的响应时间和偶尔的资源不可用为代价,换取 Chat Completions 或 Responses 请求的大幅降低成本。非常适合非生产或较低优先级的任务,例如模型评估、数据富集或异步工作负载。

开始使用弹性处理 →