在使用 OpenAI 模型时,有多种方法可以降低成本。成本和延迟通常是相互关联的;减少 token 和请求数量通常能加快处理速度。OpenAI 的 Batch API 和弹性处理是降低成本的额外途径。
成本与延迟
要降低延迟和成本,请考虑以下策略:
- 减少请求数量: 限制完成任务所需的请求次数。
- 最小化 token 数量: 减少输入 token 数量,并针对更短的模型输出进行优化。
- 选择更小的模型: 使用能够平衡降低成本与延迟且保持准确率的模型。
如需深入了解这些内容,请参阅我们的 延迟优化.
Batch API
异步处理作业。Batch API 提供了一组简单的端点,允许您将一组请求收集到单个文件中,启动批处理作业来执行这些请求,在底层请求执行期间查询该批次的状态,并在批处理完成后最终检索汇总的结果。
Flex 处理
以较慢的响应时间和偶尔的资源不可用为代价,换取 Chat Completions 或 Responses 请求的大幅降低成本。非常适合非生产或较低优先级的任务,例如模型评估、数据富集或异步工作负载。