成本优化 | OpenAI API

在使用 OpenAI 模型时，有多种方法可以降低成本。成本和延迟通常是相互关联的；减少 token 和请求数量通常能加快处理速度。OpenAI 的 Batch API 和弹性处理是降低成本的额外途径。

成本与延迟

要降低延迟和成本，请考虑以下策略：

减少请求数量: 限制完成任务所需的请求次数。
最小化 token 数量: 减少输入 token 数量，并针对更短的模型输出进行优化。
选择更小的模型: 使用能够平衡降低成本与延迟且保持准确率的模型。

如需深入了解这些内容，请参阅我们的延迟优化.

Batch API

异步处理作业。Batch API 提供了一组简单的端点，允许您将一组请求收集到单个文件中，启动批处理作业来执行这些请求，在底层请求执行期间查询该批次的状态，并在批处理完成后最终检索汇总的结果。

开始使用 Batch API →

Flex 处理

以较慢的响应时间和偶尔的资源不可用为代价，换取 Chat Completions 或 Responses 请求的大幅降低成本。非常适合非生产或较低优先级的任务，例如模型评估、数据富集或异步工作负载。

开始使用弹性处理 →

推荐

入门

核心概念

Apps SDK

工具

运行与扩展

评估

实时与音频

模型优化

专业模型

正式上线

旧版 API

资源

入门指南

使用 Codex

配置

管理

自动化

学习

发布

核心概念

规划

构建

部署

转化应用

指南

资源

指南

文件上传

API

衡量

广告主 API

API 参考

最新

主题

主题

贡献

分类

主题

项目

活动

成本与延迟

Batch API

Flex 处理