Trace 评分 | OpenAI API

Trace 评分是为智能体的 trace（即包含决策、工具调用和推理步骤的端到端日志）分配结构化分数或标签的过程，旨在评估其正确性、质量或是否符合预期。这些标注有助于明确智能体在哪些方面表现良好，在哪些方面出现了错误，从而支持对编排逻辑或行为进行针对性的改进。

Trace 评估利用这些经过评分的 trace，在大量样本中系统化地评估智能体的表现，帮助对各项改动进行基准测试、识别性能退化或验证优化效果。与黑盒评估不同，Trace 评估提供了更丰富的数据，有助于深入理解智能体成功或失败的根因。

综合使用这两项功能，可以跟踪、分析和优化智能体群组的性能。

开始使用 trace

在控制台中，导航至 Logs > 轨迹.
选择一个工作流。您将看到您在以下位置创建的任何工作流的日志智能体构建器.
选择一个 trace 以检查您的工作流。
创建评分器，并运行它以根据评分器标准对智能体的性能进行评分。

Trace 评分是大规模进行错误识别的重要工具，这对于提升 AI 应用的健壮性至关重要。请在我们推荐的流程中了解更多详情，请访问我们的示例代码.

使用 runs 评估 trace

选择 全部评分。这将带你进入评估仪表板。
在评估控制台中，添加和编辑测试标准。
添加一个 run 以评估输出结果。您可以配置 run 选项，例如模型、日期范围和工具调用，从而在评估中获得更精确的筛选条件。

进一步了解如何使用 evals 此处.

推荐

入门

核心概念

Apps SDK

工具

运行与扩展

评估

实时与音频

模型优化

专业模型

正式上线

旧版 API

资源

入门指南

使用 Codex

配置

管理

自动化

学习

发布

核心概念

规划

构建

部署

转化应用

指南

资源

指南

文件上传

API

衡量

广告主 API

API 参考

最新

主题

主题

贡献

分类

主题

项目

活动

开始使用 trace

使用 runs 评估 trace