English
主导航

旧版 API

评估智能体工作流

使用轨迹、评分器、数据集和评估运行来提升智能体质量。

OpenAI 平台提供了一套评估工具,帮助您确保智能体的表现始终一致且准确。

请将此页面作为评估智能体工作流中最重要评估界面的决策参考。

在仍在调试行为时,请从轨迹开始

轨迹评分是识别工作流层面问题最快的方法。轨迹捕获了一次运行中关于模型调用、工具调用、安全护栏和移交的端到端记录。评分器允许您使用结构化标准对这些轨迹进行打分,从而能够大规模地发现性能退化和故障模式。

当您想要回答以下问题时,请使用轨迹评分:

  • 智能体是否选择了正确的工具?
  • 是否在应该移交的时候进行了移交?
  • 工作流是否违反了指令或安全策略?
  • 提示或路由的更改是否改善了端到端的行为?

轨迹评分工作流

  1. 打开 日志 > 轨迹 in the dashboard.
  2. 从 Agent Builder 或启用了追踪功能的基于 SDK 的应用中检查具有代表性的工作流轨迹。
  3. 创建一个评分器并针对所选轨迹运行它。
  4. 使用结果来优化提示、工具接口、路由逻辑或安全护栏。

对于代码优先的 SDK 工作流,请从以下内容开始 集成与可观测性 在正式确定评分器之前,获取高信号轨迹。

在需要可重复性时,转向使用数据集和评估运行

一旦您了解了什么是“好”的标准,就可以从单个轨迹转向可重复的数据集和评估运行。当您希望对更改进行基准测试、比较提示或随时间推移运行更大规模的评估时,这是正确的步骤。

如果您需要高级功能,例如针对外部模型进行评估、评估 API 或更大规模的批量评估,请将以下内容 评估 与数据集结合使用。

评估入门:数据集

使用评估来运作一个持续改进的飞轮。

使用评估

针对外部模型进行评估、通过 API 与评估进行交互等。

提示优化器

使用您的数据集自动改进您的提示。

指南:使用评估构建弹性提示

使用评估来运作一个持续改进的飞轮。