评估智能体工作流

OpenAI 平台提供了一套评估工具，帮助您确保智能体的表现始终一致且准确。

请将此页面作为评估智能体工作流中最重要评估界面的决策参考。

在仍在调试行为时，请从轨迹开始

轨迹评分是识别工作流层面问题最快的方法。轨迹捕获了一次运行中关于模型调用、工具调用、安全护栏和移交的端到端记录。评分器允许您使用结构化标准对这些轨迹进行打分，从而能够大规模地发现性能退化和故障模式。

当您想要回答以下问题时，请使用轨迹评分：

智能体是否选择了正确的工具？
是否在应该移交的时候进行了移交？
工作流是否违反了指令或安全策略？
提示或路由的更改是否改善了端到端的行为？

轨迹评分工作流

打开日志 > 轨迹 in the dashboard.
从 Agent Builder 或启用了追踪功能的基于 SDK 的应用中检查具有代表性的工作流轨迹。
创建一个评分器并针对所选轨迹运行它。
使用结果来优化提示、工具接口、路由逻辑或安全护栏。

对于代码优先的 SDK 工作流，请从以下内容开始集成与可观测性在正式确定评分器之前，获取高信号轨迹。

在需要可重复性时，转向使用数据集和评估运行

一旦您了解了什么是“好”的标准，就可以从单个轨迹转向可重复的数据集和评估运行。当您希望对更改进行基准测试、比较提示或随时间推移运行更大规模的评估时，这是正确的步骤。

如果您需要高级功能，例如针对外部模型进行评估、评估 API 或更大规模的批量评估，请将以下内容评估与数据集结合使用。

评估入门：数据集

使用评估来运作一个持续改进的飞轮。

使用评估

针对外部模型进行评估、通过 API 与评估进行交互等。

提示优化器

使用您的数据集自动改进您的提示。

指南：使用评估构建弹性提示

使用评估来运作一个持续改进的飞轮。

推荐

入门

核心概念

Apps SDK

工具

运行与扩展

评估

实时与音频

模型优化

专业模型

正式上线

旧版 API

资源

入门指南

使用 Codex

配置

管理

自动化

学习

发布

核心概念

规划

构建

部署

转化应用

指南

资源

指南

文件上传

API

衡量

广告主 API

API 参考

最新

主题

主题

贡献

分类

主题

项目

活动

在仍在调试行为时，请从轨迹开始

轨迹评分工作流

在需要可重复性时，转向使用数据集和评估运行

相关的评估界面