English
主导航

旧版 API

Trace 评分

通过可复现的评估对模型输出进行评分。

Trace 评分是为智能体的 trace(即包含决策、工具调用和推理步骤的端到端日志)分配结构化分数或标签的过程,旨在评估其正确性、质量或是否符合预期。这些标注有助于明确智能体在哪些方面表现良好,在哪些方面出现了错误,从而支持对编排逻辑或行为进行针对性的改进。

Trace 评估利用这些经过评分的 trace,在大量样本中系统化地评估智能体的表现,帮助对各项改动进行基准测试、识别性能退化或验证优化效果。与黑盒评估不同,Trace 评估提供了更丰富的数据,有助于深入理解智能体成功或失败的根因。

综合使用这两项功能,可以跟踪、分析和优化智能体群组的性能。

开始使用 trace

  1. 在控制台中,导航至 Logs > 轨迹.
  2. 选择一个工作流。您将看到您在以下位置创建的任何工作流的日志 智能体构建器.
  3. 选择一个 trace 以检查您的工作流。
  4. 创建评分器,并运行它以根据评分器标准对智能体的性能进行评分。

Trace 评分是大规模进行错误识别的重要工具,这对于提升 AI 应用的健壮性至关重要。请在我们推荐的流程中了解更多详情,请访问我们的 示例代码.

使用 runs 评估 trace

  1. 选择 全部评分。这将带你进入评估仪表板。
  2. 在评估控制台中,添加和编辑测试标准。
  3. 添加一个 run 以评估输出结果。您可以配置 run 选项,例如模型、日期范围和工具调用,从而在评估中获得更精确的筛选条件。

进一步了解如何使用 evals 此处.