文档索引

在此获取完整文档索引：https://code.claude.com/docs/llms.txt 使用此文件发现所有可用页面，然后再进一步探索。

有效管理成本

跟踪令牌使用情况，设置团队支出限制，并通过上下文管理、模型选择、扩展思考设置和预处理钩子降低 Claude Code 成本。

Claude Code 按 API 令牌消耗计费。有关订阅计划定价（Pro、Max、Team、Enterprise），请参阅 claude.com/pricing。每位开发者的成本因模型选择、代码库大小和使用模式（如运行多个实例或自动化）而有很大差异。

在企业部署中，平均成本约为每位活跃开发者每天 13 美元，每位开发者每月 150-250 美元，90% 的用户的成本保持在每个活跃日 30 美元以下。要估算您自己团队的支出，请从小型试点组开始，使用下面的跟踪工具建立基线，然后再进行更广泛的推广。

本页涵盖如何跟踪成本、管理团队成本和减少令牌使用。

跟踪成本

使用 `/usage` 命令

Note

/usage 中的会话块显示 API 令牌使用情况，面向 API 用户。Claude Max 和 Pro 订阅者的使用量包含在订阅中，因此会话费用数字与计费无关。订阅者在同一屏幕上看到计划使用情况条、活动统计和使用明细。

/usage 顶部的会话块显示当前会话的详细令牌使用统计。美元数字是根据令牌计数本地计算的估计值，可能与实际账单不同。有关权威计费信息，请参阅 Claude Console 中的使用情况页面。

Total cost:            $0.55
Total duration (API):  6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes:    0 lines added, 0 lines removed

在 Pro、Max、Team 或 Enterprise 计划上，/usage 还显示哪些内容计入计划限制的明细。它将最近的使用情况归因于技能、子智能体、插件和各个 MCP 服务器，每个显示为总数的百分比。按 d 或 w 在最近 24 小时和最近 7 天之间切换。数字是近似值，从此机器上的本地会话历史计算，因此不包括来自其他设备或 claude.ai 的使用情况。

管理团队成本

使用 Claude API 时，您可以在 Claude Code 工作区总支出上设置工作区支出限制。管理员可以在 Console 中查看成本和使用情况报告。

在 Pro 和 Max 计划上，您可以使用 /usage-credits 命令设置使用额度的每月支出限制。如果您在仍有可用使用额度时达到该限制，Claude Code 会提示您提高或移除限制，以便您可以继续使用而不离开 CLI。更改限制需要账户上的计费访问权限。

Note

当您首次使用 Claude Console 账户认证 Claude Code 时，系统会自动为您创建一个名为"Claude Code"的工作区。此工作区为组织中所有 Claude Code 使用情况提供集中的成本跟踪和管理。您无法为此工作区创建 API 密钥；它专门用于 Claude Code 认证和使用。

对于具有自定义速率限制的组织，此工作区中的 Claude Code 流量计入组织的整体 API 速率限制。您可以在 Claude Console 中此工作区的限制页面上设置工作区速率限制，以限制 Claude Code 的份额并保护其他生产工作负载。

在 Bedrock、Vertex 和 Foundry 上，Claude Code 不会从您的云发送指标。要获取成本指标，多家大型企业报告使用 LiteLLM，这是一个帮助公司按密钥跟踪支出的开源工具。该项目与 Anthropic 无关，且未经安全审计。

速率限制建议

为团队设置 Claude Code 时，请考虑以下基于组织规模的每用户每分钟令牌数 (TPM) 和每分钟请求数 (RPM) 建议：

团队规模	每用户 TPM	每用户 RPM
1-5 用户	200k-300k	5-7
5-20 用户	100k-150k	2.5-3.5
20-50 用户	50k-75k	1.25-1.75
50-100 用户	25k-35k	0.62-0.87
100-500 用户	15k-20k	0.37-0.47
500+ 用户	10k-15k	0.25-0.35

例如，如果您有 200 个用户，您可以为每个用户请求 20k TPM，总计 400 万 TPM（200*20,000 = 400 万）。

随着团队规模增长，每用户 TPM 会减少，因为在较大的组织中较少用户倾向于同时使用 Claude Code。这些速率限制在组织级别适用，而非每个单独用户，这意味着当其他人未积极使用服务时，单个用户可以暂时消耗超过其计算份额。

Note

如果您预计异常高并发使用的情况（如大型团队的现场培训课程），您可能需要更高的每用户 TPM 分配。

智能体团队令牌成本

智能体团队生成多个 Claude Code 实例，每个实例有自己的上下文窗口。令牌使用量与活跃队友数量和每个实例运行时间成正比。

要保持智能体团队成本可控：

为队友使用 Sonnet。它在协调任务中平衡了能力和成本。
保持团队小型。每个队友运行自己的上下文窗口，因此令牌使用量大致与团队规模成正比。
保持生成提示专注。队友自动加载 CLAUDE.md、MCP 服务器和技能，但生成提示中的所有内容从一开始就添加到它们的上下文中。
工作完成后清理团队。活跃的队友即使空闲也会继续消耗令牌。
智能体团队默认禁用。在您的 settings.json 或环境中设置 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 以启用。请参阅启用智能体团队。

减少令牌使用

令牌成本随上下文大小而增加：Claude 处理的上下文越多，您使用的令牌越多。Claude Code 通过提示缓存自动优化成本，减少重复内容（如系统提示）的成本，并在接近上下文限制时通过自动压缩来总结对话历史。

以下策略帮助您保持上下文较小并降低每消息成本。

主动管理上下文

使用 /usage 检查当前令牌使用情况，或配置状态行持续显示。

在任务之间清除：切换到不相关的工作时使用 /clear 重新开始。过时的上下文在每条后续消息上浪费令牌。清除前使用 /rename 以便稍后轻松找到会话，然后使用 /resume 返回。
添加自定义压缩指令：/compact Focus on code samples and API usage 告诉 Claude 在总结期间保留什么。

您还可以在 CLAUDE.md 中自定义压缩行为：

# Compact instructions

When you are using compact, please focus on test output and code changes

选择合适的模型

Sonnet 能很好地处理大多数编码任务，成本低于 Opus。将 Opus 保留用于复杂的架构决策或多步推理。使用 /model 在会话中切换模型，或在 /config 中设置默认值。对于简单的子智能体任务，在子智能体配置中指定 model: haiku。

减少 MCP 服务器开销

MCP 工具定义默认延迟加载，因此只有工具名称进入上下文，直到 Claude 使用特定工具。运行 /context 查看什么在消耗空间。

优先使用 CLI 工具：gh、aws、gcloud 和 sentry-cli 等工具仍然比 MCP 服务器更具上下文效率，因为它们不添加任何每工具列表。Claude 可以直接运行 CLI 命令。
禁用未使用的服务器：运行 /mcp 查看已配置的服务器并禁用您未积极使用的任何服务器。

为类型化语言安装代码智能插件

代码智能插件为 Claude 提供精确的符号导航而非基于文本的搜索，减少在探索不熟悉代码时不必要的文件读取。单次"转到定义"调用替代了可能需要 grep 然后读取多个候选文件的操作。安装的语言服务器还会在编辑后自动报告类型错误，因此 Claude 无需运行编译器就能捕获错误。

将处理卸载到钩子和技能

自定义钩子可以在 Claude 看到数据之前预处理数据。与其让 Claude 读取 10,000 行日志文件来查找错误，不如让钩子 grep ERROR 并仅返回匹配的行，将上下文从数万个令牌减少到数百个。

技能可以为 Claude 提供领域知识，使其不必探索。例如，"codebase-overview"技能可以描述您项目的架构、关键目录和命名约定。当 Claude 调用技能时，它立即获得此上下文，而无需花费令牌读取多个文件来理解结构。

例如，此 PreToolUse 钩子过滤测试输出以仅显示失败：

将此添加到您的 settings.json 以在每个 Bash 命令之前运行钩子：

{
  "hooks": {
    "PreToolUse": [
      {
        "matcher": "Bash",
        "hooks": [
          {
            "type": "command",
            "command": "~/.claude/hooks/filter-test-output.sh"
          }
        ]
      }
    ]
  }
}

钩子调用此脚本，该脚本检查命令是否是测试运行器并修改它以仅显示失败：

#!/bin/bash
input=$(cat)
cmd=$(echo "$input" | jq -r '.tool_input.command')

# If running tests, filter to show only failures
if [[ "$cmd" =~ ^(npm test|pytest|go test) ]]; then
  filtered_cmd="$cmd 2>&1 | grep -A 5 -E '(FAIL|ERROR|error:)' | head -100"
  echo "{\"hookSpecificOutput\":{\"hookEventName\":\"PreToolUse\",\"permissionDecision\":\"allow\",\"updatedInput\":{\"command\":\"$filtered_cmd\"}}}"
else
  echo "{}"
fi

将指令从 CLAUDE.md 移到技能

您的 CLAUDE.md 文件在会话开始时加载到上下文中。如果它包含特定工作流的详细指令（如 PR 审查或数据库迁移），即使您在做不相关的工作，这些令牌也会存在。技能仅在调用时按需加载，因此将专业指令移到技能中可以保持基础上下文更小。目标是将 CLAUDE.md 保持在 200 行以下，仅包含基本内容。

调整扩展思考

扩展思考默认启用，因为它显著提高了复杂规划和推理任务的性能。思考令牌按输出令牌计费，默认预算根据模型每请求可能达到数万个令牌。对于不需要深度推理的简单任务，您可以通过使用 /effort 或在 /model 中降低努力级别，在 /config 中禁用思考，或使用 MAX_THINKING_TOKENS=8000 降低预算来减少成本。

将冗长操作委托给子智能体

运行测试、获取文档或处理日志文件可能消耗大量上下文。将这些委托给子智能体，以便冗长输出保留在子智能体的上下文中，而只有摘要返回到您的主对话。

管理智能体团队成本

当队友在计划模式下运行时，智能体团队使用的令牌大约是标准会话的 7 倍，因为每个队友维护自己的上下文窗口并作为单独的 Claude 实例运行。保持团队任务小型且自包含以限制每队友的令牌使用量。请参阅智能体团队了解详情。

编写具体的提示

模糊的请求如"改进此代码库"会触发广泛的扫描。具体的请求如"在 auth.ts 中的登录函数添加输入验证"让 Claude 能高效工作，只需最少的文件读取。

在复杂任务上高效工作

对于更长或更复杂的工作，这些习惯有助于避免因走错方向而浪费令牌：

对复杂任务使用计划模式：在实现前按 Shift+Tab 进入计划模式。Claude 探索代码库并提出方法供您批准，防止初始方向错误时代价高昂的返工。
尽早纠正方向：如果 Claude 开始走错方向，按 Escape 立即停止。使用 /rewind 或双击 Escape 将对话和代码恢复到之前的检查点。
给出验证目标：在提示中包含测试用例、粘贴截图或定义预期输出。当 Claude 可以验证自己的工作时，它会在您请求修复之前发现问题。
增量测试：编写一个文件，测试它，然后继续。这可以在问题修复成本低时尽早发现。

后台令牌使用

Claude Code 即使在空闲时也会为某些后台功能使用令牌：

对话总结：为 claude --resume 功能总结之前对话的后台作业
命令处理：某些命令如 /usage 可能会生成检查状态的请求

这些后台进程即使没有活跃交互也会消耗少量令牌（通常每会话低于 0.04 美元）。

理解 Claude Code 行为的变化

Claude Code 定期接收更新，可能会改变功能的工作方式，包括成本报告。运行 claude --version 检查当前版本。有关具体计费问题，请通过您的 Console 账户联系 Anthropic 支持。

文档索引

有效管理成本

跟踪成本

使用 /usage 命令

管理团队成本

速率限制建议

智能体团队令牌成本

减少令牌使用

主动管理上下文

选择合适的模型

减少 MCP 服务器开销

为类型化语言安装代码智能插件

将处理卸载到钩子和技能

将指令从 CLAUDE.md 移到技能

调整扩展思考

将冗长操作委托给子智能体

管理智能体团队成本

编写具体的提示

在复杂任务上高效工作

后台令牌使用

理解 Claude Code 行为的变化

使用 `/usage` 命令