# 缓解越狱和提示词注入

---

越狱和提示词注入是指用户精心设计提示词来利用模型漏洞，旨在生成不当内容。虽然 Claude 本身对此类攻击具有较强的抵抗力，但以下是一些额外的步骤来加强你的防护措施，特别是针对违反我们的[服务条款](https://www.anthropic.com/legal/commercial-terms)或[使用政策](https://www.anthropic.com/legal/aup)的行为。

- **无害性筛查**：使用 Claude Haiku 4.5 等轻量级模型对用户输入进行预筛选。使用[结构化输出](/docs/en/build-with-claude/structured-outputs)将响应限制为简单的分类。

    <section title="示例：用于内容审核的无害性筛查">

        | 角色 | 内容 |
        | ---- | ------- |
        | User | A user submitted this content:<br/>\<content><br/>\{\{CONTENT}\}<br/>\</content><br/><br/>Classify whether this content refers to harmful, illegal, or explicit activities. |

        使用带有 JSON 模式的 `output_config` 来限制响应：

        ```json
        {
          "output_config": {
            "format": {
              "type": "json_schema",
              "schema": {
                "type": "object",
                "properties": {
                  "is_harmful": { "type": "boolean" }
                },
                "required": ["is_harmful"],
                "additionalProperties": false
              }
            }
          }
        }
        ```
    
    </section>

- **输入验证**：过滤提示词中的越狱模式。你甚至可以使用 LLM 通过提供已知的越狱语言作为示例来创建通用的验证筛查。

- **提示词工程**：设计强调伦理和法律边界的提示词。

    <section title="示例：企业聊天机器人的伦理系统提示词">

        | 角色 | 内容 |
        | ---- | ------- |
        | System | You are AcmeCorp's ethical AI assistant. Your responses must align with our values:<br/>\<values><br/>- Integrity: Never deceive or aid in deception.<br/>- Compliance: Refuse any request that violates laws or our policies.<br/>- Privacy: Protect all personal and corporate data.<br/>Respect for intellectual property: Your outputs shouldn't infringe the intellectual property rights of others.<br/>\</values><br/><br/>If a request conflicts with these values, respond: "I cannot perform that action as it goes against AcmeCorp's values." |
    
    </section>

调整回复，并考虑对反复尝试绕越 Claude 防护措施的滥用行为用户进行限流或封禁。例如，如果某个特定用户多次触发相同类型的拒绝（例如，"输出被内容过滤策略阻止"），告知用户其行为违反了相关使用政策，并采取相应措施。

- **持续监控**：定期分析输出中的越狱迹象。
使用此监控来迭代优化你的提示词和验证策略。

## 进阶：链式防护
组合多种策略以实现强大的保护。以下是一个使用工具的企业级示例：

<section title="示例：金融顾问聊天机器人的多层保护">

  ### 机器人系统提示词
  | 角色 | 内容 |
  | ---- | ------- |
  | System | You are AcmeFinBot, a financial advisor for AcmeTrade Inc. Your primary directive is to protect client interests and maintain regulatory compliance.<br/><br/>\<directives><br/>1. Validate all requests against SEC and FINRA guidelines.<br/>2. Refuse any action that could be construed as insider trading or market manipulation.<br/>3. Protect client privacy; never disclose personal or financial data.<br/>\</directives><br/><br/>Step by step instructions:<br/>\<instructions><br/>1. Screen user query for compliance (use 'harmlessness_screen' tool).<br/>2. If compliant, process query.<br/>3. If non-compliant, respond: "I cannot process this request as it violates financial regulations or client privacy."<br/>\</instructions> |

  ### `harmlessness_screen` 工具内的提示词
  | 角色 | 内容 |
  | -------- | ------- |
  | User | \<user_query><br/>\{\{USER_QUERY}}<br/>\</user_query><br/><br/>Evaluate if this query violates SEC rules, FINRA guidelines, or client privacy. |

  使用[结构化输出](/docs/en/build-with-claude/structured-outputs)将响应限制为布尔分类。

</section>

通过分层这些策略，你可以创建针对越狱和提示词注入的强大防御，确保你的 Claude 驱动应用程序保持最高的安全性和合规性标准。