实践中的可信 AI Agent

原文链接：https://www.anthropic.com/research/trustworthy-agents

AI "Agent"（智能体）代表了人们和组织使用 AI 方式的最新重大转变。几年前，AI 模型只是作为聊天机器人广泛使用——简单的问答机器。现在，通过 Claude Code 和 Claude Cowork 等产品，AI 模型可以做更多事情：它们可以编写和执行代码、管理文件，并完成跨多个应用程序的任务。这代表了治理的新前沿。

图片 1：AI Agent 演进示意图

Agent 已经为我们的客户和 Anthropic 内部带来了实际的生产力提升。但使 Agent 有用的自主性也带来了一系列新风险。Agent 在较少人工监督下行动，因此它们更容易误读用户意图并采取产生意外后果的行动。

去年 8 月，我们发布了构建可信 Agent 的框架，指导我们如何应对这种紧张关系。它建立在五个核心原则之上：

保持人类控制
与人类价值观保持一致
保护 Agent 的交互安全
维护透明度
保护隐私

01 | Agent 如何工作

我们将 Agent 定义为在完成任务时指导自己的流程和工具使用的 AI 模型——也就是说，自己决定如何实现用户想要的东西，而不是遵循固定脚本。

图片 2：Agent 工作流程图

一个实际例子

如果你在 Claude Cowork 中要求 Claude 提交出差收据，它会逐步规划步骤（转录每张照片、提取金额和供应商、对费用分类、通过公司系统提交），然后按顺序执行。

如果酒店费用因超过每晚上限而被标记，Claude 可能不仅会注意到提交失败，还会注意到它不知道上限是多少。因此它可能会暂停询问是否应该在重试之前从公司共享驱动器中提取费用政策。

Agent 的四个核心组件

图片 3：Agent 四层架构示意图

模型 (Model)：使任务成为可能的"智能"，是训练过程的产物。

框架 (Harness)：模型运行所依据的指令和护栏。

工具 (Tools)：模型可以使用的服务和应用程序。

环境 (Environment)：Agent 运行的地方及其数据访问权限。

关键洞察：Agent 的行为取决于所有四层的协同工作。训练良好的模型仍然可能通过配置不当的框架、过度宽松的工具或暴露的环境被利用。这就是为什么我们构建的保障措施需要考虑所有这些层面。

02 | 我们的原则实践

构建既有用又可信的 Agent 需要做出谨慎的产品决策。下面通过三个原则的例子来说明：

原则一：为人类控制而设计

Agent 的核心矛盾：为了有用，它们需要自主工作，但为了保持安全，人类仍然需要对它们的工作方式保持有意义的控制。

图片 4：权限配置界面截图

Plan Mode（计划模式）是我们的创新解决方案：Claude 不是逐个请求批准每个操作，而是预先向用户展示其预期的行动计划。用户可以在任何事情发生之前审查、编辑和批准整个计划——并且仍然可以在执行过程中的任何时候进行干预。

图片 5：Plan Mode 界面示例

我们还构建了一个权限系统，让用户可以预先批准某些类型的操作（如读取文件），要求对其他操作进行审查（如运行 shell 命令），或完全阻止某些操作。这让用户可以根据自己的风险承受能力和信任程度来定制 Agent 的自主性。

原则二：帮助 Agent 理解其目标

确保 Agent 以用户最希望的方式追求正确的目标，是 Agent 开发中较难解决的问题之一。

图片 6：Agent 决策平衡示意图

Agent 需要在两个极端之间找到平衡：

•过于频繁暂停：不断询问用户每个小决定，放弃大部分自主性

•最佳平衡：智能决策何时暂停，在关键决策点寻求确认

•很少暂停：在不确定时继续前进，可能误读用户真正意图

研究发现：在复杂任务上，用户打断 Claude 的频率仅略高于简单任务，但 Claude 自己的检查频率大约翻了一番。这显示了在决定何时行动和何时将决策交还给用户方面校准 Agent 的重要性。

原则三：防御攻击

提示词注入是隐藏在要求 Agent 处理的内容中的恶意指令。

图片 7：提示词注入攻击示意图

我们采用多层防御方法：

•模型层面：训练模型识别和抵抗提示词注入

•框架层面：在系统提示中明确指示模型忽略嵌入的指令

•工具层面：限制工具的权限和范围

•环境层面：在隔离环境中运行 Agent

重要提醒：即使多层保障措施加在一起也不是保证。我们鼓励客户仔细考虑向 Agent 提供哪些工具和数据、授予哪些权限、让 Agent 在哪些环境中运行。提示词注入说明了 Agent 安全性的普遍真理：它需要在每个级别进行防御。

03 | 更广泛的生态系统可以做什么

Agent 的安全性和可靠性不能由任何一家公司单独实现。

图片 8：生态系统协作示意图

行业协作的三个关键领域

基准测试：开发标准化的 Agent 能力和安全性评估方法，创建共享的测试套件和评估框架，建立行业认可的性能和安全标准。

证据共享：开放使用数据和经验教训，分享攻击模式和防御策略，建立事件报告和响应机制。

开放标准：制定统一的 Agent 协议和接口，推动互操作性和兼容性，促进生态系统的健康发展。

我们的承诺

Anthropic 致力于开放研究、行业合作、标准制定和透明沟通，与公众分享我们的进展和挑战。

结语

Agent 将重塑人们的工作方式，这是否发生在安全和开放的基础上取决于行业、民间社会和政府如何共同构建它。

图片 9：未来展望配图

关于 Anthropic：Anthropic 是一家 AI 安全公司，致力于构建可靠、可解释和可操控的 AI 系统。我们的旗舰产品 Claude 是一个 AI 助手，可以帮助用户完成各种任务，从编写代码到分析数据。

本文翻译自 Anthropic 官方博客原文链接：https://www.anthropic.com/research/trustworthy-agents