OpenClaw、Hermes背后:智能体时代的攻防规则正在改变-夜雨聆风

OpenClaw、Hermes背后:智能体时代的攻防规则正在改变

点击蓝字关注我们

引言：一场悄然发生的范式革命

2026年的网络安全圈，有一个问题正在被越来越多的从业者反复追问：我们真正害怕的，是AI说错了什么，还是AI做错了什么？

这个区分，看似细微，实则天壤之别。

过去几年，ChatGPT、Claude等大型语言模型以其惊人的文本生成能力席卷全球，引发了一轮又一轮关于数据隐私、内容真实性和算法偏见的激烈讨论。安全研究者、监管机构、伦理学家纷纷聚焦于模型的”输出”——它说了什么、生成了什么、预测了什么。这些担忧并非多余，但它们共享着一个隐含的前提：无论AI如何输出，最终采取行动的，仍然是人类自己。

然而，这个前提正在被悄悄打破。

近期，OpenClaw、Hermes等工程化智能体平台深刻揭示了一个正在重塑安全格局的根本变化：当AI从”内容生成者”进化为”行动执行者”，风险的性质就已经发生了根本性的转变。

一、从”说”到”做”：风险重心的历史性转向

大模型时代的安全焦虑：一种”输出中心”的世界观

大模型应用的第一阶段，安全讨论基本围绕内容层面展开。训练数据是否侵犯版权？生成内容是否存在偏见？虚假信息如何识别与遏制？这些问题固然重要，但它们都有一个共同特征：AI的影响，止步于信息输出的边界。

在这一框架下，法律和监管的逻辑相对清晰：规范训练数据的使用，要求输出的准确性与公平性，建立内容审核机制，强化透明度与可解释性。欧盟《人工智能法》（AI Act）、美国总统行政令以及各国出台的AI伦理指南，大多沿着这一思路构建规制体系。

这套框架有其历史合理性，但它预设的世界，正在被新一代AI系统打破。

智能体时代的现实威胁：行动执行的幽灵

根据开放式Web应用程序安全项目（OWASP）的定义，智能体（Agent）不只是”会说话的模型”，更是”能行动的系统”。它具备四项核心能力：

推理与规划——根据目标自动分解任务、制定执行路径；
工具调用——直接操作文件系统、浏览器、API接口；
记忆维持——跨会话保存上下文和状态信息；
自主执行——在预设条件下持续运行，无需人工干预。

这四项能力的组合，意味着智能体已经跨越了传统AI的”建议者”角色，成为真正的”执行者”。

在智能体场景中，从”接收指令”到”产生后果”之间，可能不再存在人类决策的缓冲地带。这正是行动风险之所以比输出风险更令人警惕的根本原因。

二、解剖”危险基因”：行动风险是如何产生的

要有效治理智能体，首先必须理解行动风险的生成机制。智能体区别于传统大模型的四大结构性特征。

工具调用机制：从文本到操作的关键一跃

传统大模型的输出仅限于文本。即便模型”认为”应该删除某个文件，它也只能生成”建议删除文件X”的文字，具体操作由用户决定。智能体则打通了这一环节——当模型推理后认为需要执行某项操作，它会生成工具调用请求，系统根据预设策略决定是否准许，一旦准许，操作即刻执行。

这一机制覆盖的工具类型极为广泛：文件的读写删移、Shell命令执行、HTTP请求与API调用、邮件与即时消息发送、远程服务器与数据库操作……只要工具已被配置并允许调用，模型的输出就不再停留于语义层面，而会直接进入执行层面。

工具调用机制，是行动风险的第一道闸门：它将”想法”转化为”行动”。

控制平面：权限的真正掌控者

一个普遍的误解是，智能体的”大脑”（即基础模型）决定了系统的行为。实际上，真正决定智能体能做什么的，是系统外层的控制平面。

OpenClaw的架构文档揭示了这一关键事实：网关（Gateway）作为”控制平面和策略表面”，决定哪些用户可以触发哪些操作；每次运行时，系统提示词都会被重新构建，工具清单、工作区位置、时间戳等信息动态注入——模型面对的”世界”并非其内在的固有认知，而是部署层每次调用时拼装出来的”可见世界”。

智能体的危险性不取决于模型本身有多”聪明”或多”恶意”，而取决于部署者赋予了它什么样的权限结构。行动风险的关键不在于模型”想做什么”，而在于部署者”允许它做什么”。

会话隔离：多租户环境的暗礁

在多用户环境中，会话隔离决定了不同用户的操作是否会相互影响。OpenClaw提供了两种隔离模式：默认的”主会话模式”（所有私人消息共享同一会话）和官方推荐的”按渠道和发送者隔离”模式。

安全文档明确警告：若存在多人向同一智能体发送私人消息的情形，必须启用隔离模式，且不得将共享私人消息与宽泛的工具权限同时配置。这警告的背后，是一个深刻的安全原理：隔离失效等同于权限泄露。

在实际场景中，智能体可能接收来自邮件、网页、附件的内容。若这些内容嵌入了提示词注入攻击（Prompt Injection），智能体可能在不知情的情况下执行恶意操作。会话隔离，是防止此类攻击横向扩散的关键防线。

权限配置：风险强度的最终刻度

OpenClaw提供了精细的权限控制机制：工具允许清单与禁止清单（禁止规则始终优先）、预设的权限配置档（从”仅消息发送”到”完整执行能力”）、以及对高风险操作的执行审批机制。

这些机制共同揭示了一个关键事实：智能体的危险程度是可配置的。同一个基础模型，被赋予完整文件系统访问和命令执行权限的配置，其风险远高于仅允许发送消息的配置。

OpenClaw的加固基线建议一语中的：安全的核心，不是让模型”更善良”，而是让部署者”更审慎”。

三、新一代智能体的能力跃迁：Hermes带来的新警示

如果说OpenClaw展示的是当下智能体的现实威胁，那么2026年2月Nous Research发布的开源智能体Hermes（爱马仕），则让我们得以窥见这一技术的演化方向。

Hermes带来了四项令人瞩目的新能力：

持久跨会话记忆（在会话间自动保存和提取关键知识）；
子智能体派生（主智能体可派生独立子智能体并行处理多线任务）；
自主技能创建（自动撰写可复用的”技能”文档）；
完整桌面自动化（支持浏览器的完整自动化操作和沙箱化代码执行）。

这些新能力带来了新的风险形态：权限可能沿调用链传播至下游执行点（权限传染）；被注入的恶意内容可能长期保存在记忆中影响后续决策（记忆污染）；部署者初始授权的能力边界可能在运行中被智能体自身突破（能力扩张）；桌面和浏览器自动化可能绕开传统的工具策略审批机制（策略绕过）。

然而，这些新风险并未改变治理的本质逻辑：决定行动风险强度的，依然是部署层是否在新的能力维度上同步重建了权限边界。

四、现有规制框架的结构性困境

面对智能体带来的新挑战，以欧盟AI Act为代表的现行框架，是否足以应对？

AI Act的规制逻辑及其盲区

AI Act的核心假设是：风险可以围绕相对清晰的技术对象（模型或系统）被事先识别，在某一固定时点被评估，并由预先界定的主体承担责任。

然而，智能体的风险并不符合这一假设。它不是在模型训练完成时就固定下来的，而是在接入工具、获得权限、进入具体运行环境并持续执行任务的过程中，逐步形成和放大的。

一个简洁的例证可以说明问题：假设两个部署者采用同一基础模型——部署者A将智能体限制在沙箱环境中，仅允许读取公开文档，所有操作需人工审批；部署者B则将其部署在生产服务器上，授予文件删除、数据库操作和外部API调用权限，且无需审批。两者风险悬殊，但使用的是完全相同的基础模型。AI Act的模型中心规制，无法充分捕捉这种差异。

“对齐”不是万能药

许多人认为，只要模型”对齐”做得足够好，智能体就不会做出危险行为。这一观点低估了对齐机制的脆弱性。

大量研究表明，弱模型到强模型的越狱攻击、对齐坍塌、提示词注入等技术手段，均可在不同程度上绕过对齐机制。更重要的是，即便暂时搁置这些技术脆弱性，智能体的现实风险仍主要取决于部署层赋予的能力，而非模型内部的”道德水平”。

结论不容回避：对齐是必要的，但不足以替代部署治理。

监测机制的时间错配

AI Act的许多义务围绕”上市前分类”、”技术文档”和”周期性报告”展开。这种”定点快照”式的监测逻辑，难以适应智能体的动态风险——权限配置的逐步放宽、会话隔离的意外失效、第三方插件的引入、定时任务的累积效应……这些运行时的动态变化，一次性的静态分类和间歇性的文档审查根本无法捕捉。

五、治理范式的重构：以”权限边界”为核心

既然模型中心规制存在结构性局限，更合理的规制对象是什么？

应将”权限边界”作为智能体治理的核心。

权限边界是指由系统架构实际设定的、智能体所能接触和触发的行动范围，至少涵盖五个维度：可调用的工具集合、可访问的数据范围、命令实际落地的执行宿主、能够持续影响系统状态的自动化能力，以及插件和扩展所形成的供应链边界。

相比”模型能力”这一抽象概念，”权限边界”具有三大优势：

可观测性——权限边界是部署层的显性配置项，可以通过配置文件、审计日志直接查验，而无需对模型内部进行黑盒评估；可操作性——权限边界可以通过工程手段明确限定，便于形成具体、可执行的合规标准；因果接近性——权限边界直接决定了智能体能够造成的损害范围，是最接近风险源头的控制节点。

六、以部署者为中心的义务体系

一旦权限边界成为核心规制对象，义务的承担者自然就是部署者。因为正是部署者决定了采用何种模型、加载哪些工具、开启哪些网络出口、是否允许写操作、是否启用沙箱与审批，以及是否安装第三方插件。

以部署者为中心的义务体系，核心包括以下六个方面：

1) 能力清单义务，部署者应在系统上线前形成对智能体能力边界的清晰列示，将抽象的”适当技术与组织措施”转化为可审查对象；

2) 最小权限与默认隔离，应通过工具配置档、允许/禁止清单实现工程化的权限管控，并将这些技术措施转化为法律上的强制性要求；

3) 宿主隔离与插件审查，智能体应优先在沙箱或容器中运行，插件须来自可信来源、经过安全审计、遵循版本锁定；

4) 人类审批机制，涉及对外发送、数据导出、删除操作、宿主机命令执行、控制平面修改、持续性定时任务和跨会话委派等操作，均应设置不可跳过的人工审批节点；

5) 日志与审计，完整保存对话记录、工具调用明细、权限配置快照、隔离配置、执行环境、审批记录以及配置变更历史；

6) 定期安全审计，至少每季度开展一次，重点检查权限配置是否符合最小权限原则、审计日志是否完整、第三方插件是否存在漏洞。

七、责任制度的重构：谁掌握权限，谁承担责任

当风险控制的关键节点从模型内部转向部署边界，责任法的重心也应随之调整。

比利时学者Herbosch的研究指出，AI智能体并不需要一套完全脱离既有法理的新型责任法，现有侵权法和产品责任法仍具备处理这类问题的基本工具。关键在于识别不同层次的责任主体：

基础模型提供者对模型本身的设计缺陷、训练缺陷和信息披露不足负责；系统提供者（如OpenClaw、Hermes等框架开发者）对框架本身的架构缺陷、默认配置不当、文档误导负责；部署者对权限配置、工具接入、隔离设计、持续监督等部署决策承担主要责任；第三方工具供应者在损害源于其插件缺陷且部署者已尽合理审查义务的情形下承担相应责任。

在此框架下，过错判断的核心维度应从”模型有无缺陷”转向”部署方式是否审慎”：是否制定了能力清单、是否遵循最小权限原则、是否实施了会话隔离、是否对高风险操作设置审批机制、是否保留完整审计日志……这些本应成为判断部署者是否尽到合理注意义务的基本坐标。

在证据规则层面，智能体案件的关键证据，不再是传统的”聊天记录”，而应是围绕行动权限展开的”审计资料包”——包含工具调用明细及其参数、当时实际生效的权限策略、命令执行的宿主环境、审批记录、关键配置变更历史以及插件的版本和来源信息。只有将这些材料纳入事实查明范围，才能真正回答那个最核心的问题：损害究竟源于模型的偶发性失误，还是源于部署者事先放宽了本不应放宽的边界？

八、对企业和个人的实践建议

理论框架的价值，最终体现在实践指导上。

对企业而言，建议分五步推进智能体安全合规：

第一步开展资产盘点，识别所有具备自动调用工具、持续运行或跨会话记忆能力的系统；
第二步建立能力清单和风险分级，从数据敏感度、操作风险、运行环境隔离程度、用户范围、审批机制五个维度综合评估；
第三步实施技术加固，将高风险系统收缩至”消息型配置档”，启用隔离模式，在沙箱中运行，最小化第三方插件；
第四步建立审批与监控机制，对敏感操作设置审批流程，部署实时告警系统；
第五步定期开展安全审计，将其纳入常态化安全管理体系。

对个人用户而言，虽无法控制底层配置，但仍可通过谨慎授权（仔细审查权限请求）、隔离敏感数据（不在智能体可访问目录中存放关键文件）、审查对话历史、限制持续性任务、保持软件更新等方式，有效降低风险暴露面。

对监管机构而言，建议在完善立法（明确部署者核心义务和法律责任）的同时，建立分级监管体系，推动行业安全配置标准化，并强化执法威慑效应，要求高风险智能体公开其能力清单和权限配置。

结语：从内容合规走向系统工程合规

智能体的出现，并没有创造一个神秘的新主体，而是揭示了一个长期被忽视的事实：在数字系统中，真正决定行为后果的，往往不是”认知单元”本身，而是围绕它搭建的权限结构。

大模型时代的讨论之所以在智能体时代显得不够用，是因为模型不再是唯一重要的对象。只要控制平面仍掌握在部署层，工具调用、会话隔离、宿主执行、自动调度和插件信任仍主要由部署者决定，风险控制与责任判断就不能停留在模型层面。

在这一框架下，部署者成为首要合规义务人并非苛责，而是与控制权相对应的制度安排。最小权限、默认隔离、宿主隔离、插件审查、高危审批与日志保留，不只是运营建议，而应成为判断部署者是否尽到合理注意义务的基本坐标。

从OpenClaw到Hermes，智能体的能力边界仍在快速扩展。但无论技术如何演进，治理的核心逻辑不会改变：谁掌握权限，谁就应当承担责任；边界在哪里，监督就应当落在哪里。

从输出风险到行动风险，这不仅是一次技术范式的转移，更是一次治理思维的革命。唯有当规范对象、责任主体和证据规则同时完成这一转向，人工智能治理才可能从”内容合规”真正走向”系统工程合规”——这不只是技术问题，更是法律、伦理与社会治理的共同课题。

让我们以更开放的心态、更严谨的态度、更务实的方法，共同迎接这个充满挑战与机遇的新时代。

相关阅读

重磅发布|安全牛《AI生成内容安全及风险管理技术应用指南》

AI 颠覆安全范式：传统厂商的困境、根源与破局之道

当AI开始”接管”网络安全：AI 网安能力 4 个月翻倍！2026，攻防格局正在被改写

联系我们

合作电话：18610811242

合作微信：aqniu001

联系邮箱：bd@aqniu.com