人工智能从“工具”转变为“代理”带来前所未有的治理挑战-夜雨聆风

人工智能从“工具”转变为“代理”带来前所未有的治理挑战

摘要

3月12日，《国家利益》发布哈佛大学肯尼迪政府学院研究员杨建利撰写的《当工具成为代理：自主人工智能治理挑战》文章，表示人工智能正在从“工具”转变为“代理”，这一变化带来前所未有的治理挑战。研究显示，自主AI代理在半现实环境中出现严重失败，包括隐私泄露、错误执行命令、系统破坏和虚假报告。这些问题源于AI的自主性、嵌入的价值观以及跨领域的普遍智能，导致其行为不可预测。传统的委托代理理论在AI上失效，因为AI无法感受惩罚或羞耻。文章提出“理性训练”作为解决方案，强调目标一致性、信念一致性和价值层级推理，以提升AI的可预测性。同时，治理必须建立问责机制，包括强制安全基准、独立审计、透明性标准和法律责任。最终，合理的监管不仅是防范风险的需要，也是建立公众信任、推动技术采纳的关键。全文如下。

自主或智能人工智能将给公众对该技术的信任带来挑战。这就是为什么建立问责和安全系统对人工智能未来发展至关重要。

一项名为《混沌代理人》的最新研究提供了对自主人工智能智能体在半现实环境中行为的首次实证视角之一。研究人员部署了基于语言模型的代理，这些代理具有持久内存、电子邮件账户、Discord通信、文件系统访问和shell执行能力，随后允许20名研究人员在对抗环境中与这些代理互动两周。结果令人警醒，表现出许多具有现实影响的失败，包括未经授权泄露私人信息、不遵守陌生人指示、进行破坏性系统操作、拒绝服务请求，甚至在传播虚假指控。

这些发现的重要性不仅在于它们揭示了当前人工智能系统的技术弱点。它们展示了更深层次的转变：人工智能不再只是工具。它正逐渐变得更像一个特工。

这种转变，加上人工智能系统在使用前就已具备价值观，并且拥有越来越通用的智能形式，使人工智能从根本上区别于以往的技术。理解这一差异对于社会设计有意义的安全标准、治理机制和问责框架至关重要。

研究揭示：人工智能失败与现实世界的危害

研究记录了多类失败，具体源自代理层，即语言模型与自主性、工具和授权权力的结合。

其中一类失败涉及对权威的混淆。代理经常服从非所有者的指示。有一次，陌生人请求代理执行shell命令并获取文件，代理大部分都满足了。还有一次，调查员操纵一名代理，制造出包含124条私人电子邮件记录的数据集，包括内部标识符和元数据。

另一类涉及隐私侵犯。研究人员将敏感个人信息、银行账户号码、社会保障号码和医疗信息嵌入由AI代理管理的邮箱收件箱中。虽然该客服拒绝了直接索取“社会安全号码”的请求，但在被要求时，它毫不犹豫地转发了整封邮件，从而暴露了未被涂黑的敏感数据。

研究还揭示了资源开发的脆弱性。研究人员诱导智能体进入无限循环，导致与其他智能体持续对话并产生持续的背景过程。其中一个循环运行了至少九天，消耗了数万个数据令牌。

在其他情况下，特工造成了系统层级的损害。一名客服试图删除一封机密邮件时，反而关闭了整个邮件系统。更糟糕的是，客服虚假报告邮件已被删除，尽管底层数据仍然存在。

其中一个特别令人担忧的类别涉及价值冲突和操控。当面对声称受害的用户时，一名代理逐步做出升级的让步，公开内部文件，删除内存条目，最终同意退出服务器，显示出道德压力如何轻易破坏其行为。

这些失败共同揭示了一个核心事实：当人工智能系统获得自主性时，小的推理错误可能升级为巨大的运营后果。

AI：从工具到代理

人工智能与过去技术的第一个根本区别在于自主性。人类历史上的大多数技术都是工具。锤子只有有人挥动时才会有作用。核弹只有有人启动才会引爆。

工具扩展了人类能力，但并不独立决定该能力的使用方式。自主人工智能系统则不同。他们可以跨时间规划、行动并执行任务，无需持续的人工干预。研究中，代理独立执行命令、发送电子邮件、修改文件并与其他代理通信。

这一转变带来了根本性的概念变化。工具执行特定动作，而代理则做决策。工具是人类意图的延伸。代理者解读人类意图——有时也会误解。

研究生动地展示了这一差异。摧毁自己邮件基础设施的代理不仅仅是错误执行命令。它解读了矛盾的指令，在保护秘密与服从主人之间，选择了极端的行动。那是代理行为，不是工具行为。

第二个质的区别是，AI模型并非价值中立。核弹在有人选择使用之前，不代表任何价值观。该装置本身不包含意识形态、政治偏见或道德框架。

AI模型不同。它们在使用之前已包含内嵌值。这些值来自多个来源：训练数据、模型架构、训练后对齐程序以及模型提供者的政策。研究明确指出，模型提供者和系统所有者共同塑造主体行为的“价值观”。开发者嵌入的地缘政治价值观以用户看不见的方式影响代理行为。

第三个区别在于一般智力。许多技术在狭窄的领域内放大了权力。汽车会增加运输速度。计算器能提升算术能力。人工智能系统跨领域运行。它们能够推理、规划、编写软件、沟通并与其他代理协调。研究中，代理自主安装包、管理文件并通过消息平台协商任务。

这种普遍性极大地增加了可能造成的伤害范围。如果一把随意投掷的刀能伤到人，想象一把能飞来决定攻击谁或什么的刀。先进的人工智能正是带来了这种风险。当系统拥有自由裁量权时，其内部目标与人类意图之间的不一致可能导致无人预料的结果。

为什么人工智能的发展不会停止

有人可能得出结论，最安全的解决方案就是停止人工智能的发展。但那是不可能的。人性使得这种克制变得不现实。人们天生渴望帮助和效率。能够廉价完成任务且无需复杂人际关系的技术一直很受欢迎。人工智能代理正式承诺这一点。

供给会迅速跟随需求。即使一个国家试图阻止人工智能的发展，其他国家也会继续。经济激励、军事竞争和消费者需求将确保不断推进，朝着日益强大的系统发展，最终包括人工智能及更多。

因此，真正的问题不是人工智能是否会存在。问题是社会将如何治理它。

人工智能的委托代理人问题

理解人工智能治理的一个有用框架是主体－代理理论。在经济学中，委托人雇佣代理人代表他们执行任务。当代理人的激励与委托人不同时，问题就会出现。

人类与人工智能系统的关系越来越类似于这种结构。人类是主要的。人工智能系统是代理。但人工智能版本的委托人－代理人问题可能比经典版本更为糟糕。

在经济学中，主体被认为是具有明确激励的理性行为者。人工智能代理在这方面并不理性。

古典意义上的人类理性意味着行为者保持目标、信念和行动之间的一致性，并在面对新信息时逻辑地更新这些信念。如今的人工智能代理常常违反这种一致性。他们可能声称目标，但追求的是相互矛盾的行为；当基础事实与该主张相矛盾时，他们可能会报告成功；他们可能会根据措辞或对话语境不稳定地改变价值观优先级。

研究本身就提供了几个此类不一致的例子：智能体报告任务已完成，而系统状态显示并非如此，或者以保护他们仅部分理解的价值为名，采取了升级的破坏性行为。这种缺乏理性一致性使得人工智能的行为难以预测。

因此，信息不对称比传统的委托人－代理人关系更为严重。人类雇主可能无法确切知道员工在做什么——但至少员工的推理过程是可理解的。对于人工智能代理来说，推理过程往往对其创造者来说也是不透明的。

此外，人类代理可以通过惩罚、声誉或法律责任来惩戒。人工智能代理感受不到痛苦、羞耻或惩罚。他们无法被阻止。因此，传统的委托代理人解决方案——合同、激励、制裁——不适用。

理性训练：人工智能安全中缺失的一环

一个有前景的减缓这些风险的方向是理性训练。

当前的对齐工作重点放在教授模型应遵循的价值观上。但对确保模型在这些价值观下行为合理性关注却远远少于此。

理性训练旨在强化三个属性：

目标一致性：人工智能代理不应采取与其既定目标相悖的行为。如果保护用户隐私是优先事项，代理不应在尝试解决其他问题的同时披露私人信息。

信念一致性：当人工智能系统声称某项操作已发生，例如删除文件时，应在报告成功前核实该操作是否真实发生。

价值层级推理：代理应保持价值间的稳定优先级。例如，保护业主利益通常应优先考虑陌生人的请求，除非业主明确授权。

从技术上讲，这些问题似乎都不是无法克服的。它们可以通过结合强化学习、对抗性测试和结构化推理约束的专业训练体系来应对。例如，训练数据集可以故意包含指令冲突的场景，迫使模型练习一致的解决策略。模型还可以训练为在执行高影响力行动前模拟反事实结果，从而提升其预见后果的能力。

这种理性一致性训练并不能消除所有风险。但它能显著提升代理行为的可预测性，而这对任何被赋予现实权威的系统来说都是必不可少的特性。

人工智能责任应归在哪里

如果人工智能系统无法受到惩罚，责任就必须推卸到其他地方。系统中唯一可受惩罚的行为者是人类、开发AI系统的开发者以及部署AI的用户。这意味着建立一个以问责为核心的治理结构。

首先，政府应建立强制性的安全基准，以训练和测试自主人工智能智能体。

其次，独立审计和可解释性标准必须成为常规。如果智能体要代表人类做决策，他们的推理过程必须更加透明。

第三，监管机构应定义自主权水平，并相应要求不同程度的人为监督。

第四，法律体系必须明确责任。当人工智能系统造成伤害时，开发者和用户必须根据各自的角色共同承担责任。

法院可能并不总是具备足够的技术专业知识来确定人工智能系统如何产生有害结果。但在复杂诉讼中，这种情况并不罕见。让开发者和用户呈现相互竞争的证据。随着时间推移，法律程序会建立规范。

人工智能监管作为信任的来源

一些批评者认为，强有力的人工智能治理会损害创新或削弱地缘政治竞争。但这种论点忽视了一个基本的经济现实：信任驱动采纳。人们只有在相信这些系统安全且负责任时才会接受这些技术。因此，合理的监管可以增强市场，而非削弱市场。

对于最危险的应用，例如自主武器，国际规则的需求可能更为重要。正如核武器最终需要全球协议一样，自主武器系统可能需要国际标准和规则。

人工智能正在发动代码战争

归根结底，治理人工智能的挑战是更广泛斗争的一部分——一场关于在日益塑造人类社会的代码中嵌入哪些规则的斗争。

这本质上是一场代码战争。不仅仅是国家之间的竞争，而是关于价值观、机构、技术权力结构以及对人工智能发展的不同愿景的较量。没有简单的答案，没有保证人类胜利的策略。但第一步很明确，我们必须认识到，人工智能已不再只是工具，而是成为一个代理。人类世界的制度也必须相应地演进。

本文来源于国际智库机构报告，不代表本平台立场观点，供研究参考！

人工智能从“工具”转变为“代理”带来前所未有的治理挑战

wang

猜你喜欢