把AI智能体当作用户

设计界数十年来一直在不断完善“用户导向设计”的内涵。我们研究用户的行为，绘制他们的使用路径，并根据他们的需求检验我们的假设。我们的学科始终围绕着理解产品或服务的用户群体展开，并据此进行设计。

AI智能体（通过反复采取行动、评估进展并决定自己的下一步行动来追求目标的系统）现在正在与我们为人类设计的相同数字界面进行交互。

他们浏览网站、填写表格、比较选项并进行交易。但他们的操作粗糙、往往不可靠，且存在诸多局限性。从功能角度来看，他们是我们界面用户的一部分，即便我们尚未意识到这一点。我们需要转变观念来正视这一现实。一个核心假设需要更新：“用户”不再等同于“人”。

“用户”定义的扩展

在数字设计的大部分历史中，“用户”一词通常指坐在屏幕前的人。大多数设计启发式方法、可用性原则和研究方法都假定屏幕另一端是人。

人们让智能体尝试完成几乎无穷无尽的任务：合并日历并添加新事件、预订航班、查询处方是否已续药、查找特定价格范围内评价最高的产品。智能体与数字界面交互，查找信息、了解可用操作并执行它们，就像人类用户一样。

虽然这似乎与用户体验的理念背道而驰，但这种现实意味着，从所有功能意义上讲，智能体都是用户：

它有一个目标。
它遇到一个接口。
它试图通过该界面实现目标。
该接口要么支持这种尝试，要么不支持。

这种区别至关重要，因为我们今天设计的界面已经无法满足这类新型用户的需求。而这些智能体反过来又让屏幕另一端的人类用户感到失望。

如今智能体如何与界面交互

智能体与数字界面交互主要有三种方法，每一种方法都揭示了一组不同的设计假设，而这些假设最终都会失效。

基于视觉的交互

最基本的方法模仿人类的行为：智能体截取界面屏幕截图，并使用视觉模型来解读所看到的内容。智能体查看页面，识别元素（按钮、文本框、导航项），决定点击哪个元素，然后重复此过程。

这种方法成本很高——速度慢、计算资源浪费、容易出错，而且需要大量的令牌。仅仅一张截图就需要模型处理数万个令牌，而且无法处理动态内容或多步骤工作流程。

可访问性树解析

除了截屏之外，代理还可以读取浏览器的辅助功能树（浏览器从 HTML 生成的页面结构化表示）。屏幕阅读器也使用相同的数据结构，使界面能够为视障人士提供导航功能。

辅助功能树以清晰的层级结构呈现页面元素：包括它们的角色、标签、状态和相互关系。处理它仅需几千个令牌（远低于屏幕截图所需的令牌数量），并且提供更可靠的信息。

为方便用户访问而设计的界面对代理来说已经更易于理解：语义化的 HTML、正确标记的元素、清晰的角色和逻辑页面层次结构也对代理用户有所帮助。

直接 API 访问

第三种方法完全绕过了界面，直接进行智能体之间的交互以及智能体与API之间的交互。当结构化API可用时，智能体可以直接查询数据并执行操作，而无需与页面的任何视觉或结构化表示进行交互。

新兴标准如模型上下文协议 (MCP) 正在使这种方法更加标准化，但未必会使其更加普及。

当智能体也是用户时，哪些功能会失效？

举个简单的例子。一位家长请智能体查看学校网站上的近期活动，并将这些日期与家庭共享日历进行比对，标记出任何冲突。如果由人工操作，他会浏览活动页面，记下日期，然后再核对日历。

智能体的体验则截然不同。学校网站的设计旨在方便家长快速浏览。活动列表按日期、时间和描述排列，并按空间分组。人阅读起来可能毫不费力，但对于解析屏幕截图的智能体来说，每一条信息都必须从像素簇中推断出来：哪些文本是日期，哪些是标题，以及它们之间的关系。活动页面可能动态加载，因此只能截取部分内容。有些活动直接显示在网站上，有些活动以可下载的 PDF 文件形式提供，还有一些活动需要家长登录门户网站才能查看。

每一步操作都会增加出错的可能性，以及token的使用量。完成这样一件普通琐事都成了一项艰巨的任务，更不用说客服人员完成更复杂的任务了，例如修改个人资料、订购商品或查询空房情况并进行预订。

短期来看：兼顾两者

就目前而言，设计问题是“我们如何构建能够同时服务于人类用户和智能体用户的界面？”（这取决于具体情况，并且假设用户委派任务的行为符合您的产品或服务的理念。）

无障碍指南旨在实现以下设计目标：清晰、描述性的元素名称、可预测的交互模式、逻辑清晰的页面层级结构、语义化的 HTML 以及 ARIA 标准。这些都是设计界多年来一直理解但却常常被忽视的无障碍基本原则。

投资于无障碍设计一直是正确的做法，但现在它有了明确的商业意义，因为这是智能体在短期内使用产品和服务的方式。那些一直致力于无障碍设计的机构，或许在不知不觉中，已经构建出了智能体可以更有效地使用的界面：

清晰、描述性的标签。避免使用仅有图标的按钮、含义模糊的链接文本（例如“点击这里”）以及依赖视觉上下文的标签。
可预测、一致的模式。一致的导航结构、标准的表单模式和可预测的状态变化降低了代理错误在多步骤工作流程中累积的可能性。
尽量减少对纯视觉信息架构的依赖。结构标记必须反映视觉分组，以便代理能够理解彼此之间的关系。

这些建议都不是什么新建议。它们遵循的原则是：使界面对残障人士更易于使用，在不同设备和环境下更稳定可靠，并且更易于长期维护。

如果你的产品不需要智能体怎么办？

当然，在某些商业模式和产品类别中，产品内置智能体可能并不理想。支持在设计时考虑智能体的论点假设，当机器代表用户执行操作时，用户的目标和企业的目标能够保持一致。但事实并非总是如此。

当访问本身就是产品

有些企业依赖于用户实际访问产品。对于这些公司而言，如果智能体无需用户访问就能获取价值，那将是一个生死攸关的问题。广告支持的内容和内容营销网站已经开始在其指标中感受到这种转变的影响。

流媒体服务也面临着类似的问题。Netflix 希望用户浏览 ——浏览时间能帮助用户发现原创内容，并加深用户参与度，从而提高用户留存率。如果一个代理在用户甚至还没打开应用的情况下就回答“我今晚该看什么？”，那就破坏了 Netflix 多年来一直致力于优化的发现体验。

当摩擦是人为制造的

并非所有界面摩擦都是设计缺陷。在某些领域，摩擦的存在是出于监管、法律或安全方面的考虑——而消除摩擦则会带来法律责任。

金融服务业这样的例子不胜枚举。如果一家经纪公司允许智能体在无需安全检查和法律披露的情况下轻松执行交易，那么它自身就面临监管风险。这种摩擦是必要的。

医疗保健产品也将面临类似的挑战。HIPAA 限制了患者数据的访问方式和访问主体，而AI智能体代表患者行事是否属于授权访问者的问题尚未解决。在此问题得到解决之前，医疗机构有正当理由拒绝代理访问。

当你保护竞争情报时

有些接口故意对机器不透明，因为它们背后的数据具有竞争敏感性。

航空公司、酒店和租车公司多年来一直在与屏幕抓取机器人作斗争。他们的定价是动态的、专有的，并且经过战略性管理——实时获取这些数据正是竞争对手和比价聚合网站梦寐以求的。如果界面对客服人员友好，这一切都将付诸东流。

当你想让你的产品成为智能体时

有很多平台想要成为智能体层本身。有些产品甚至主动限制第三方代理的访问——例如阻止外部 MCP 调用、限制 API 接口——因为它们将自身的 AI 功能视为差异化优势。如果你的产品价值主张是成为用户数据之上的“智能体层”，那么允许外部代理将你的平台视为一个简单的数据存储，就等于将你正在构建的东西商品化了。

选择退出的竞争风险

但这并不意味着屏蔽智能体的决定就没有风险。更棘手的问题是，如果竞争对手不屏蔽智能体会发生什么。

如果你在银行工作，出于安全考虑，你可能会做出合理的选择，阻止智能体代表你的客户执行交易。但是，当一家提供类似金融产品的竞争对手开始宣传它们支持具备智能体能力的财富管理者机构时，又会发生什么呢？

这是一种战略考量，而非普遍适用的准则。为智能体进行设计并非总是明智之举，但完全忽略智能体也存在风险。无论是否针对智能体进行优化，我们至少都需要认识到，智能体会尝试使用我们的产品。

长期来看：当界面层发散时

当智能体能够查询结构化数据并执行操作时，可视化界面对它们而言将变得无关紧要。随着越来越多的组织通过与智能体兼容的API公开其服务，面向人类用户和智能体用户的设计问题将日益分离。

尽管如此，人类仍然需要界面——视觉化的、交互式的、旨在理解和决策的界面。

智能体将直接与底层数据和逻辑进行交互。用户的体验取决于智能体完成任务的能力。

结论

“用户”一词一直以来都是一种简略的说法。它指的是试图通过我们设计的产品来实现某个目标的主体。几十年来，这个主体完全是指人类，但现在情况已经不同了。

将智能体视为用户，需要扩展我们自该领域诞生以来一直隐含的一个假设。这种转变带来的改变在于，我们设计的对象范围发生了变化，以及我们已知至关重要的实践（例如语义结构、可访问性、清晰的标签和可预测的交互模式）变得更加紧迫。