原文链接
https://www.mckinsey.com/capabilities/mckinsey-technology/our-insights/building-the-foundations-for-agentic-ai-at-scale#/
2026年4月2日
代理式AI仰仗强大的数据基础。为更好利用代理式AI,技术领导可将影响力大的工作流进行代理化改造、现代化数据架构进、加强数据质量并推动运营模式的演进。
房子的坚固程度取决于地基。代理式AI也是如此,企业已迅速了解这一点。全球近三分之二的企业已尝试使用代理式AI,但仅有不到10%的企业能规模化使用并产生实际价值。数据基础不稳常常是罪魁祸首:80%的公司指出数据是限制代理式AI发展的障碍(图1)。根据《Rewired》研究,解决这一问题是构建稳固基础的核心要素——也是区分公司能否利用AI创造价值的最重要因素。

企业虽能勉强应对数据碎片化和孤岛化的问题,但规模一大就难以为继。数据管理中的访问控制、谱系和审计因治理方式不一致,加剧了数据保存的挑战性。
数据是代理式AI的支柱
许多公司已将AI嵌入日常运营(图2),有些更进一步,开始使用代理式AI,力求将复杂业务流程自动化。为确保规模运用可行,代理式AI需要稳定且高质量的数据流。

数据架构能决定代理式AI能否成功,需要支持更高水平的自主抓取、互相协作和实时决策。架构通常模块化、可相互配合,为代理式AI提供访问可靠且运行安全所需数据的途径(参见“实现规模化扩展的七大数据架构原则”)。生成式AI已经显示出对数据访问控制、谱系和可追溯性的需求,代理式AI给这些基础带来更大运营压力。代理式AI会持续分析多个模型和数据源,通常无需人工干预,因此需要更严格、更自动化的治理,以确保大规模使用时的可靠性和控制性。
实现规模化扩展的七大数据架构原则
将数据产品化。将所有数据(批次、实时、结构化或非结构化)输进企业数据库,且协调一致,并能为所有人所用。
共享定义。确保数据附带清晰通用的定义,使分析人员、AI模型和代理理解相同。
分析师和AI使用统一的数据基础。数据一经建立即可随处使用(用于报告、机器学习和生成式AI),无需使用独立的不同管道和平台。
默认平台可信任。安全性、访问控制、隐私和AI治理应该是自动的,不需要事后处理或手动管理。
通过稳定的接口开放使用。提供清晰的API和模型访问点,让各团队能够创建可靠的应用和AI解决方案,无需返工。
变更可见且可衡量。持续跟踪数据质量、模型性能、速度和成本,以便及早发现问题并持续改进系统。
AI代理和应用可控。通过在同一层面协调AI代理和应用,执行企业规则和防护栏。
两种主流代理式原型:单代理工作流(一个代理按顺序使用多个工具和数据源)和多代理工作流(专业代理通过共享知识图谱和精细粒度数据进行协作)。两者都需要一致且可互操的数据,否则代理可能会崩溃。单代理可能因碎片化数据做出不一致的决策,而多代理系统可能因不协调并传导错误。
如何为代理式AI准备数据
公司要实现向代理型的规模化转型,可以从构建基础数据能力开始。这要求重启技术,也要求重启组织架构。公司的数据战略和运营模式与其数据质量和架构同样重要。要成功需要采取四大相互关联的步骤,将战略、技术和人员联系起来:
1
识别影响力高的工作流进行“代理式改造”。公司可发现少量价值高的端到端工作流,在这些工作流中,增加自动化可释放巨大影响。企业领导层可在数据产品现有基础上,根据价值潜力、可行性和战略契合度优先选择代理型AI使用场景,再扩展应用范围。
2
现代化数据架构的每一层。不必从头开始,可通过现代化现有平台,支持跨系统的互操性和治理。虽然有公司倾向于依赖AI的进步自动适应现有数据架构,但真正厉害的公司会构建模块化、可演进的架构,其组件可随根据技术发展而轻松替换。
3
确保数据质量。数据管理必须从定期清理转向持续实时的质量管理。质量管理可确保结构化和非结构化数据以及代理生成的输出都符合一致的标准,做到准确、有谱系、有治理。
4
为代理式AI构建运营和治理模型。扩大代理式AI的应用需要重新考虑工作完成方式。人类的角色正从执行转向监督和协调代理驱动的工作流。在人机混合工作环境中,清晰的治理对于让代理以透明安全的方式大规模运行至关重要。
下面我们将更深入地探讨这四个步骤。
识别影响力高的工作流进行“代理式改造”
对大多数公司而言,要代理式AI产生价值不是立即重启一切,而是选择影响力高的领域中几个关键工作流,并细心重构(图3)。领先的公司选择知识管理或市场营销等领域,分析现有数据以确定价值所在,并了解可实质优化业务的地方。绘制端到端的工作流,然后确定可实现代理型AI价值的步骤及所需的相应数据,再根据价值潜力和可行性排列应用场景优先级。

试点应用需指标清晰,并尽早验证影响。各团队应确认可在其他任务和工作流中能重复使用的数据。注重重复性对模型的大规模应用十分关键。
现代化数据架构的每一层
代理式AI的数据架构需要加强和调整数据栈各个层级。公司不必从头重建系统,而是实现每一层的现代化,提高跨工作流的可见性和治理能力。
现代化数据架构像一个典型的全渠道零售购物旅程。产品数据和购买记录孤立地存储在不同系统中,若消费者跨渠道,数据链即断裂,导致推荐和服务体验不一致。代理式AI需要的架构能打通不同系统和数据,支持客户完整购物旅程。通过结合传统机器学习、生成式AI和代理技术,让数据朝互操作性演进。
在前述全渠道示例中,数据源层将客户数据(如浏览记录、收藏夹、购买记录和支持互动)存储。非结构化数据在流入模型时被持续抓取、理解和重组,这意味着须全程管理。数据质量检查、安全控制和谱系追踪需要自动化并直接嵌入整个管道中,而不是一次次审查。数据团队还应构建预处理管道,用于清理、丰富和标记数据,添加业务背景和质量检查,使代理的理解和行动可靠。
数据平台层连接不同系统的数据,并通过协调不同系统的访问、同步和实时交互,让应用程序和AI模型使用。在前述全渠道示例中,该数据层确保不同代理跨渠道调用时,客户偏好、交互历史和交易状态保持随时可访问。
向量存储和嵌入服务对处理非结构化数据至关重要,也应纳入数据平台。这些服务使文档、图像和其他非结构化内容能够基于含义(而非关键词)进行搜索,同时随着内容的演进保持更新。
将代理互操标准添加到此层可自动化集成和访问过程,实现结构化语义共享、代理间直接协调及安全交易。多个同时工作的代理可不间断相互协调,实时完成跨库存、履约、客户关系管理和支付系统的数据检索和数据。
在此层中,代理可以保留特定工作记忆或限定范围的背景,同时根据用例和权限,确保对共享数据和上下文信息的访问的动态管理。随着代理自主性的增加,身份管控对于保持数据质量、校对和审计至关重要。
语义层将数据转化为知识。此层位于原始数据和AI应用程序之间,将数据的业务含义编码为人类可以理解的机器可读形式。语义层不再将数据视为孤立的图表或文件,而是定义事物的意义、关联性及支配规则。
在实践中,通常通过本体论和知识图谱来实现。本体论定义了数据的属性和关系对业务的现实意义。知识图谱通过将跨系统的真实世界数据链接到一个互联的实体网络中,让词汇表可操作。若无此共享的语义基础,代理可能会对相同数据做出不完整或相互矛盾的解释,随着应用规模扩大,增加错误率和运营风险。
数据产品层将经过整理的数据转化为业务可直接重复使用的资产。将数据与清晰的所有权、质量标准、语义和消费接口打包。以产品思维将数据视为绩效资产,可在多个用例和领域中重复使用。可重复使用的数据产品使代理能够大规模生成可信的预测和洞察,同时记录代理如何使用数据,让一切可追溯可监督,并启用反馈循环以改进上游数据和模型。
数据消费层位于整个技术栈的顶端,将数据和智能交付到工作流和应用程序中,包括分析和报告工具、数据API、检索接口以及直接嵌入业务流程的模型输出。代理协作和检索服务在此层。AI系统动态理解上下文(通常使用非结构化数据),而非依赖预定义的查询。协作使AI系统决定检索内容、优化方式及迭代,而检索服务则确保访问安全高效且得到规模治理。
现代化的架构分析模型输出能强化数据本身。生成式AI应用程序可生成标签、使用模式和背景信息,从而提高质量并支持未来的模型,这些输出(与其他任何输出一样)需要捕获并训练。
治理和访问控制层提供核心组件,管理代理如何与数据、工具和模型交互。勋章架构逐步整理和丰富数据,从原始形态到代理能利用形态,同时保留谱系和审计性。然后通过API、查询和权限来管理数据访问。当模型动态检索和使用非结构化数据时,需要AI网关来控制访问和使用。该网关管理模型对非结构化数据的访问,强制执行使用策略,并记录数据在提示词和响应中的检索和使用。
确保数据质量
清理过的高质量数据是代理式AI时代的战略差异化因素。基础模型的部署成本可能很高,因为涉及大规模计算推断、微调、基础设施和治理成本。拥有结构良好的内部数据的公司可以通过应用自身数据微调特定领域的更小模型来降低技术投入成本。这些模型不仅更具成本和资源效率,而且更具弹性和合规性。
使用非结构化数据需要通过标记、分类、向量嵌入和基于图形的结构化来提高数据质量。代理能自信理解意义、关系和上下文。非结构化数据必须遵循与结构化数据相同的标准。
公司还必须优化其结构化数据的管理方式,摒弃定期清理,选择持续实时的数据质量监控。监控过程得到AI赋能的自动化验证、异常检测和丰富管道,防止工作流中问题扩散。元数据管理提供谱系和业务背景信息,代理能追踪和证明自身决策。
最后,随着代理生成新数据,公司必须对其输出执行相同的质量、谱系和协调标准。包括通过代理调用的工具和API检索或写入的数据,这些操作应通过受治理、可追踪的接口进行,不绕过企业质量控制。嵌入共享定义的自动化质量检查可确保代理使用可靠信息大规模行动。
为代理式AI构建运营和治理模型
随着代理式系统的扩展,治理成为主要的控制机制。需要清晰明确的策略来定义代理的工作范围、数据访问范围和人工批准介入情况,并根据每个代理的角色和工作范围自动评估访问检查。代理不应引入新的数据质量或治理规则,应遵循与其他系统相同的标准,随着自主性的增加自动应用。
成熟的代理可以助力治理过程,防护代理在明确定义的控制功能内运行,持续监控代理的活动,确保透明和合规。创意合规代理可审查图像和多媒体输出,防止与品牌不符或政策违规,并触发纠正措施。
IT和治理部门必须管理代理生命周期,需要颁发凭证、跟踪活动日志、监控性能,并通过自动化检查政策合规。通过内置遥测自动捕获代理活动,确保行动、数据访问和决策统一记录并可追溯。
代理行为的清晰责任(涵盖业务表现、风险管理和政策合规)在规模化应用中至关重要。在实践中,由业务来负责代理赋能的工作流的日常治理,包括领域模型和本体论。数据与AI中心团队负责维护共享平台、防护和监督。这种联邦模式可平衡部门与企业的责任。
在代理式AI时代,技术领导发现数据基础将日益决定公司竞争定位。尽管使用代理式AI产生实际价值的前景广阔,许多公司仍在艰难应对数据访问性和治理性,以便数字代理的使用。是时候推动数据转型,为代理式AI未来铺平道路。
夜雨聆风