
摘要:尽管全球近三分之二的企业已经开始尝试智能体AI,但成功将其规模化并创造实质性有形价值的企业却不足10%,造成这一落差的首要制约因素是数据的基础薄弱。与传统生成式AI相比,智能体AI需要在没有人工干预的情况下持续协调多个模型和数据源,这对其底层数据架构提出了更高要求。对于压裂智能体,我们需要的数据不仅仅是压裂施工和裂缝监测的原始数据曲线,更重要的是数据物理事件得到标记、工程意义得到标注、数据结构得到标定、数据流动遵循标准,相关企业必须构建模块化、可互相调用操作的数据框架,以支持更高水平的系统自主性、协同能力和实时决策。智能体AI为企业赚钱,关键的核心基础是大数据-好数据和可流动数据。而加强数据基座的稳固程度,需要从技术革新和组织变革两个角度同时进行,在一定程度上组织管理发挥的作用更大。

一、企业转型智能体 AI核心基础是高质量数据
二、压裂施工和裂缝监测数据标记标注标定内容
三、数据标准化破除孤岛是流动与规模化的基础
四、企业构建智能体AI大数据基座的原则和路线

一、企业转型智能体 AI核心基础是高质量数据
业界对于智能体AI(Agentic AI)的认识正逐渐清晰,智能体AI为压裂服务企业创造利润的外在特征是算法,但算法本身必须建立在数据基础之上,也就是其内在核心基础则是高质量数据。数据多和数据大不一定形成大数据,数据只有在完成物理事件标记、工程意义标注、数据结构标定,并遵循标准实现全链路流动才是智能体AI从“可用”到“赚钱”的唯一路径。原始数据曲线并不值钱,标记、标注、标定和标准化后的可流动数据才是核心资产。智能体赚钱,靠的是把 “数据变成知识、知识变成决策、决策变成执行力”。
随着人工智能技术的演进,企业正从单纯应用AI迈向能够自动执行复杂业务流的智能体AI阶段。目前,有两种智能体模式在介入工程数据的分析解释。单智能体工作流,即一个智能体依次使用多种工具和数据源。多智能体工作流,即专门的智能体通过共享知识图谱和精细的数据访问进行协作。这两种模式都需要一致的且可互相操作的数据,否则智能体可能会崩溃。在缺乏坚实数据底座的情况下,单智能体可能会因数据碎片化而做出矛盾的决策,多智能体系统则可能出现合作失调,并导致错误在智能体之间反复传递与放大。由于对压裂施工和裂缝监测进行解释、诊断和预测是受多种敏感因素影响的复杂过程,如果不对大量的数据进行去噪存真与专家参与的专业处理,很可能会让智能体在读取这些原始数据后,分析解释过程中出现认识混乱和错误解释。
如岩石破裂与裂缝动态演化会在井筒内产生各类压力波响应,就包括裂缝张开或闭合的瞬间岩石表面快速位移激发沿井筒传播的弹性波,也有流体向地层滤失或裂缝沟通新储层时引起井筒压力的低频扰动等。对于这些现象和事件的记录以压力波和声学力学数据居多,如果不能排除(非地下反响的地面敲击等)已知干扰,就会让本来就具有多解性的裂缝起裂点和复杂程度的认识出现混乱和误解。而去噪存真、排除干扰的重要工作就是对引起数据噪声的各种物理事件标记,以便在数据分析时予以分辨。
如水平井桥塞分段压裂时桥塞球座位置固定即坐封的有效性,对顺利施工和实时诊断都非常关键,以往主要依靠人工观察井口压力变化特征,难以快速准确判识。由于井口压力变化可能是由多种现象引起,在判别裂缝起裂、遇到天然裂缝、使用暂堵剂等引起压力变化和桥塞滑移引起压力变化之间的不同特征时,如果没有融合专家经验对数据特征的工程意义进行定量标注,就很难让智能体通过机器学习进行分辨。盛茂等人的经验是【1】,将球座坐封工况分隔形成198段坐封数据,结合专家经验对井口压力和排量的变化特征进行判识,对每段坐封数据打标签,分为有效坐封和无效坐封2 类标签,分别将其对应的时刻标记为数字1 和0,最终得到有效坐封168 段,无效坐封30 段。统计数据,得到2种类型的无效坐封曲线。专家标注井口压力呈现显著的陡升—陡降—平缓上升三阶段特征,若井口压力缺失某个阶段特征,则为坐封失效。采用人工智能技术学习不同井口压力形态的有效/无效坐封数据特征,实现了每秒输出诊断结果,测试集准确率96.8%,无标注原始数据则会让模型失效。
对于来自不同传感器的数据和不同时间记录的数据而言,时间戳对齐、参数单位统一、结构标定等则是模型可用的前提,如果数据结构不一且无人标定,造成数据错位的损失是显而易见的更是不可估量的。
压裂数据 “三标(标记 / 标注 / 标定)” 缺失将导致 AI 模型泛化能力不足,现场故障率大增。因此,原始数据并无商业价值,压裂施工曲线和裂缝监测数据必须在物理事件得到标记、工程意义得到标注、数据结构得到标定以后,才能被AI分析和判别得出正确的认识和观点。

二、压裂施工和裂缝监测数据标记标注标定内容
1.物理事件得到标记
首先是相关物理事件需要得到现场工程人员的标记,包括但不限于会影响到后续数据去噪存真的各种事件。意外停泵干扰标记非施工计划内紧急停泵、瞬时停泵、泵组故障停机时段,对应压力、排量、砂浓度曲线异常断崖波动段。场外机械振动干扰标记周边压裂车、吊车、运输设备作业引发的监测波形杂波、小幅无规律抖动区间。人为敲击扰动标记传感器、井口管线、监测仪器人为触碰、敲击产生的瞬时尖峰脉冲异常数据点。设备启停空载干扰标记仪器开机、断电、传感器校准阶段无效曲线段,剔除正式施工外冗余数据。管线泄压放空操作标记人工泄压、管线放空带来的压力骤降异常数据,区分有效施工压降与操作压降。井场环境突发干扰标记大风、管线共振、地面载荷变动造成的监测失真数据区段。
2.工程意义得到标注
具有工程意义的事件需要得到现场人员和工程专家的复核标注,包括但不限于影响裂缝关键参数判定的地质力学、天然裂缝因素,需要专家对裂缝形态、起裂、导流能力、复杂程度结论进行校核。地应力相关判别审核判别水平 / 垂向地应力差值、应力转向特征,判定裂缝延伸走向、扩展边界,影响裂缝几何轮廓判断。岩石力学属性审核识别杨氏模量、泊松比、破裂压力特征,校核裂缝起裂位置、起裂时机与起裂强度。天然裂缝发育识别甄别曲线波动对应的天然裂缝开启、窜通、滑移响应,判定裂缝复杂程度与分支发育规模。层理、夹层阻隔判别审核地层夹层、致密层阻挡效应,判断裂缝纵向延伸高度,修正裂缝空间几何形态。孔隙流体压力影响审核分析地层流体压力变化规律,评估对裂缝张开度、渗流通道及长期导流能力的作用。簇间、段间应力干扰审核判别多段多簇压裂应力叠加效应,判定裂缝相互挤占、偏转形态,修正整体裂缝复杂度结论。井筒摩阻、孔眼磨蚀判别区分井筒损耗与储层真实裂缝响应,避免误判裂缝扩展规模与导流能力。
3.数据结构得到标定
交给智能体AI的数据必须是在数据结构上对关键参数、关键事件和关键节点上由算法研究人员把数据校核确定和对齐,包括但不限于时间、关键事件、分段分簇等统一校准。全域时间轴对齐包括统一施工压力、排量、砂比、裂缝监测波形、声波、微地震数据时间戳,消除时差偏移。 施工关键事件时间对齐包括起裂、破压、加砂、替液、停泵、关井、泄压等核心节点,多类曲线时序一一对应校准。压裂分段数据边界对齐包括按施工段号划定每段数据起止区间,段与段分割节点全线数据同步切分对齐。 射孔簇数据匹配对齐包括单段内各射孔簇启裂、进液、造缝响应数据,与簇编号、空间位置精准绑定对齐。 多监测维度数据对齐包括压力施工曲线、微地震裂缝监测、地面形变监测、声波监测数据维度边界统一匹配。异常事件位置对齐包括将标记的停泵、振动、天然裂缝开启等事件点位,同步映射至所有同源数据结构中。

三、数据标准化破除孤岛是流动与规模化的基础
1.不同传感器来源的数据应用需要标准化
压裂多源异构数据(压裂车、传感器、监测设备)的格式/单位/时间不统一,容易形成“数据孤岛”。只有统一数据元模型与接口标准,形成数据的标准化和标准化的数据,才能实现不同公司获取的数据在地质-程-施工-评价全链路流动,支撑智能体跨井/ 跨区块学习。统一数据元模型与接口标准,已经不仅是企业内部的要求,更是上升到了一些国行标也要做出相关规定,可见数据标准化的重要。如规范页岩气勘探开发过程中所需采集、记录和分析的各种数据和技术资料的国家标准《GB/T 41613-2022 页岩气开发评价资料录取技术要求》。如明确压裂施工参数、监测数据、裂缝形态的标准化记录与标注要求的能源行业标准《NB/T 14002.1-2022 页岩气 储层改造 第1部分:压裂设计规范》等。
2.不同目标的软件平台数据流动需要标准化
可流动的数据在油藏数值模拟、压裂裂缝模拟、产量预测模拟之间的流动正演,是做压裂优化设计的日常需要。可流动的数据在各种模拟平台中反演比对设计曲线和施工曲线压力特征的异同、预测产量和实际生产动态的差异、瞬时停泵和压力降落代表的地下物理参数等等,是压后评估的日常需要。同样,对裂缝监测的数据进行分析解释并和专家标注的工程意义比对也会丰富算法模型。可流动的数据才能使智能体AI实现规模化盈利,因为数据流动等于知识复制,也就代表了边际成本递减。高质量的数据会在多井/多区块的AI学习中使用复用,智能体AI就可快速适配新场景,避免“一井一模型、一区块一标注” 的重复投入,直接降低服务成本、提升盈利空间。
因此,克服底层数据局限,解决数据碎片化、孤岛化以及治理不一致等复杂挑战,是企业从AI中获取真正价值的关键。
3.“四标数据”(标记 / 标注 / 标定和标准化)的核心价值
从原始数据到经过标记和标注的数据,实现了从去处“噪音”到集中“知识”的富集。无标注曲线仅仅是压力 - 时间序列,AI 无法识别破裂压力、砂堵等关键事件,是没有工程价值的。而标注后的数据,使每段曲线对应明确物理事件与工程意义,AI 可学习 “异常特征 - 故障类型 - 处置方案” 关联,直接支撑决策。
从标注数据再到标定数据,实现了仅自己一次可用到“可复用”。无标定的数据,参数单位混乱、时间错位、格式不一,跨井/跨系统无法对接。标定后的数据,统一格式、精度、语义,可在不同设备/系统/区块自由流动,支撑智能体快速迁移学习,边际成本趋近于零。
从标定数据到标准化的可流动数据,不仅是在不同设备间还可以在不同目标的软件平台间流动,让数据完成从“成本中心”到“利润引擎”的蜕变。数据流动 = 智能体能力复制,即一口井标注数据,支撑百口井智能决策,避免重复投入。数据流动 = 服务模式升级,即从“现场人工服务” 到“远程数据服务 + 智能决策订阅”,单价提升、成本降低、盈利空间扩大。

四、企业构建智能体AI大数据基座的原则和路线
1.加强数据基座的稳固程度需要技术革新和组织变革
全球近三分之二的企业都曾尝试过智能体 AI,但只有不到 10% 的企业将其规模化应用以实现切实的价值,其中数据不扎实往往是罪魁祸首。在一个传统的企业里,要想做到“四标数据”(标记 / 标注 / 标定和标准化)并不容易,因为这无形中改变了常规的工作模式还增加了额外的工作量。因此,企业要实现向智能体型组织(agentic organization)的大规模转型,不仅需要技术上的革新,还需要组织上的变革,有时甚至组织变革比技术革新更重要,这是因为企业的数据战略和运营模式与底层的数据质量和架构同等重要。
从构建基础数据能力入手,有的时候需要加重人的工作量,有时也可以通过开发新技术或硬件代替人去标记、标注和标定数据。如压力传感器加上芯片可以识别地面振动和敲击等噪音予以分离等,就充分利用了AI的能力,但为了培养类似能力还是需要大量的高质量数据进行AI模型训练。因此需要企业从管理层面认识到实现智能体 AI的成功,取决于能够支持不断提高的自主性、协调性和实时决策能力的数据架构。取决于将战略、技术和人员联系起来,确定可“智能体化”的高影响力工作流程。为智能体 AI现代化,来改造每一层的数据架构,确保数据质量到位。
2. 支撑智能体AI数据规模化的七个构架原则
虽然通用人工智能已经表明了对数据访问控制、数据血统和可追溯性的需求,但智能体型的平台在这些基础方面施加了更大的运营压力。由于智能体 AI会持续协调多个模型和数据源,且通常无需人工干预,因此需要更严格、更自动化的治理,以确保大规模运行的可靠性和可控性。
麦肯锡报告【2】认为,支撑智能体AI数据实现规模化的七大数据架构原则包括:一是数据摄入产品化,确保各类数据统一摄入,实现“一次录入、全局可用”;二是共享一致语义,确保分析工具、AI与智能体对数据拥有统一、清晰的定义;三是统一数据底座,实现数据分析与AI应用的数据同源,避免平台和数据流水线的重复建设;四是默认内置信任机制,将安全、隐私与AI治理自动化内置于平台中;五是开放稳定接口,提供清晰的API与模型访问点,避免重复开发;六是行为可见、可衡量,持续追踪数据质量、模型表现与运行成本;七是提供受控执行层,建立共享执行层统筹智能体行为,确保其在企业规则护栏内运行。
3. 构建智能体AI数据四大核心举措
麦肯锡报告【2】认为,为了实现向智能体型组织的规模化转型,公司可以从构建基础数据能力开始,采取如下步骤:
第一步:确定高影响力的工作流程,并将其进行“智能体化”改造。在实施路径上,企业在所有机构齐头并进改革或全面推翻重来并不可取,而应有针对性地重构少数关键领域的业务流。企业可以识别出少数具有高价值、贯穿整个流程的业务流程,在这些流程中增加自主权能够带来显著成效(相当于是在企业内部开辟一块飞地)。基于构建数据产品的既定方法,领导者可以根据潜在价值、可行性以及战略契合度来优先选择特定场景的应用试点,然后再进行更广泛的推广。
第二步:对智能体数据架构的每一层进行现代化改造。领导者需要对现有的平台进行现代化改造,以支持跨系统的互操作性和治理。在数据源层,推动质量检查与溯源追踪自动化,并直接嵌入数据流水线。在数据平台层,整合向量存储服务以处理非结构化数据,并引入智能体互操作标准(如模型上下文协议),支持动态权限管控与智能体间的实时协同。在语义层,通过本体(Ontologies)和知识图谱,将海量数据转化为机器可读的业务知识,消除智能体因理解歧义带来的操作风险。在数据消费层,采用产品思维将数据打包为可复用资产,在消费层嵌入智能体编排与检索服务,使AI系统能动态组装上下文。在治理与访问控制层,采用“奖牌架构”渐进式提纯数据,并引入AI网关动态管控模型对非结构化数据的访问策略,形成从原始数据到“智能体可用”数据的全链路安全管控。尽管有些人可能会倾向于借助人工智能方面的进步来缩短数据架构的最佳实践流程,但最强大的组织会构建模块化、渐进式的架构,其中包含的组件能够随着新技术的出现而被替换。
第三步:确保实时与持续的数据质量达标。企业必须从定期的数据清理转向持续、实时的数据质量管理。这些优质数据集能够支持企业通过微调有效构建领域小模型,从而替代昂贵的通用大模型。这种做法不仅有助于节省成本和资源,还能提升系统的韧性与合规性。为此,企业必须打破定期清理数据的传统模式,转向由AI赋能的实时数据质量监控。在这一过程中,企业还需确保结构化数据、非结构化数据以及由组织能提生成的输出都能符合一致的准确性、溯源和治理标准。
第四步:构建智能体 AI的运营和治理模型。要实现智能体 AI规模化发展,需要重新思考工作方式。就需要重新思考工作的方式。人类的角色正在从执行转变为对智能体驱动工作流程的监督和协调。在人与智能体工作的混合环境中,明确的治理机制对于使智能体能够在大规模范围内透明且安全地运行至关重要。在责任划分上,企业应采用“统分结合”的责任机制,业务部门负责智能体日常工作流及领域模型的治理,中央数据与AI团队负责维护共享平台与全局护栏,从而在业务域自主性与企业级风控之间取得有效平衡。

提示:看起来似乎很简单,其实真正执行起来苦难重重。七个构架、四大步骤还有“四标数据”(标记 / 标注 / 标定和标准化)好像说的很清楚,但一旦严格去做,打破的不止是企业员工的原有工作习惯,还会触及相当一部分人的现有利益,以至于让企业做到一定程度后会不得不说“妥协吧”。不要指望着企业内部所有机构所有人会在有一天突然想明白了,就无怨无悔的支持公司智能化进程了,在原有机构基础上的改革进行所谓的AI转型可能会半途而废。最好的做法是不在原地升级,而是在企业内部另外开辟一个飞地,让一部分人有兴趣的人单独做,减少大企业各种现有规定的羁绊,规模化的速度还快些。让新人和单独邀请的专家,从数据的标记/标注/标定和标准化做起要比大企业老单位全员培训改变员工做事老习惯要快得多。企业要赚钱,不是智能化转型而是创新创出一条新路,长出的有机体要融入带有智能体AI的技术新生态,才能有后劲儿。

参考文献
【1】盛茂,范龙昂,张帅,等. 数据–知识混合驱动的压裂球座坐封有效性智能诊断方法[J]. 石油钻探技术,2024,52(5):76−81.
SHENG Mao, FAN Longang, ZHANG Shuai, et al. Intelligent diagnosis for effectiveness of data-knowledge mixed-driven fracturing ball seat
setting [J]. Petroleum Drilling Techniques, 2024, 52(5):76−81.
【2】阅读来自麦肯锡的文章大规模智能体AI的基础建设,https://informedi.org/2026/04/27/building-the-foundations-for-agentic-ai-at-scale/,来自于免费每周通讯 |分享来自十大商业杂志的知识简报,2026年4月17-23日 |Asin Tavakoli 等人,|麦肯锡公司 |2026年4月2日
夜雨聆风