很多制造企业AI做不起来,不是算法不行、不是设备不智能,而是卡在最基础、最关键、最容易被忽视的一步:数据标准化。
绝大多数工厂的现状是:
表格数据口径乱、系统字段不统一、日志文本乱七八糟、质检图片光影角度五花八门、设备波形采样参数随心所欲……
很多人有一个巨大误区:
以为数据标准化,只是把Excel、台账整理整齐。
大错特错。
制造业AI真正值钱、真正难落地、真正拉开差距的,恰恰是非结构化数据的标准化。
制造业的数据分为三类:结构化数据、半结构化数据、非结构化数据。
三类数据形态不同、用途不同、AI训练逻辑不同,标准化侧重点、实施步骤、落地方法完全不一样。
今天这篇文章,我一次性讲透:三类数据分别怎么标准化、每一类的实操步骤、落地标准、AI使用要求。
看完这篇,你可以直接搭建工厂完整的数据标准化体系,解决90%的AI落地数据问题。
一、先搞懂:三类数据分别对应工厂什么内容?
1. 结构化数据(最规整、最好处理)
特点:有固定字段、有行列、规则明确
工厂典型数据:
MES工单、生产报工、良率、产能、库存、物料BOM、人员排班、设备参数台账、质检结果报表。
AI用途:预测分析、统计建模、排产优化、经营分析
2. 半结构化数据(工厂最杂、最容易乱)
特点:有一定格式,但不规整、不统一、自由填写
工厂典型数据:
设备运行日志、维修记录、巡检台账、工单备注、异常报警报文、系统JSON日志。
AI用途:故障根因分析、异常识别、大模型文本抽取、流程挖掘
3. 非结构化数据(制造业AI最难、最核心)
特点:无表格、无固定字段、纯原始信号/画面/文本
工厂典型数据:
质检图片、生产视频、设备振动波形、电流压力时序信号、设备异响音频、工艺手册、SOP文档、培训资料。
AI用途:视觉质检、预测性维护、工艺优化、工业大模型问答、智能诊断
二、核心关键:三类数据标准化,侧重点完全不同
一句话记住核心差异:
✅ 结构化数据标准化:统一业务规则、统一口径、统一定义
解决:数据算得不一样、理解不一样、统计不一样
✅ 半结构化数据标准化:统一格式模板、统一填写规范、统一关键字段
解决:内容随意写、信息缺失、表述混乱
✅ 非结构化数据标准化:统一采集环境、统一信号形态、统一特征、统一标注
解决:AI看到的样本形态不一致、特征不稳定、模型学不到规律
三、结构化数据标准化|完整落地步骤(4步)
适用于:MES、ERP、WMS、台账、报表类数据
步骤1:全量字段盘点与字典统一
梳理全厂所有系统字段:物料名称、工序、设备编号、状态、结果字段。
- 同名不同义字段合并
- 同义不同名字段统一命名
- 建立全局数据字典,全厂唯一
步骤2:统一编码体系(制造业核心)
强制执行“五唯一”:
- 一物一码(物料)
- 一机一码(设备)
- 一位一码(工位)
- 一单一号(工单)
- 一人一号(人员)
彻底解决物料混乱、设备对应混乱问题。
步骤3:统一指标口径与计算公式(最关键)
所有生产KPI必须四统一:
统一名称、统一公式、统一统计范围、统一统计周期
示例:
良品率 = 合格数量 / 总投产数量
明确:返工品是否计入、试产是否剔除、报废如何统计
口径不统一,所有AI分析都是伪数据。
步骤4:统一单位、精度、时间格式
- 单位:长度、重量、电压、转速全厂统一
- 精度:小数保留位数统一
- 时间:统一 YYYY-MM-DD HH:MM:SS
结构化标准化总结:管人怎么填、系统怎么算、字段怎么定义。
四、半结构化数据标准化|完整落地步骤(5步)
适用于:维修日志、巡检记录、异常台账、报警日志、工单备注
半结构化是工厂最容易被忽略的数据,也是工业大模型故障诊断的核心数据源。
步骤1:统一模板格式
所有自由填写台账,禁止空白随意写。
统一固定模板:
- 固定必填字段:时间、设备、工位、现象、处理人、处理结果、原因分类
- 禁止缺字段、禁止自由随笔
步骤2:统一状态枚举值
例如设备状态、异常类型、故障等级,做成下拉选项
避免:坏了、故障、异常、不行、卡顿、异响 各种口语化描述。
统一为标准术语:机械异响、温度过高、压力异常、伺服报错等。
步骤3:统一文本书写规范
- 禁止方言、缩写、随意简写
- 统一专业术语
- 统一问题描述结构:现象+位置+时间+结果
步骤4:日志报文结构化解析
针对系统自动产生的JSON、报文日志:
- 统一解析字段
- 统一关键字提取规则
- 统一报错分类标签
步骤5:统一归档与索引规则
所有半结构化数据,必须绑定:设备编码、产线、时间、班次。
方便大模型检索、聚类、故障复盘。
半结构化标准化总结:把“乱写的内容”变成“有结构、有规范、可检索的内容”。
五、非结构化数据标准化|AI模型成败的核心(4大场景+标准化步骤)
重点:这是普通数字化和智能制造AI的最大区别
非结构化数据不能用“表格规范”去约束,只能用形态、环境、信号、标注标准化。
场景1:图像数据(质检、外观检测)
标准化实施步骤
1. 统一硬件参数:分辨率、焦距、光圈、曝光值固定
2. 统一环境:光照亮度、角度、背景、距离全厂统一
3. 统一采集格式:图片格式、压缩率统一
4. 统一预处理:降噪、增强、裁剪规则统一
5. 统一缺陷标签体系:大类+子类、判定标准、边界定义统一
目的:让同一种缺陷,在AI眼里永远是同一种特征。
场景2:视频数据(制程监控、安全巡检)
标准化实施步骤
1. 统一编码格式、帧率、码率
2. 统一切片时长
3. 统一抽帧频率
4. 统一画面分辨率
场景3:时序波形数据(振动、电流、压力、温度)——预测性维护核心
标准化实施步骤
1. 统一采样频率:同类型设备采样频率完全一致
2. 统一传感器量程:上下限统一
3. 统一滤波降噪算法:去除干扰统一规则
4. 统一切片长度:模型输入波形片段长度一致
5. 统一测点编码:每个信号点唯一身份
波形不标准,预测性维护100%不准。
场景4:文本资料(工艺、SOP、维修手册)——工业大模型核心
标准化实施步骤
1. 统一文档格式、排版、层级
2. 统一专业术语、杜绝一词多义
3. 统一章节拆分粒度(固定字数分段)
4. 统一知识分类标签(工艺/设备/质量/安全)
5. 统一向量化参数与嵌入规则
非结构化标准化总结:
不是整理文字,是统一数据的“物理形态、特征形态、输入形态”。
六、三类数据标准化核心差异
1. 结构化数据标准化 = 统一业务规则
解决:数据算得乱、定义乱、口径乱
2. 半结构化数据标准化 = 统一填写与模板规则
解决:记录乱、描述乱、信息缺
3. 非结构化数据标准化 = 统一特征与采集规则
解决:AI特征不稳定、模型学不准、落地效果差
七、为什么90%工厂AI落地失败,都输在这一步?
很多企业做智能化的顺序是:
先买设备 → 先上模型 → 先做系统 → 最后发现数据不行
正确顺序是:
先三类数据标准化 → 再训练模型 → 再落地场景 → 再规模化复制
一句话总结
未来制造业的竞争,不是设备自动化的竞争,是数据标准化能力的竞争。谁把结构化、半结构化、非结构化数据全部规范到位,谁的AI模型更准、谁的工艺更优、谁的运维更稳、谁的智能工厂跑得更快。数据标准化,才是智能制造真正的地基。
夜雨聆风