行业现状
过去两年,很多企业已经完成了 AI 知识库的第一轮建设:把制度文件、研发文档、设计资料、项目报告、测试用例、缺陷记录、会议纪要和专家经验接入大模型,让员工可以“问文档”“找资料”“做总结”。
这一步很有价值,但它解决的主要是“AI 能不能读到资料”的问题。
当企业真正希望 AI 进入业务流程,参与研发协同、设计检查、仿真验证、测试生成、质量分析、工艺优化和辅助决策时,会发现一个更深层的问题:AI 读到了很多资料,却不一定理解企业的业务结构。
尤其在工业软件场景中,企业数据不仅是文档,还包含 CAD 设计、CAE 仿真、工艺路线、制造约束、测试验证、质量问题和运维反馈。这些资料背后有大量专业概念、工程规则、状态关系、历史经验和专家判断。
如果这些内容只是以文档片段形式进入知识库,AI 很容易停留在“能回答、能总结”的阶段;如果它们被治理成稳定、可追溯、可复用的企业语义资产,AI 才可能真正进入业务流程,成为研发、制造和管理人员可信赖的协同工具。
一、企业 AI 落地正在进入第二阶段
第一阶段,很多企业关注的是知识库建设。
把资料汇集起来,切分、索引、向量化,再通过大模型完成问答和摘要。这类项目见效快,适合做 AI 应用的起步。
但进入第二阶段,企业关注的问题会发生变化:
AI 能不能理解企业的业务对象? AI 能不能知道数据之间的关系? AI 能不能区分需求、规则、设计、测试、缺陷和经验? AI 能不能在权限约束下调用正确的数据? AI 能不能生成可追溯、可评估、可审计的业务结果? AI 能不能复用企业已有专家经验,而不是每次重新猜?
这时,单纯“把文档放进知识库”就不够了。
企业需要建设的是 AI-Ready 数据治理体系,也就是把非结构化资料、半结构化表格、结构化业务数据和专家经验,治理成 AI 可以稳定消费的企业语义资产。
二、为什么工业软件是高价值场景
工业软件不是普通办公软件。它往往贯穿设计、仿真、工艺、制造、检测和运维多个环节,既包含软件工程知识,也包含大量工业机理和专业规则。
以工业软件研发为例,企业内部通常沉淀了这些资料:
需求说明、设计文档、交互原型、评审意见。 CAD 模型、装配关系、几何特征、材料和公差信息。 CAE 仿真模型、边界条件、网格策略、求解器参数和后处理结果。 工艺路线、工序工步、设备资源、刀具夹具、工艺参数和质量控制点。 测试点、测试用例、缺陷记录、回归测试和专家经验。 质量问题、现场反馈、运维记录和问题复盘。
这些资料不是孤立存在的。一个设计特征变化,可能影响仿真网格、边界条件、工艺路径和检测项目;一个制造质量问题,也可能反向暴露设计假设、工艺参数或仿真验证不足。
所以,工业软件场景下的 AI 数据治理,不能只做文档问答,而要面向业务链路建立语义层。
三、行业趋势:本体和语义层正在成为 AI 落地关键
近期 LLM 与知识图谱、本体工程相关研究明显升温。一个重要共识是:企业 AI 不能只依赖 RAG 检索文档,还需要结构化语义来表达实体、关系、规则和约束。
通过 LLM 构建本体和知识图谱的几类方法,包括流水线拆解、聚类驱动、两阶段生成、Schema 约束抽取和端到端 Prompt。其中一个很关键的判断是:生产级系统不能只靠一次性提示词,必须有结构化抽取、Schema 约束、验证机制和持续评估。
这对企业非常重要。
过去,企业做知识图谱和本体,常常遇到成本高、周期长、专家参与难、后续维护难的问题。现在 LLM 能够帮助企业从非结构化资料中抽取候选实体、关系和规则,但 LLM 也会带来幻觉、粒度不稳定、层级错误和结构不一致等问题。
因此,更务实的方向不是“让 LLM 一次性自动建好本体”,而是建立人机协同的语义治理流程:
业务资料
→ AI 辅助抽取实体、规则、状态和关系
→ Schema / 类型系统校验
→ 专家确认
→ 进入企业语义资产库
→ 被 Agent 和业务系统调用
→ 使用结果继续反哺知识资产
这也是企业从“知识库建设”走向“语义资产治理”的关键变化。
四、从文档知识库到企业语义资产
传统知识库以文档为中心。它关心的是资料在哪里、如何检索、如何回答问题。
企业语义资产以业务对象为中心。它关心的是:
企业有哪些核心对象。 对象之间有什么关系。 哪些规则约束对象行为。 哪些状态代表业务过程。 哪些经验可以复用。 哪些结论可以追溯。 哪些数据可以被当前用户合法使用。
在工业软件场景中,可以把企业资料治理为以下语义资产:
设计语义:零件、装配、特征、尺寸、公差、材料、设计意图。 仿真语义:物理模型、边界条件、网格策略、求解器参数、结果指标。 工艺语义:工序、工步、设备、刀具、夹具、工艺参数、制造约束。 测试语义:测试点、测试用例、边界值、状态流、预期结果、优先级。 缺陷语义:问题类型、触发条件、影响范围、复现路径、修复经验。 质量语义:检测指标、质量问题、责任环节、追溯链路、改进措施。 专家知识:测试模式、设计准则、工艺经验、风险模式、领域机理。
这些语义资产不是替代原始文档,而是从原始文档和业务系统中提炼出来,成为 AI 可以稳定使用的业务结构。
五、一个结构化语义对象示例
企业语义治理不是抽象概念。它最终要落到可管理、可校验、可追溯的数据结构上。
例如,在工业软件研发中,一个功能配置项经过语义化治理后,可以形成类似这样的结构:
{
"asset_type": "SemanticObject",
"domain": "IndustrialSoftware",
"scenario": "SimulationTesting",
"feature": {
"name": "Mass Flow Outlet",
"name_cn": "质量流出口",
"category": "BoundaryCondition"
},
"rules": [
"Mass Flow Rate 默认值为 0 kg/s",
"Mass Flow Rate 合法范围为 [0,+∞)",
"Profile(Time) 模式必须引用有效时间数据表"
],
"states": [
"Constant 模式",
"Profile(Time) 模式",
"无时间数据表非法态"
],
"risks": [
"负值被接受导致反向流动",
"Profile 空引用导致求解器异常",
"单位换算错误导致计算偏差"
],
"test_patterns": [
"属性页完整检查",
"边界值验证",
"持久化验证",
"导出文件验证"
],
"source": {
"type": "expert_test_case",
"traceable": true
}
}
这个 JSON 示例的意义不在于格式本身,而在于它说明:企业可以把原本散落在需求、设计、测试和专家经验中的知识,转化为稳定的 AI 上下文。
AI 在生成测试、分析风险或回答问题时,不再只是读取一段文档,而是可以消费明确的规则、状态、风险、测试模式和来源证据。
六、案例:以工业仿真软件研发测试工作场景切入
在本项目中,我们选择工业仿真软件研发测试作为垂直场景,目标不是简单验证“AI 能不能生成测试用例”,而是探索一条更完整的企业非结构化数据治理路径:把研发过程中长期积累的文档、表格、原型、测试经验和工程知识,治理成企业知识资产、AI-Ready 数据和可供 Agent 调用的语义服务。
这个案例的业务目标可以概括为三句话:
第一,把散落在研发过程中的非结构化资料,转化为可追溯、可复用的企业语义资产。
第二,通过企业语义层和轻量本体建模,让 AI 不再只读文档,而是能够理解需求、设计、测试、缺陷、规则和领域知识之间的关系。
第三,面向测试人员和研发团队,形成可被 Agent 调用的知识服务和高质量数据集,为后续更大范围的工业软件 AI 应用打基础。
第一步:收集成套研发资料,而不是只收集单篇文档
项目首先收集当前研发过程中真实存在的案例资料,包括需求说明文档 PPT、设计交互说明文档、Axure 生成的 HTML 原型、测试点脑图、测试用例 Excel,以及相关的软件工程背景资料。
这里强调“成套案例”,是因为单独一篇需求文档无法完整表达一个研发事项。一个功能从提出到测试完成,至少会经历需求、设计、交互、测试、缺陷和评审等多个阶段。对人类专家来说,这些资料之间的关系可以靠经验串起来;对 AI 来说,如果没有统一语义层,这些资料很容易变成互不关联的碎片。
因此,项目不是简单做文档入库,而是围绕一个个研发 Story 收集完整上下文。
第二步:把多格式研发资料转成统一可处理形态
原始资料格式非常复杂:PPT、HTML、脑图、Excel、Markdown、工程配置文件等都有。项目将这些资料统一处理成 Markdown 或结构化中间格式,保留来源、版本、上下文和原始文件线索。
这一步看似只是格式转换,实际是后续语义治理的基础。只有先把不同来源的资料放到统一处理空间中,才能进一步识别其中的需求规则、设计状态、测试策略、边界条件、历史缺陷和领域知识。
对企业来说,这一步的价值是把“散落在文件系统和个人电脑里的资料”,变成可以被治理、被追溯、被复用的研发数据底座。
第三步:用专业测试 Agent 提取测试模式和领域知识
在资料准备好之后,项目引入 LLM、提示词、多 Agent 协作、角色设定和 few-shot 样例,创建专业测试 Agent。
AI Agent 不是简单根据需求生成用例,而是先从历史研发文档和测试案例中学习两类知识:
测试模式:例如边界值测试、状态流测试、互斥关系测试、持久化测试、导出文件验证、历史缺陷回归等。 领域知识:例如边界条件的物理含义、求解器参数约束、单位换算风险、数值稳定性、模型兼容关系等。
换句话说,项目不是一开始就要求 AI “替代测试专家”,而是先让 AI 帮助企业把测试专家过去已经沉淀在文档和用例中的经验抽取出来。
这一步形成的知识资产,才是后续 Agent 能力提升的基础。
第四步:让 Agent 生成测试点和测试用例,再与专家结果对齐
项目选取部分成套案例,也就是同时具备需求、设计、交互和测试资料的案例。然后让专业测试 Agent 根据需求和设计交互说明,结合前一步抽取出的测试模式和领域知识,生成测试点和测试用例。
随后,项目并没有直接把 AI 生成结果当成最终结果,而是将人类测试专家之前形成的测试点和测试用例放回系统,建立统一的 Semantic Layer。
在这个语义层中,项目分别抽取两类内容:
AI 生成的测试点和测试用例中的语义对象。 人类测试专家编写的测试点和测试用例中的语义对象。
然后对两者进行语义对齐。
这一步非常关键。因为企业真正需要知道的不是“AI 生成了多少条用例”,而是:
AI 覆盖了专家哪些测试意图? AI 漏掉了哪些关键状态? AI 是否理解了边界值和异常路径? AI 是否具备领域推理能力? AI 是否只是生成了形式正确但专业深度不足的内容?
通过语义对齐,企业可以把 AI 能力从“主观感觉”变成可分析、可度量、可优化的数据。
第五步:用 Agent 生成测试推理能力评估报告
完成语义对齐之后,项目进一步利用 Agent 对 AI 测试推理能力进行多维度评估,形成一组报告资产。
这些报告包括:
语义对齐报告:分析 AI 与人类专家生成内容在语义对象上的对应关系。 覆盖性分析报告:检查需求规则、状态、边界值、异常路径、工作流等是否覆盖完整。 测试风险检查报告:识别 AI 漏掉的风险点、历史缺陷和高风险场景。 测试模式对齐报告:评估 AI 是否正确复用了企业已有测试模式。 领域知识对齐报告:评估 AI 是否理解物理机理、求解器约束和工程背景。 AI 与人类专家对比报告:从多个维度量化 AI 与专家之间的差距。
这类报告的价值在于,它不只是评价 AI 结果好坏,更能告诉企业“AI 为什么不够好”“应该补哪些知识”“下一轮如何优化”。
这意味着评估报告本身也成为了企业数据资产的一部分。
第六步:根据评估结果反向抽取新知识
项目没有停留在报告阶段,而是继续把评估结果、软件工程背景、求解器参数、技术栈说明和全部案例内容作为新的输入,再次抽取知识。
这一轮抽取的重点不再只是测试用例,而是更深层的工程知识,例如:
物理推理规则。 设计交互状态机。 持久化验证规则。 数值稳定性风险。 求解器参数与 UI 配置之间的关系。 测试模式与缺陷模式之间的关系。
例如,对于工业仿真软件中的边界条件功能,普通 AI 可能只知道“某个配置项需要测试”。但经过知识再抽取后,系统可以进一步沉淀:
为什么这个边界条件与某类物理模型相关。 哪些参数变化会影响求解器行为。 哪些状态切换容易产生 UI 与底层配置不一致。 哪些边界值可能导致数值异常。 哪些历史缺陷应该触发回归测试。
这一步相当于把“评估 AI 的不足”转化为“提升 AI 的知识资产”。
第七步:抽取实体和关系,形成知识图谱
在形成测试模式、领域知识、物理推理规则和状态建模知识之后,项目进一步利用 Agent 抽取实体和关系,形成知识图谱。
在这个图谱中,企业不只是保存文档片段,而是保存研发对象之间的关系。例如:
边界条件
→ 物理模型
→ 参数规则
→ UI 状态
→ 测试模式
→ 测试用例
→ 缺陷风险
→ 求解器验证
这样的图谱可以帮助 Agent 更准确地召回上下文,也可以帮助测试人员和研发人员理解一个功能背后的影响范围。
例如,当某个求解器参数变化时,系统可以追踪它可能影响哪些 UI 配置、哪些测试模式、哪些历史缺陷和哪些回归用例。
第八步:服务化为 MCP,供测试人员调用
最终,项目计划将这些语义资产、知识工程成果、本体模型和知识图谱能力服务化,形成 MCP 服务,先供全公司测试人员调用。
对测试人员来说,他们不需要理解底层本体、图谱或数据结构,只需要在日常工作中通过 Agent 获取能力:
根据需求和设计生成测试点。 根据已有用例检查覆盖缺口。 根据功能类型召回测试模式。 根据物理模型召回领域知识。 根据历史缺陷补充回归场景。 根据 AI 生成结果进行风险评估。
这一步的业务意义在于:企业语义资产不再只是沉淀在后台,而是进入一线工作流,成为测试人员可以直接使用的能力。
这个案例最终沉淀了什么
通过上述过程,项目沉淀的不是一批孤立文档,也不是一次性的 AI 生成结果,而是一套可持续增长的企业数据资产:
一套经过治理的研发资料库。 一套统一的研发语义层。 一批测试模式和领域知识。 一组 AI 与专家对齐评估报告。 一批物理推理规则和状态建模知识。 一个面向研发对象的知识图谱。 一套可供测试人员调用的 Agent / MCP 能力。 一批可用于后续评估、优化和训练的高质量数据集。
这个案例说明,企业非结构化数据治理的目标,不是把资料简单搬进知识库,而是通过人机协同,把业务过程中的文档、经验、规则、判断和评估结果,持续转化为 AI 可理解、可调用、可治理的知识资产。
对 CIO 和数据部门而言,这类项目的价值也不只是提升测试效率,而是探索一条面向工业软件的 AI-Ready 数据治理方法:从真实业务场景切入,以专家经验为基准,以语义层为核心,以 Agent 调用为出口,逐步形成企业自己的高质量数据集和知识工程能力。
七、高质量数据集:企业 AI 能力的长期资产
企业建设 AI-Ready 数据,不应只理解为清洗数据、整理表结构或建设向量库。
对业务 AI 来说,高质量数据集应该包含业务语义、专家判断、AI 输出、评价标准和反馈闭环。
一个用于工业软件 Agent 评估和优化的数据集样本,可以设计为:
{
"dataset_name": "industrial_software_semantic_dataset",
"sample_id": "simulation_test_001",
"task_type": "test_reasoning",
"input": {
"requirement": "质量流出口支持常量和时间表两种质量流率定义方式",
"design_context": [
"常量模式默认值为 0 kg/s",
"时间表模式引用时间数据表变量",
"无时间表时应报错"
],
"domain_context": [
"质量流出口属于动量边界条件",
"质量流率不能为负",
"导出文件是 GUI 与求解器之间的关键合约"
]
},
"expert_baseline": {
"must_cover": [
"默认值",
"合法范围",
"空值异常",
"单位一致性",
"持久化",
"导出文件",
"求解器风险"
]
},
"evaluation": {
"dimensions": [
"需求规则",
"状态建模",
"边界值",
"风险意识",
"领域推理",
"持久化",
"数值稳定性"
],
"usage": "用于评估 Agent 是否具备工业软件测试推理能力"
}
}
这样的数据集可以服务多个目标:
评估 AI 生成结果与专家结果的差距。 沉淀企业测试模式和领域知识。 支撑 Agent 的持续优化。 帮助新员工学习专家经验。 为管理者量化 AI 落地效果。
对央国企数据部门来说,这类数据集很有战略意义。它把过去难以管理的专家经验、测试策略和工程判断,转化为可治理、可复用、可评估的数据资产。
八、三种路线:企业应该如何渐进建设
企业语义治理和本体建设有不同技术路线。参考当前行业讨论,可以大致分为三类。
第一类是“中台 + 图数据库”路线。
它把实体、关系、术语、规则和文档片段沉淀到统一知识图谱中,上层提供搜索、问答、图分析和 GraphRAG 能力。这条路线成熟度高,适合企业知识资产沉淀和关系分析,但如果要让知识直接参与业务执行,还需要额外的服务层和流程集成。
第二类是“Agent + Action”路线。
它把知识图谱、数据库、搜索、业务系统 API 封装成 Agent 可调用的工具,让 AI 根据任务动态选择能力。这条路线落地快、交互自然,适合先在具体业务流程中试点。但如果底层没有稳定语义模型,Agent 可能会出现调用不稳定、参数不一致、过程难审计等问题。
第三类是“本体原生”路线。
它希望让本体不只是被查询的知识结构,而是成为系统运行时的一部分,直接约束对象、规则、流程和动作。这是更长期的方向,适合在业务模型稳定、组织能力成熟之后逐步探索。
对大多数企业而言,更合理的路线不是三选一,而是渐进组合:
第一步:选一个高价值业务场景,沉淀语义对象和知识资产
第二步:通过 Agent / Action 快速进入业务流程
第三步:把稳定对象和关系沉淀为知识图谱
第四步:建立类型校验、权限、版本和质量治理机制
第五步:逐步探索本体对业务流程和 Agent 行为的约束能力
这样既能快速验证业务价值,又能避免一开始就陷入重型平台建设。
九、行业方法:从端到端 Prompt 转向可治理流水线
结合当前 LLM 构建本体和知识图谱的行业趋势,可以看到一个清晰方向:企业级系统正在从“端到端 Prompt”转向“可治理流水线”。
可治理流水线通常包括:
数据预处理:把文档、表格、图纸说明、测试用例等整理为可抽取内容。 实体抽取:识别零件、特征、参数、模型、规则、缺陷等对象。 关系抽取:识别依赖、约束、影响、验证、冲突、上下位等关系。 归一化和对齐:合并同义词、别名、跨系统 ID 和相似概念。 Schema 校验:检查字段、枚举、来源、关系是否合法。 专家确认:对低置信度或高风险知识进行人工审核。 图谱或语义层入库:形成可查询、可追溯、可复用资产。 Agent 调用:让知识资产进入实际业务流程。 评估反馈:用业务结果继续优化知识资产。
这也是为什么行业越来越强调 Schema-Guided Extraction、Ontology Matching、Ontology-Guided RAG 和持续评估。因为真正的企业 AI 系统,不能让大模型随意写入知识库,必须有结构、有边界、有校验、有反馈。
十、建议的实施路径
面向 CIO 和数据部门,建议不要一开始就建设大而全的平台,也不要一上来就做复杂本体工程。
更务实的路径,是从一个高价值业务场景开始,逐步形成闭环。
第一阶段,选择样板场景。可以选择一个工业软件研发、测试、设计或工艺场景,收集需求、设计、测试、缺陷和专家评审资料,完成一次端到端语义治理。
第二阶段,建立语义工作空间。让业务人员在熟悉的研发流程中沉淀语义资产,而不是额外填写复杂表格。
第三阶段,沉淀知识资产和数据集。把测试模式、设计规则、工艺约束、缺陷模式、专家经验和评估报告转化为可复用数据资产。
第四阶段,服务化给 Agent 使用。让测试人员、研发人员、工艺人员和管理者在日常工作中通过 AI 助手调用这些资产。
第五阶段,逐步扩展到 CAD、CAE、工艺、制造、质量和运维场景,形成更完整的工业软件企业语义层。
第六阶段,建立治理机制。将权限、版本、来源、质量校验、人工确认和审计留痕纳入语义资产管理。
这条路线的优点是投入可控、价值可验证、组织容易接受,也能避免“先建平台、后找场景”的常见问题。
十一、CIO 和数据部门需要关注什么
对企业 CIO 来说,这类项目的重点不是引入某个单点 AI 工具,而是建设面向未来的企业 AI 基础能力。
需要关注的问题包括:
企业是否拥有可被 AI 稳定消费的语义资产。 AI 生成结果是否可追溯、可评估、可审计。 专家经验是否能通过业务流程持续沉淀。 知识库、主数据、业务系统和 Agent 是否能够协同。 权限、安全、版本和质量治理是否进入 AI 上下文。 试点项目是否能沉淀为可复用的数据集和方法论。
对数据部门来说,这也是数据治理边界的扩展。过去数据治理更多关注结构化数据、主数据、指标口径和数据质量。现在,随着 AI 进入业务流程,非结构化知识、专家经验、业务规则、测试模式、领域推理和业务评估结果,也需要被纳入数据资产管理范围。
也就是说,企业数据部门未来不仅要治理“表里的数据”,还要治理“业务过程中的知识”。
结语
企业 AI 落地的下一阶段,不是把更多文档塞进知识库,而是把业务过程中的知识、规则、经验和判断治理成 AI 可用的语义资产。
工业软件是这个方向的高价值场景。它既有复杂的非结构化资料,也有明确的工程规则、专业机理和专家经验;既能验证 AI 的实际能力,也能沉淀高质量数据集和知识资产。
对 CIO 和央国企数据部门来说,这类项目的价值不只是提升某个单点环节的效率,而是探索一条从非结构化资料到企业语义层、从专家经验到知识资产、从文档问答到 Agent 协同的 AI-Ready 数据治理路径。
下一篇文章,我会用真实的工业软件研发测试场景,具体对比两种方式的差异:
一种是直接把需求文档交给 AI,让它生成测试用例;另一种是先进行语义化治理,抽取实体、规则、状态、测试模式和领域知识,再让 Agent 基于这些结构化上下文生成测试用例。
两种方式最终生成的测试点、覆盖范围、风险识别、边界值处理和领域推理深度,会有明显差异。
如果你也关心“知识库问答”和“真正可落地的 Agent”之间到底差在哪里,欢迎关注。我会用实际项目案例说明:为什么企业 AI 落地的关键,不只是模型能力,而是语义化数据资产。
夜雨聆风