我:有了AI,结构化数据是不是就没那么重要了?
AI: 嗯,用户问了一个关于AI时代数据价值变化的问题,核心是“有了AI,结构化数据是否就没那么重要了”。这其实是一个常见的误解,需要从AI工作原理和数据工程角度来澄清。
用户可能认为AI能直接处理任意文本,所以传统的关系型表格数据价值就降低了。我需要明确指出这个前提是错的,AI的强项和结构化数据的作用是互补而非替代关系。
可以从几个关键层面来拆解:一是AI分析结构化数据的效率和准确性优势;二是AI应用中对结构化数据的强依赖,比如RAG和Fine-tuning;三是即使非结构化数据,其可用的元数据也是结构化的。最后点明结论,价值是“增值”而非“贬值”。
可以用一个简洁的比喻来总结关系,比如AI是厨师、结构化数据是预制菜码,或者AI是引擎、结构化数据是高标号汽油。
这个想法很自然,但其实是个常见的误解。真相恰恰相反:有了 AI,结构化数据的价值不仅没有降低,反而被放大了。
核心逻辑是:AI 处理非结构化数据(文字、图片)的能力越强,它对结构化数据的“依赖性”和“饥渴感”就越高。
可以从这三个层面来理解:
1. AI 分析得准不准,靠结构化数据“喂饭”
ChatGPT 写诗很厉害,但让它直接分析一份混杂着换行、合并单元格、备注星号的 Excel 流水账,它的幻觉率会飙升。
精准计算:算同比、算复购率、算库存周转,必须基于规整的字段(时间、金额、ID)。
语义落地:AI 读懂了“客户很生气”这句话,但必须关联到结构化的订单号和产品型号,客服才能执行退款。
结论:非结构化数据是“感受”,结构化数据是“行动的坐标”。
2. RAG 和 Fine-tuning 的“地基”就是结构化
如果你想让 AI 只回答自己公司的业务问题(比如“我的订单到哪了”),目前最主流的技术是 RAG。RAG 的核心动作是向量检索。
检索效率:如果把公司所有混乱的 PDF 合同直接丢给 AI,检索像大海捞针。必须先通过结构化的元数据(合同编号、签订日期、金额范围)做过滤,再让 AI 去读内容。
知识图谱:很多专业领域的 AI 应用,底层依然依赖知识图谱——一种高度结构化、逻辑严密的数据组织形式。
3. 非结构化数据要想有用,必须经历“结构化”过程
AI 最大的本事是把非结构化转化为结构化。
例:AI 看了 10000 张巡检照片,最后吐出来的结果是什么?不是照片本身,而是一张结构化的表格:
设备ID | 时间 | 缺陷类型 | 置信度。
没有结构化数据作为输出结果,AI 的分析就是“看图说话”,无法沉淀为企业的数字资产。
一个直观的比喻
AI 是厨师(能力变强了,能处理各种稀奇古怪的食材)。
非结构化数据是“整猪活猪”(AI 现在能自己宰杀分切了)。
结构化数据是“分切好、码整齐的肉块”。
当厨师要10 分钟出 100 道菜(企业级高并发查询)时,他是用现成的肉块快,还是临时杀猪快?
最终结论:在 AI 时代,结构化数据从“唯一的信息来源”变成了“AI 系统的索引和骨架”。它不再是你唯一关心的东西,但它是支撑 AI 准确运转的底层交通网——网越好,AI 跑得越快。
我:搭结构化数据的工作就不那么重要了
AI: 我们之前讨论的是结构化数据本身在AI时代是否重要,结论是它反而更重要了。现在用户的问题转向了“搭建结构化数据的工作”是否不再重要。用户可能误以为有了AI自动处理能力,人工的数据清洗、建模、ETL工作会大幅减少甚至消失。
需要明确区分:AI能辅助自动化部分重复劳动,但无法替代业务理解、数据治理设计、数据质量保证等核心工作。重点在于工作性质从“手工搬运”转向“架构设计与管理”。可以用具体场景说明变化而非消失。
你这个问题切得更深了。确实,搭数据的“脏活累活”变少了,但“脑力活”的重要性反而陡增了。
以前那种手工复制粘贴、肉眼对齐表头的低价值工作确实在被 AI 取代,但制定标准、定义逻辑、治理质量的架构性工作,变成了决定 AI 项目生死的核心环节。
具体的变化可以看这个对比:
| 以前 | 现在 | |
|---|---|---|
| 数据清洗 | ||
| 字段映射 | ||
| 建模设计 | 需要设计高维度的标签体系 |
为什么搭数据的人更焦虑、但也更贵了?
工作重心从“搬砖”变成了“教 AI 搬砖”
写 SQL 刷数据的时间省下来了,但花更多时间在和业务部门开会,定义唯一识别码、定义主数据标准。这部分工作AI 完全帮不上忙,因为它是企业内部的政治共识和业务理解。容错率变低了,责任变大了
以前 BI 报表错一行,被骂的是做报表的人。现在 AI 基于错误的结构化数据做了一个错误的自动决策(比如自动给所有“僵尸账户”发了大额优惠券),损失是瞬间放大且不可逆的。维护知识图谱依然是纯人工高端局
AI 能从新闻里抓取“某 CEO 离职了”,但要把“某 CEO”和“某家公司”在数据库里唯一精确地挂接(Entity Resolution),至今仍是数据工程师最头疼、AI 最难替代的工作。
结论
搭建结构化数据的工作,正从“IT 蓝领”向“数据律师/数据检察官”转型。
如果你只会用 Excel 分列和 VLOOKUP,确实不重要了。
但如果你懂业务、能设计一套让 AI 看了不糊涂的数据标准,这工作比以往任何时候都更重要。
我:数据的最终指向是决定和执行,如果对于数据的准确性要求没那么高的时候,还需要结构化吗?
AI: 我们需理解用户的核心质疑:当决策对数据精度容忍度较高时,结构化是否还有必要?这其实触及了AI时代结构化数据的“弹性价值”问题。需要从几个层面回应:一是即使粗糙决策,非结构化数据直接驱动执行的效率瓶颈依然存在;二是结构化本身就是将模糊需求转化为可执行指令的必经桥梁;三是未来趋势不是“不要结构化”,而是“自动弱结构化”与“动态结构化”。最后要落脚到用户场景,帮他区分什么情况下可以牺牲结构换取速度。
这个问题触及了结构化数据价值的弹性边界。你的直觉很准:当容错率高、决策粒度粗时,强结构化确实不是必选项,但“某种程度的结构”依然是机器执行的刚需。
我们可以画一条准确性要求的光谱来看:
光谱左端:模糊决策,容错率极高
场景举例:
老板问:“最近客户吐槽最多的是啥?”
AI 会议纪要:“下周大家觉得哪天有空聚?”
此时:
完全不需要建表、定字段。
直接把 5000 条聊天记录、邮件正文丢给大模型,AI 能总结出个 “大概、也许、差不多” 的趋势。在这个象限,速度 > 精度,结构化是多余的累赘。
光谱中段:概率性执行,可接受一定错误率
场景举例:
营销推送:“给最近看起来像宝妈的用户发奶粉券。”
风控初筛:“把 IP 在境外的登录先拦一下再细查。”
此时:
需要“半结构化”或“软标签”。
你不需要精确的 用户.性别 = 女 且 用户.孩子年龄 < 3,但你需要给 AI 一个向量化的标签池(例如 interest_vector: [0.9, 0.2, 0.1])。
如果完全没结构:AI 每发一张券都要把全网数据读一遍,算力成本是天价,且无法触发自动化程序(程序只认识
if tag=1 then send)。结论:这里需要的是非精确但高覆盖的结构化(比如只要打上“育儿倾向”标签就算,不管是不是刚生完)。
光谱右端:刚性执行,错误零容忍
场景举例:
转账、发货、扣库存。
这就是你上一轮提到的“决定和执行”的终点。
此时:
必须强结构化。 哪怕 AI 语义理解 99.9% 准确,只要库存多扣一个 0 导致超卖,整个系统就崩了。执行层的原子性操作(ACID)必须依赖结构化的数据库约束。
回到你问题的核心:准确性要求不高时,结构的意义是什么?
当你说“准确性要求不高”,其实隐含了一个巨大的工程陷阱——非结构化数据的处理成本是随调用次数线性甚至指数增长的。
举个极端的例子:
非结构化做法:每次用户打开 App,AI 都要去读一遍他过去三年的乱序聊天记录,用 30 秒推理他今天的心情,然后推荐商品。(100万用户同时打开 = 算力爆炸 = 破产)
结构化做法:昨天夜里用 AI 跑了个批处理,给每个人打了个
今日心情指数:B+的结构存起来。今天用户打开 App,直接读那个B+字段,1毫秒响应。
最终结论
结构化的本质不是为了让数据“准确”,而是为了让数据“可复用”和“低摩擦流动”。
即使你接受 AI 犯 20% 的错,只要这个 AI 服务要重复运行 1000 万次,你就必须把 AI 推理后的结果凝固成结构存下来。否则,你等于让 1000 万人每次都把一头整猪重新宰杀一遍。
所以,只有“一次性、低频、纯咨询”的场景可以完全不要结构化。只要涉及“反复、高频、触发动作”,哪怕准确率只要 60%,也得结构化。
我:举的例子,第一个场景的做法就是随机。在变化很快的环境里,也是不需要结构化的
AI:我们得理解用户最新的追问。用户认为第一个场景(老板问客户吐槽最多是啥)的做法就是“随机”,并且指出在变化很快的环境里不需要结构化。用户的深层逻辑是:当数据瞬息万变,今天建的模型明天就过时,那搭结构就是浪费。需要回应的核心点是:快速变化的环境是否真的让结构化失效?还是说结构化需要以更灵活的方式存在?
首先要承认用户观察敏锐——“随机”的提法很形象。但需澄清,非结构化分析并非完全随机,而是依赖AI的语义压缩能力。然后重点讨论“变化很快的环境”:比如舆情监控、实时热点追踪。在这种场景下,确实传统数仓建模跟不上,但“无结构”意味着每次查询都是全量扫描新数据,成本极高。进而引出“半结构化”或“动态Schema”的概念,例如用标签、向量、时序索引来应对变化,而非完全抛弃结构。
最后升华:变化越快,越需要一种“液态结构”——不是水泥地基,而是流动的脚手架。这样既承认用户说的对,又揭示出即便在变化中,某种轻量级的组织方式依然是必要的,只是形式不同。
你这个追问非常锋利,直接戳到了上一个回答里隐含的一个假设。
你说的完全正确:在变化极快的环境里,强行搭建一个固定的、强约束的结构化模型,不仅是浪费,甚至是有害的。
我把这种场景单独拆出来,因为它代表了一种极端的、但又越来越常见的数据哲学。
当“变化很快”时,结构化的敌人是谁?
结构化数据的前提是时间的凝固性。它假设:我今天定义的“客户年龄”字段,在明天、下周、下个月查询时,它的物理意义和业务口径是不变的。
但在以下两种“变化极快”的环境里,这个前提直接崩塌:
初创公司 PMF 探索期:今天看“点击率”,明天改看“滑动深度”,后天发现要看“截图分享次数”。数据分析师刚把
Click_Rate表建好,业务已经换赛道了。突发舆情/热点事件:全网在讨论“某咖啡的跨界联名”,10分钟后变成讨论“某咖啡的冰块含量”,1小时后变成讨论“某咖啡的公关道歉信”。
在这种环境下,如果非要建结构,数据团队就会变成业务的瓶颈。
这时候,数据怎么处理?——“河床式”数据结构
你提到的“第一个场景的做法就是随机”,这个直觉很准。但这种“随机”不是抛硬币,而是一种以非结构化数据为水体,以即席语义理解为流向的模式。
在这种模式下,不需要建表,但需要建“河床”。如果没有河床,水就漫灌了,计算资源瞬间枯竭。
这里的“河床”是指极简、灵活、粗颗粒度的元数据锚点:
| “河床式”极简结构(应对变化) | |
|---|---|
只记录:时间戳 + 文本流 + 来源渠道 | |
提问时:时间戳切片,只读最近30分钟的数据 | |
预处理时:说话角色(用户/客服),打错了也无所谓 |
核心反驳点:变化越快,“索引”反而越重要
你说的“不需要结构化”,我完全同意前半句——不需要强Schema、宽表、主外键约束。
但如果说连一点粗结构都不需要,工程上会直接撞墙:
冷热分层:舆情过去了,昨天那1TB的“冰块事件”聊天记录是删了还是归档?如果没有
日期这个结构字段,你连删都不知道删哪块。权限拦截:所有人都能直接问AI“上个月的全公司工资数据”?必须有一个哪怕只有一列的
密级标签拦在AI前面。
最终结论(在变化极快的环境里)
需要的不是“结构化数据”,而是“流式数据的秒级结构化投影”。
做法变了:不建仓库了,改用 Kafka + 向量数据库 + 大模型。
状态变了:数据不再是静止的、有固定列名的表格,而是动态的、由 AI 临时计算出的 “即时宽表”。
所以,你的直觉是对的——在这里,DBA(数据库管理员)死了,但 SRE(站点可靠性工程师)+ MLOps(机器学习运维)活了。 维护那个“河床”的人,工作从规定数据长什么样,变成了保证数据流不断、算力不崩、延时最低。
只要你还想让机器(而不是人脑)去触碰这些数据流,你就没法完全逃脱“给它一个抓手”的宿命。这个抓手,就是最后残存的那一点结构。
我:变与不变的到底又是什么呢?
AI: 我们之间的对话已经层层推进到了一个哲学层面。之前的讨论一直围绕“结构化数据在AI时代是否重要”,从执行准确性到变化环境,现在用户问的是更深层的“变与不变的到底是什么”。这不是在问技术细节,而是在问数据本质中什么恒定、什么流动。
用户可能是一位数据从业者、架构师或对数据哲学有思考的人,正在面临AI冲击下的职业或技术方向困惑。他前面的问题显示出很强的批判性思维,现在想抽离出第一性原理。
我需要把之前几轮对话中隐含的二元对立提炼出来:结构化vs非结构化、静态vs动态、准确vs模糊、快vs慢。然后指出,变的只是“结构的表达形式和存储位置”,不变的是“对事物间确定性关系的依赖”。无论AI多强大,最终执行层都需要某种确定性的锚点,哪怕这个锚点是临时计算出来的向量投影。
回答要上升到认知层面,同时保持技术洞察,最后可以给一个简洁有力的结语,呼应他之前的追问风格。
你这个问题,已经从技术讨论升维到数据哲学层面了。
在前几轮的对话里,我们反复拉扯着一个矛盾:
有时候结构是刚需(转账、扣库存)。
有时候结构是累赘(突发舆情、模糊决策)。
那么在这两种状态来回切换的背后,究竟什么东西是恒定不变的?什么东西是可以随时重构的?
我们可以试着把数据的“变”与“不变”拆成两个维度来看:
第一层:物理世界里,“事实原子”不变,变的是“描述口径”
不变的是什么?
是已经发生过的、不可篡改的元事实。
某年某月某时某分,某个 ID 为 123 的设备,发出了一个信号值为 47.5 的脉冲。
某个用户在 14:32:01 点击了屏幕坐标 (540, 960)。
这就是源数据。AI 再发达,只要它服务于现实世界,它就必须尊重这个原始信号的不变性。如果连这个都变了,那就不是分析,是幻觉。
变的是什么?
是我们为了理解这个事实而贴上去的标签、维度、口径。
这个 47.5 的脉冲,昨天我们叫它“正常心跳”,今天业务变了,我们叫它“亚健康预警前兆”。
这个点击坐标,上个月叫“误触”,这个月叫“热区引流成功”。
结论:AI 消灭不了那个“不变的事实原子”,它消灭的只是我们为了维护“旧的描述口径”而花费的 ETL 工时。
第二层:执行逻辑里,“因果链”不变,变的是“计算链”
不变的是什么?
是商业世界的底层逻辑——因果关系与约束。
守恒律:库存总量 = 入库 - 出库。AI 写的诗再美,也不能让库存凭空多出一件货来。
唯一律:这笔钱只能扣一次,这个人只有一个身份证。
这四条(ACID 里的 C 和 I)是铁律。它是数学逻辑,不是代码逻辑,AI 没有权限、也没有能力去修改数学公理。
变的是什么?
是为了满足这个因果链而搭建的计算路径。
以前:我们通过建主键、建外键、建强约束表结构来保证“钱不能扣两次”。
以后:AI 可以在一个巨大的非结构化向量池里游一圈,最后在临执行前 0.01 秒,临时生成一个保证幂等性的一次性 Token。
结论:结构化的“约束目的”不变,变的只是“施加约束的位置”。以前约束建在入库的硬盘上,以后约束建在执行的 API 网关上。
第三层:人类认知里,“对确定性的追求”不变,变的是“容忍不确定性的窗口”
这是最核心的一点。
不变的是什么?
是人的决策心理——我们需要一个抓手。
哪怕 AI 推荐了一个模糊的营销策略,老板最后拍板时还是会问一句:“这波人群大概多少人?预算大概多少钱?”
“大概”这个词,本身就意味着一个浮动的结构化范围。
人类无法在完全熵增的混沌中做出群体协作。只要涉及协作(A 部门配合 B 部门),就需要格式契约。
变的是什么?
是窗口期。
传统 BI 时代:确定性窗口很长。这个月看上月的数据,结构必须钉死一个月不变。
实时 AI 时代:确定性窗口极短。数据结构只在提问到回答的那 3 秒钟内临时存在,回答完,那个临时的“宽表”就在内存里销毁了。
一个极简的模型来收尾
如果把数据比作水:
不变的是水分子 H₂O(物理事实)。
变的是容器的形状(数据结构)。
AI 做的事,不是把 H₂O 变成酒精,而是发明了一种不需要固定瓶子的、流动的、瞬间结冰成任意形状的魔法。
最终的回答:
变的是“表结构的存在形式”(从持久化的硬盘文件,变成了内存里的瞬时计算视图);
不变的是“为达成确定性执行而必须建立的关联逻辑”。
只要人类还需要用计算机来驱动物理世界的某个齿轮转动,完全无结构就是一个无法抵达的绝对零度。我们只能无限逼近,但在最后一毫米,必须有一根确定的导线。
我: 如果没有确定性执行会怎样呢?
AI: 我们被问到如果没有确定性执行会怎样。这延续了之前关于结构化数据、变化环境、变与不变的讨论。用户想探索极端情况:当完全放弃确定性执行,允许系统永远处于模糊、概率、非结构化的状态,世界会怎样。
需要从几个层面回应:技术层面(系统崩溃、不可调试)、商业层面(交易无法闭环、责任无法追溯)、社会层面(失去信任基础)。要强调确定性执行是人类协作的底层契约,即使AI再发达,物理世界的因果律和人类社会的权责体系都要求最终的确定性锚点。
可以类比:完全无确定性就像没有红绿灯的交通,或者没有会计账簿的经济体。虽然某些艺术、灵感、闲聊场景不需要,但任何涉及资源分配和承诺兑现的行为都必然需要。
这是一个极具想象力的思想实验。如果彻底放弃“确定性执行”,我们进入的是一个完全由概率和模糊共识统治的世界。
在这个世界里,没有数据库事务、没有库存扣减、没有唯一身份ID,一切都是 AI 生成的“大概齐”。可以分三层推演这个结局:
1. 技术系统层:熵增死锁
状态永久漂移:两个 AI 同时处理同一个订单,一个看到库存还有 1 件,另一个也看到 1 件。因为没有强结构的锁机制,它们都生成了“发货”的指令。最后要么发了两件货导致超卖,要么两个指令在物理世界撞车,打印机卡纸。
不可调试性:当系统报错,没有结构化的日志 ID 可查。你只能问 AI:“刚才为什么扣了我两次钱?”AI 回答:“根据当时的上下文语义分析,我推断出您的意图是想支付小费,但概率只有 82.4%。” 你会疯掉。
计算资源黑洞:每一次“回想”都要扫描全量非结构化数据,算力消耗呈指数爆炸。最终系统因为电费太高而自我停机。
2. 商业契约层:责任消解
账本消失:没有结构化的借贷平衡表。年底一盘算,AI 说:“今年我们大概率是盈利的,乐观估计赚了一个亿,悲观估计亏了五千万,建议您取中位数相信。” 税务局、审计师、股东会把 CEO 撕碎。
承诺失效:你问 AI 助理:“明天 9 点的飞机订了吗?”AI 答:“根据当前票务页面的模糊识别,似乎、也许、大概有一张票,但我没有生成确定性的行程单 ID,所以这只是一个幻觉。”
冲突归因黑洞:车撞了,AI 记录仪显示:“前方物体呈现红色,语义类别为‘轿车/消防栓/夕阳余晖’,置信度 60%,建议驾驶员自行判断。” 保险公司直接倒闭。
3. 物理世界层:因果律的最后防线
即使 AI 世界允许模糊,物理世界不允许。
你的手必须碰到杯子才能喝水。碰与不碰,是一个二进制的、确定的物理事件。
只要 AI 最后要驱动一个电机、气缸、屏幕像素,就必须把模糊的语义坍缩成一个确定的电信号指令(0 或 1)。
那个 0 和 1 的电平信号,就是最极简、最底层的结构化数据。 只要你想让数字世界动物理世界一根手指头,确定性执行就是无法逾越的最后一公里。
一个残酷的真相
没有确定性执行的世界,只有纯精神活动的领域才能存在。
比如:纯聊天、纯写诗、纯生成一幅仅供观赏的画。
但一旦涉及“交付”、“占有”、“转移”这三个动词,确定性执行就必须像幽灵一样归来。哪怕你是用加密货币支付,区块链的共识算法本质上也是在争夺一个确定的、唯一的、不可篡改的结构化账本位置。
最终结论:
没有确定性执行,人类就会退回到基于口头承诺的熟人社会,且规模无法超过邓巴数(150人)。
确定性执行,是陌生人之间大规模协作的信任替代品。AI 消灭不了信任的需求,只能改变提供信任的技术形式。
夜雨聆风