为什么超一半的 AI 项目死在了“验证期”?揭秘背后的数据“烂尾楼”——糟糕的数据基础如何阻碍价值落地
导语:2025年底的一项数据显示,超过一半的生成式AI项目在做完精美的概念验证(POC)后,就悄无声息地被放弃了。为什么在老板面前演示得惊艳无比的AI,一到真刀真枪的生产环境中就原形毕露?答案很简单,却往往被忽视:你的数据底座,根本撑不起AI的野心。

在AI的浪潮中,企业很容易被各种大模型(LLM)的炫酷能力所吸引,却往往低估了“喂养”这些模型所需的数据准备工作。今天,我们就来深度剖析,为什么数据质量会成为AI规模化落地的最大绊脚石,以及CIO们该如何破局。
一、🚨 POC 的“美颜滤镜”与生产环境的“素颜暴击”
在概念验证(POC)阶段,技术团队通常会精心挑选最干净、结构最完整的数据集,并在严格控制的环境下运行模型。在这个“温室”里,AI 的表现自然令人惊叹。
但当项目准备推向全公司时,现实的毒打接踵而至:
-
结构化数据的谎言:存在ERP或CRM里的表格数据,其实并没有想象中那么整齐,到处是空值、乱码和历史遗留的错误分类。
-
非结构化数据的深坑:那些堆积如山的扫描件、PDF文档和杂乱的表单,在被AI有效匹配和使用之前,需要极其繁琐的清洗和转换。
-
元数据(Metadata)的缺失:很多组织缺乏标准化的高质量元数据。AI智能体可能有权限访问数据,但如果不知道某个特定字段在业务背景下到底代表什么,它依然是个“瞎子”。
这就导致了一个致命的翻译鸿沟。AI无法理解你的业务逻辑,输出的结果必然是不可靠、不完整甚至极具误导性的。
二、💡 破局之道:重塑对数据的认知与治理
既然数据是AI的命门,技术领导者该如何破局,跨越从POC到生产环境的“死亡之谷”?
1. 转变思维:数据是核心产品,而非副产品
不要再把数据仅仅当成业务系统运转后留下的“废料”。在AI时代,数据必须被视为企业的一级资产和核心产出。CIO需要像管理任何主营产品一样,对数据的生命周期进行精心规划。
2. 告别“人类速度”,构建“机器友好”的数据管道
过去的数据治理框架,大多是为“人类看报表”而设计的。但AI处理数据的速度和数量是指数级的。
未来的数据交付必须从“以人为中心”转向“机器可操作”:数据需要被精准的元数据包裹,通过现代协议(如MCP服务器)对外暴露,并受到严格的分级脱敏和访问控制。
3. 用例导向:不要试图一次性清洗所有数据
面对堆积如山的历史数据,企图一次性全部清洗干净是不现实的。正确的策略是:挑选5到10个高价值的核心用例,倒推这些用例需要什么样的数据,然后集中火力去准备这些特定的数据管道。
4. 用 AI 打败 AI:让魔法打败魔法
既然人工清理数据太慢,为什么不用AI来帮忙?
企业可以使用受到严格提示限制的小型语言模型(SLM),专门用来清理、标准化特定领域的数据,甚至起草组织内部的数据定义。当然,这必须建立在严格的“人在回路(Human-in-the-loop)”机制上,由人类专家把最后一道关。
总结:
在生成式AI的竞赛中,模型的能力只是浮在水面上的冰山一角,沉在水面之下庞大且坚固的数据基石,才是决定项目成败的关键。为AI做好数据准备,永远不是一个“毕其功于一役”的任务,而是一场需要随着业务演进不断迭代的持久战。只有把数据底座夯实,AI才能真正从实验室的“玩具”,变成驱动企业增长的引擎。
全文:糟糕的数据基础如何阻碍AI价值落地
统计数据显示,到去年年底,超过一半的生成式AI(人工智能)项目在POC(概念验证)之后被放弃,这在很大程度上是由于数据准备不足。那么,IT领导者可以做些什么来更好地实现规模化落地呢?

图源:Rob Schultz / Shutterstock
AI的前景是巨大的,但质量不佳的数据破坏了从它那里获取任何价值的每一次尝试。如果没有正确的输入,AI会产生不可靠、不完整甚至具有误导性的结果。
Iterate.ai的CTO(首席技术官)Brian Sathianathan(布莱恩·萨蒂亚纳坦)表示,对于一般企业来说,数据以多种形式存在于多个系统中,整合结构化和非结构化数据比大多数AI试点项目所考虑的要困难。“来自运营系统的结构化数据很少像团队所假设的那样整齐,而像扫描文档和表格这样的非结构化数据,在能够有效匹配和使用之前,需要不同的准备过程,”他说,并补充这可能解释了为什么企业在试图超越概念验证阶段时会遇到障碍。
Investec的集团技术战略主管Rhian Letts(里安·莱茨)表示,拥有令人印象深刻的POC的组织通常会成功,因为它们依赖于精心挑选的数据集、手动解决方法和严格控制的环境。真正的挑战在于将试点项目转化为可靠的、生产级别的实施。她补充说,扩展需要高可用数据管道、一致的定义、运营支持以及与真实工作流程的集成。这也提高了对数据治理的要求。
她说:“许多数据治理框架是为人类速度的消费而设计的。AI显著提高了数据需求的速度和数量,并引入了非人类消费者。因此,治理需要发展为更加自动化、实时化,并明确说明数据来源和用途。”
对于技术公司ADG的首席技术官Daniel Acton(丹尼尔·阿克顿)来说,太多的组织急于利用AI做些什么,却没有正确分析它们实际想用AI做什么。“AI可能很有用,但如果你给AI提供不完整和不准确的数据,或者如果它没有让模型完成指定任务所需的数据,结果将会令人失望,”他说。
另一个核心问题是缺乏标准化的、高质量元数据。UC San Diego(加州大学圣地亚哥分校)工作场所技术和基础设施服务执行董事Brett Pollak(布雷特·波拉克)说:“元数据的质量是最难克服的挑战。元数据是至关重要的连接纽带,它允许智能体解释用户的提示,并将其正确地映射到特定的列和行的交叉点上。大多数组织对数据有独特的、特定于机构的解释,但很少有适当的记录或保持最新。”这就产生了一个翻译差距,即智能体可能有权访问数据,但缺乏在业务背景下理解特定字段代表什么的上下文。
一、数据分散与碎片化现状
不过,仅仅因为存在障碍,并不意味着进展需要暂停。Letts(莱茨)说:“AI的使用应该与当前的成熟度保持一致。组织不应将不完美的数据视为一种限制,而是可以问问AI如何帮助改进和更好地连接他们已经拥有的数据。”Sathianathan(萨蒂亚纳坦)对此表示赞同,并补充说,在新的LLM(大语言模型)世界中,即使是少量准确的数据也可能具有重大价值。他说:“就在几年前,使用传统的机器学习,你需要大量的数据来训练模型。如今,由于大多数LLM都带有高度预打包的知识,你只需要足够数量的正确数据,就能使其为你的领域做好准备。”
Pollak(波拉克)说,对于已经部署了结构化数据仓储的组织来说,新的障碍是从以人类为中心的存储向机器可操作的交付转变。“现在,数据准备意味着确保你的数据被特定的元数据所包裹,通过像MCP服务器等现代协议公开,并由数据分级脱敏与选择性开放策略进行治理,以确保智能体仅对已治理的数据采取行动,”他说。
二、转变你对数据的思维方式
如今,许多组织希望迅速从数据混乱转变为数据驱动状态。但如果这是最终目标,CIO和技术领导者需要注意在组织内将数据视为一级资产。作为这种转变的一部分,数据不能再被视为业务系统的副产品,而应被视为一种核心产出,需要像对待任何其他产品或服务一样精心管理。当这种情况发生时,业务领导者可以解锁他们之前不知道存在的洞察和价值。
此外,根据Letts(莱茨)的说法,以用例为导向的方法至关重要。试图修复组织中的每个数据集既不实际也不必要。即使数据不完美,通过关注正确的用例,也可以解锁有意义的价值。通过优先考虑五到十个高价值用例,并在生产中规划提供这些用例所需的数据,更容易集中精力。然后可以加强基础以服务于这些优先事项。
她补充说,有了AI,对于许多用例来说,可用标准已经降低,特别是那些专注于生产力和知识工作的用例。AI模型可以从上下文中提取价值并建立联系,即使数据结构并不完美。但风险更高的用例需要更高的质量和更强的控制。她说:“关键是要明确目的、风险和运营依赖关系。低风险用例在有明确描述和良好治理的背景下可以更快推进,而高风险应用需要更严格的门槛。”
三、优先考虑所有权、治理和安全
Letts(莱茨)补充说,所有治理框架、政策、标准和程序在审查时都应考虑到AI。许多治理框架是为人类的消费节奏设计的,而AI提高了结构化和非结构化数据的处理速度、规模和集成度。因此,验证关键数据元素的所有权并建立对其含义的共享业务理解对于取得进展至关重要。标准化的定义和元数据也应确保诸如 “它是什么意思”以及“它来自哪里”等问题始终能得到解答。她补充说:“默认情况下,AI的访问必须是安全的。这意味着要有最小特权、审计跟踪、敏感数据处理以及对检索的强有力控制。必须始终能够证明一个模型可以访问什么和不能访问什么。”
此外,组织在使用AI时也必须注意数据隐私。Sathianathan(萨蒂亚纳坦)说:“自主AI系统需要的访问数据的权限级别不同于传统企业应用程序。需要大规模地分析数据,而不仅仅是查询数据。这对权限模型来说是一个重大变化,IT和安全领导者需要仔细考虑所有这些数据将流向何处以及AI系统真正需要什么访问权限。” 他补充说,如果处理数据的LLM在组织内部或外部运行,情况也是如此,而且这些决策应该在部署之前考虑,而不是之后。
四、使用AI填补空白
Pollak(波拉克)建议,在业务可能存在不足的领域,可以考虑使用AI来起草和更新组织特定的数据定义。Sathianathan(萨蒂亚纳坦)说:“优先建立一个严格的人在回路机制,以确保这种连接组织的要素是准确和最新的。”此外,有可能使用LLM和较小的语言模型,通过限制性提示来清理某些领域的数据。这样,你就可以高效地处理数据,避免将大量数据输入到基于云的大型LLM中而浪费资源。
Letts(莱茨)说,为AI做好准备不是一个一次性的里程碑。AI能力正在迅速发展,这意味着准备的门槛会随着时间推移而变化。改善端到端的数据血缘、建立共享语义和本体以便始终如一地理解数据、提高跨平台和跨领域的互操作性,以及收紧AI系统访问数据的方式,以确保数据安全、可审计且符合目的,这些都是至关重要的。她说:“随着用例的发展,门槛也会发生变化。所以数据准备必须被视为一项持续的工作,而不是一项已完成的任务。”
作者:Joanne Carew(乔安妮·卡鲁)
译者:宝蓝 编审:@lex
原文链接:https://www.cio.com/article/4158048/how-poor-data-foundations-can-undermine-ai-success.html
夜雨聆风