演示的时候一切都很美好,会议室里大家看完,通常都会觉得这个方向值得试。可一旦走进真实业务,更多实际的问题开始浮出水面:数据权限没理清,业务口径不一致,错误答案没人管,一线员工不愿用,管理层对它的态度从一开始的赞许渐渐转为狐疑...
最后项目看起来像是卡在技术上,但实际上很多时候并不是。
模型固然重要。只是很多 AI 项目真正失败的地方,并不在模型,而是组织在一开始没有想清楚一些关键的问题:为什么做?先做哪个场景?风险由谁承担?怎样才算有效?上线后谁会真的使用它?
我认为将 AI 转型看作是「引入越来越多的 AI 工具」是肤浅的,它更像是一次组织判断力的压力测试。
因此,这篇文章的关注点在于:
当我们谈到「要不要做 AI」时,一个成熟的组织,应该怎样拆解这个问题。

1. 谈模型之前,先对齐口径
很多关于 AI 的讨论一开始就跑偏了,因为每个人以为自己在讨论同一件事,尤其是当某些人缺乏对 AI 的准确理解时。
管理层说「搞 AI」,脑子里可能装着对 AI 各种天马行空的想象,也可能只是出于同行压力和技术焦虑。业务团队想的是客服、销售、投研、运营能不能提效。技术团队听到以后,可能已经开始盘算 RAG、微调、自托管、向量数据库和 GPU 成本。
显然,对于同一个概念,不同的屁股衍生出不同的理解。
然而这种错位很贵。例如,一个「智能客服」如果只是用现成模型加企业知识库做问答,可能几周就能做出可以验证的 MVP。但如果它被理解成「训练一个专属行业大模型」,成本、周期和风险马上会变成另一回事。两者都可以叫 AI,但对应的预算、人才、数据要求和失败概率完全不同。
所以 AI 项目的第一步不是选模型,而是先把语言对齐。
因此,让我们先对齐一些 AI 基础概念:
今天的 AI 实际上是个很广的概念,里面包括机器学习、深度学习、生成式 AI 等不同技术路径; 生成式 AI 指可以生成文本、图像、音频、视频等内容的系统; LLM 是大语言模型,是生成式 AI 中处理语言的一类; 训练是在调整模型参数,通常成本高、周期长; 推理是用已经训练好的模型处理新输入,成本会随着调用量持续发生。
这些定义虽然看起来基础,但会直接影响预算。
训练成本更像资本支出,推理成本更像运营支出。大多数企业并不需要从零训练模型,但一定会面对持续推理成本、数据治理成本、监控成本、权限管理成本和后续迭代成本。
很多 AI 项目早期预算容易失真,就是因为只看到了「API 调用成本」,没有算清楚上线以后的总成本。一个每次调用几分钱的系统,如果进入高频业务流程,再叠加检索、日志、人工审核、评估和合规,最后的成本结构会和演示阶段完全不同。
AI 的钱不只花在模型上,也花在组织把模型变成稳定工作流的过程中。
2. 先问值不值,再问能不能
技术团队经常会本能地从「能不能做」上思考。
这没有错,但比这更重要的是另一个答案:这值不值得?
如何衡量一个 AI 项目值不值得做呢?通常,一个有价值的 AI 项目至少满足下方三个商业驱动力中的一个:
自动化:它减少人力、时间或重复劳动了吗?(比如客服机器人处理标准问题,合同系统自动抽取关键条款,运营系统自动生成日报) 增强:它让同样的人做得更多、更快或更好了吗?(比如客户经理用 Copilot 获得实时话术建议,分析师用 AI 辅助整理资料,工程师用 AI 提升代码产出) 差异化:它让公司提供过去很难提供的体验或服务了吗?(比如更个性化的投顾,更及时的风险提示,更低门槛的专业咨询)
这三类并不互斥。反而一个好的 AI 项目,常常会同时命中几个价值点。比如「AI 投资顾问」可以是差异化产品,因为它提供一种新的客户体验;也可以是增强工具,因为它让普通顾问更接近专家水平;还可以自动化一部分基础咨询,降低服务成本。
注意,错估一个项目的价值点也会带来问题,如果只把一个项目归成「降本项目」,它的价值会被低估。如果只把它包装成「创新项目」,风险和运营成本又会被低估。
为了准确衡量一个项目的价值,我推荐用以下几个问题来判断:
它替代了什么成本? 它融入或替代了哪个工作流? 它提高了什么结果质量? 它引入了什么新风险? 它能不能持续衡量?
这里最容易被忽略的是第二点。
演示效果不等于产品价值。一个 AI 项目只有进入真实工作流,才开始产生真实价值。
很多 AI 项目的 demo 看起来惊艳,是因为它绕开了真实约束:没有复杂权限,没有脏数据,没有异常流程,没有用户抵触,没有合规审查,也没有 SLA。演示者可以挑一个清晰的问题,准备一份干净的文档,让模型给出一个还不错的答案。但组织里的软件不是这样工作的。它要面对重复发生的流程、不同水平的使用者、不断变化的数据,以及出错之后必须有人处理的责任链条。
这才是 AI 项目真正开始变难的地方。
3. 把风险纳入立项条件
很多 AI 项目的立项书有一个共同问题:收益写得很具体,风险写得很抽象。
这在传统软件项目里已经很危险了,在 AI 项目里会更危险。AI 引入的不是单一的技术风险,而是一组技术、运营和战略风险。
技术层面,最常见的是幻觉、数据隐私、偏见、不可解释性和模型漂移。
幻觉不是偶发 bug,而是大语言模型的基本风险。模型会用很自然、很自信的语气编造内容。只要它进入客服、法律、金融、医疗或人事场景,就必须被产品规则、权限控制和人工审核机制约束。不能因为它大多数时候回答得像真的,就默认它可以直接面对高风险决策。
数据隐私也不是一句「我们会注意安全」能解决的。使用云 API 意味着数据可能离开企业边界;自托管开源模型则意味着公司要承担更多基础设施、运维和人才成本。两边都不免费,只是成本长在不同地方。
模型漂移也容易被低估。很多人以为 AI 系统上线后就完成了,但现实是,用户行为会变,业务规则会变,市场环境会变,知识库也会变。模型效果随时间变差不是意外,而是常态。
运营层面的风险,更多来自数据完整性、人才缺口和变革管理。数据不完整,模型会在错误上下文里给出答案;团队没有评估能力,就只能凭感觉判断好坏;员工不理解系统会如何影响自己的岗位,就可能选择观望、绕开或消极使用。
战略层面的风险,则包括声誉、伦理、研发失败,以及员工对岗位替代的担忧。
所以 AI 项目的风险评估不能放在立项书的最后两行。风险不是「万一出事怎么办」,而是「这些成本从第一天就会发生,只是出现的形式不同」。
更成熟的做法,是在立项阶段就把收益和风险放在一起建模:一次性开发成本、持续推理成本、数据治理成本、合规成本、培训成本、监控和再训练成本,要和节省多少时间、减少多少错误、提高多少转化、创造多少新增收入一起看;哪些风险可以接受,哪些必须加护栏,哪些需要人工兜底,哪些会直接否决项目,也要在一开始就说清楚。
如果一个 AI 项目说不清自己的风险边界,它就还不该进入生产环境。
4. 技术选型其实是在做商业取舍
很多组织会把技术选型交给技术团队独立完成。但在 AI 项目里,这样做不够。
因为每一个技术选型背后都有商业含义。
使用 ChatGPT、Claude 或 Gemini 这类 Web UI,最快、最轻,适合员工个人提效,但通常不适合深度嵌入核心业务系统。调用云 API,可以最快把 AI 能力接入产品和内部系统,适合快速验证价值,但要处理数据流出、调用成本、供应商依赖和合规问题。自托管开源模型,可以获得更强的数据控制和定制能力,但会带来 GPU、部署、MLOps、模型更新和人才招聘问题。
所以真正的技术分叉往往不是「哪个模型更强」,而是另外几个问题:
数据能不能离开企业边界?公司是否需要深度定制?上线速度和控制权,哪一个更重要?如果效果提升 10%,但成本和运维复杂度增加几倍,这个取舍还成立吗?
如果数据高度敏感,自托管就不再是炫技,而是合规要求。如果产品还在验证阶段,使用 API 更不是偷懒,而是最快找到商业答案的方式。如果员工只是需要提升通用办公效率,直接采购成熟产品可能比自研更合理。

成熟组织通常不会一上来选一个大而全的方案。更常见的做法是分级治理:高敏感数据走自托管或私有化方案;通用办公和低风险场景使用成熟商业产品;新产品早期用 API 快速验证;当用量、数据和差异化需求足够明确后,再逐步考虑自有模型、微调或私有部署。
技术路线也可以按这个思路往前走。
RAG 适合让模型使用企业已有知识库。它不改变模型参数,而是在回答前检索相关上下文。它的优点是快、可更新、相对容易解释,适合作为大多数企业的起步方式。
微调适合让模型学习一种新能力、特定风格或专有任务模式。它可能带来更强的差异化,但需要高质量数据、训练成本和评估能力。
Agent 适合多步骤、自主决策和工具调用场景。它能力强,也更不可预测。只要 Agent 能自主规划下一步,测试、成本控制和异常处理都会变难。
所以一开始就问「我们要不要做 Agent」并不是一个好问题。更好的问题是:这个流程真的需要自主决策吗?还是一个确定性的工作流就够了?
Anthropic 曾经区分过 Workflow 和 Agent 两个概念:Workflow 的路径由代码预设,Agent 的下一步由模型动态决定。前者更可控,后者更灵活。
在企业场景里,可控性经常比炫技更重要。
这里有一个反面案例:麦当劳和 IBM 曾经测试 AI 点餐系统,结果出现过顾客被错误推荐大量麦乐鸡的荒诞场景,这个事故被顾客全程录像并发在了 TikTok 上,最终导致了项目被取消。这个案例的教训不是「AI 不能点餐」,而是没有护栏、没有人工兜底、没有边界测试的系统,不应该直接面对客户。
5. 先定义什么是好,再讨论要怎么做
我参与过的一些技术讨论会上,一些人一开始就在争论用 GPT 还是 Claude,用 RAG 还是微调,用 LangGraph 还是 CrewAI。
这类讨论看起来很热闹,但从一开始就偏离了正规。
因为在没有评估集、没有业务指标、没有成功标准之前,争论模型就像还没写测试用例就开始争论框架性能。每个人都能拿出几个看起来有道理的例子,但这些例子不一定代表真实业务。
AI 项目更适合采用一种研究先行的流程:先建立一小组真实样本;定义什么叫好结果;选几个模型或方案做原型;比较效果、成本、延迟、稳定性和风险;不满意就迭代,满意后再进入工程化。
重点不是「多试几个模型」,而是先把判断标准定清楚。
客服场景里,好结果可能是首问解决率、人工转接率、错误回答率和用户满意度。销售场景里,好结果可能是线索转化率、跟进速度和 CRM 记录完整性。研发场景里,好结果可能是交付速度、缺陷率和代码可维护性。
没有指标,AI 项目就会退化成主观体验。
而主观体验在 AI 时代是不可靠的。模型很会制造「看起来不错」的答案。它可能语气完整、结构清晰、措辞专业,但关键事实是错的;它也可能在一个样本里表现很好,在另一个稍微复杂的样本里突然失败。
AI 越像人,越需要机器化的评估。
这不是为了把所有判断都交给指标,而是为了让团队知道自己到底在优化什么。如果连「好」都没有定义清楚,后面的模型选择、提示词优化、RAG 调参和工程排期,都会变成各说各话。
6. AI 项目不能完全按传统软件排期
传统软件项目通常有一条相对确定的路径:需求、设计、开发、测试、上线。
AI 项目不完全一样。它多了一个很关键的阶段:研究。
研究阶段的输出是不确定的。模型能不能达到目标精度,数据清洗后是否可用,RAG 检索质量是否足够,微调后是否真的提升效果,这些问题在动手前没有确定答案。
这也是 AI 项目管理最容易和管理层发生冲突的地方。
管理层需要日期,而研发团队只能给概率。
一个很实用的概念叫「日期的日期」:不承诺某天一定上线,而是承诺某天可以判断是否具备上线条件。
这不是逃避承诺,而是提前意识到不确定性,并把不确定性说清楚。
比如一个项目可以这样设计:
阶段 1:做商业案例,判断值不值得做; 阶段 2:做规划,明确 KPI、数据、技术路径和团队; 阶段 3:做研究,用真实样本验证可行性; 阶段 4:开始构建,把可行方案工程化; 阶段 5:部署,完成测试、培训和上线; 阶段 6:在线评估,持续监控效果、成本和 ROI。
第 2 阶段之后的所有日期,都应该标注为暂定。研究结果会直接改变后续路径。

除此之外,AI 项目还必须有 Plan B。模型效果达不到预期怎么办?RAG 检索不稳定怎么办?Agent 成本失控怎么办?数据质量不足怎么办?是否可以降级为规则引擎、人工审核、半自动流程或外购方案?
成熟的项目管理不是假装不确定性不存在,而是让不确定性被看见,被管理,并且被限制在可以承受的范围内。
7. 让人真的用起来
BCG 有一个很有价值的判断:约 70% 的 AI 实施挑战来自人员和流程,而不是技术。它反过来解释了很多项目为什么失败。
有时候不是模型不够好,而是项目偶尔的不稳定耗尽了用户的信任。不是系统不能用,而是 AI 项目压根没有进入用户日常的工作流程。不是效率没有提升,而是员工把它理解成「公司准备替代我的工具」,从而选择不用或少用。
先看一个相对正面的案例。
Morgan Stanley 在财富管理业务中推出 AI 助手,帮助财务顾问从公司研究报告、投资观点和内部知识库中快速查找信息。这个工具不是直接替顾问做投资决策,而是嵌入顾问原有工作流,帮助他们更快准备客户沟通。推进过程中,公司让资深理财师参与验证输出,并把验证结果展示给使用者。
这个案例有代表性,不是因为它用了多先进的模型,而是因为它处理了一个常被忽视的问题:用户为什么要相信这个工具?
它不是只说「这个工具很先进」,而是让顾问相信「这个工具的输出值得进入我的专业工作流」。它传达的愿景也很关键:让每个顾问都像最聪明的专家一样聪明。
这是一种增强叙事,而不是替代叙事。
再看 Klarna 的例子,方向就复杂得多。它的 AI 助手在效率上表现亮眼,但外部叙事中过于强调「相当于 700 名全职员工的工作量」,再叠加招聘冻结,很容易触发员工和公众对岗位替代的担忧。
这不是公关措辞的小问题,而是变革管理的一部分。
AI 项目如果只讲替代,就会制造恐惧。如果只讲效率,又会掩盖质量、责任和职业身份的变化。员工不是天然反对工具,他们反对的是不透明的评价方式、不确定的岗位变化,以及出了问题却要由自己承担后果的系统。
更好的方式是明确告诉员工:哪些工作会被自动化;哪些能力会被增强;哪些判断仍然必须由人负责;公司会如何培训、评价和奖励新的工作方式。
管理者也必须自己用起来。
如果领导层只在台上说「大家要拥抱 AI」,但自己的工作流没有任何变化,组织会很快识别这种口号。AI 采纳不是靠倡议书推动的,而是靠真实场景、真实收益和真实激励推动的。
8. 小结
感谢你读到这里,我想现在,当我们谈及「要不要做 AI」时,给出的回答应该不停留在「要」,或是「再等等」。
一个令人较为满意的回答应该是:
给我两周时间。我会带回来一张初步评估表,里面列出三个最值得投入的场景、每个场景的成本收益、主要风险、需要参与决策的人,以及下一步要验证什么。
这个回答之所以令人满意,是因为它把一个模糊的问题变成了一个可以推进的问题。
对于组织的 AI 转型,除了一次宏大叙事的表态,它更需要一套能持续工作的判断系统。这套系统至少包括五件事:
对齐共同语言,大家知道自己在讨论什么; 讲清商业论证,项目能说清成本、收益和风险; 搞懂技术取舍,选型服务于业务约束,而不是技术偏好; 奉行实验文化,先定义好结果,再用数据验证; 创建采纳机制,让工具进入真实工作流,而不是停留在发布会上。
这里面每一件都不神秘,但每一件都容易被跳过。
很多组织会急着采购工具,急着做 demo,急着宣布 AI 战略。但真正困难的不是开始,而是让 AI 在真实约束里持续成立。
希望下次再开 AI 项目会,你可以先停止团队成员对「用哪个模型」这类问题的争论。抢先抛出下面这五个问题:
我们在讨论同一件事吗?这件事真的值得做吗?风险边界在哪里?怎么证明它有效?谁会在真实工作里使用它?
这些问题如果答不上来,模型越强,项目可能跑得越快,也偏得越远。
请让我再次强调:AI 转型的分水岭,不是「有没有 AI」,而是组织能不能把 AI 变成可判断、可交付、可运营、可持续使用的系统能力。
模型会继续变强,工具会继续变便宜,调用方式会继续简化。
但组织判断能力不会自动升级。
而这,才是最值得投入的地方。
夜雨聆风