一、 泡沫的证据——钱说了算
先说一个反直觉的事实:泡沫本身并不否认技术的真实性。2000年互联网泡沫里活下来的Google和Amazon,后来的涨幅比泡沫时期还猛。所以我说"AI有泡沫",不是在否定大模型的价值,而是在说:钱会骗人,但钱不会说谎——它只是延迟半年到两年才兑现。第一个硬数据:融资峰值与回调。2021年全球AI领域风险投资达到峰值约360亿美元,2022年回落到280亿,2023年进一步收缩到约180亿。注意这不是"崩盘",这是"挤水分"。大量靠PPT和demo融资的项目在2023年死掉,估值从天上回到地面。 这里有一个关键区分:基础模型层的融资依然坚挺,Anthropic拿了40亿,OpenAI拿了130亿,Mistral也拿了10亿。但应用层死了一大片——Jasper AI估值17亿美元,2023年底几乎清零。Stability AI从40亿估值跌到被曝寻找收购。Runway估值腰斩。 为什么应用层先死?因为应用层的壁垒太薄了。Jasper本质上是GPT-3的套壳,OpenAI一降价,Jasper的护城河就没了。这不是Jasper团队的错,这是所有套壳应用的宿命。第二个硬数据:VC的公开表态。a16z的David Rack子2024年说过一句话,大意是:"我们投资的大多数AI应用,最后会颗粒无收。"这话从投资人口里说出来,分量很重。国内也有类似的声音——经纬中国某个合伙人在播客里说过:"这一波AI项目,能跑出来的不超过5%。" 这不是唱衰AI,这是正常的商业规律:任何技术浪潮里,90%的项目会死,但10%的项目会改变世界。互联网泡沫死了几千家公司,但活下来的Google和Amazon市值加在一起超过了很多小国的GDP。第三个数据:用户留存。Character.AI是这波AI产品里最典型的例子——2023年高峰时日活1000万,但到2024年中,这个数字跌了40%以上。用户流失的原因很简单:用AI聊天不解决问题,只是满足了好奇心。好奇心消退是必然的,娱乐场景的留存从来都是问题。 对比GitHub Copilot的数据:2024年付费用户续费率超过70%,这是工具型产品的正常水平。工具解决真实问题,所以有人愿意掏钱。娱乐满足好奇心,所以潮水来得快去得也快。总结这一章:泡沫是真实存在的,证据是一级市场估值回调和应用层项目死亡。但泡沫主要发生在应用层,特别是那些"AI概念+没有技术壁垒"的项目。底层模型能力提升是真实的,这部分不是泡沫。
二、 反泡沫的证据——有些东西在真实发生
说完泡沫,必须说反面的证据,否则这篇文章就成了"AI无用论",那是不负责任的。证据一:开发者提效的真实数据。GitHub 2024年发布的报告显示,使用Copilot的开发者平均提效30%-50%。这不是GitHub自己发的软文——是第三方调研机构CSDS的独立研究,样本量超过2000名开发者。 提效30%是什么概念?一个10人团队,相当于多了3-4个人干一年。按一个中级工程师年薪40万算,这是120-160万的隐性人力成本。Copilot个人版月费10美元,企业版月费19美元。这个ROI,任何一个理性的CTO都会签字。 Stripe的工程师在公开访谈里提过:他们的代码库里约20%的代码有AI辅助生成的痕迹。这个数字不丢人——说明AI确实在被认真使用,而不是"演示用的demo"。证据二:客服场景的真实落地。京东云2024年公开过一组数据:他们的AI客服"言犀"处理了约40%的用户咨询,人工客服只需处理剩余60%的复杂问题。注意这不是"AI取代人",而是"AI做了80%简单的事,让人做20%复杂的事"。 这个分工的价值在于:人工客服的成本结构发生了质变。以前需要1000个客服处理所有问题,现在只需要200个处理复杂问题,成本降低60%以上,剩下的简单问题由AI兜住。 但这里有一个关键细节——京东这套系统上线前,光是做意图识别和知识库构建就花了8个月。不是"接个API就上线"那么简单。证据三:代码生成的渗透率。Cursor、Copilot、Claude这一套工具,已经成为很多工程师的默认编辑器。2024年Stack Overflow的开发者调查显示,约44%的开发者日常使用AI工具写代码,这个数字在2023年初是25%。 这不是"AI替代程序员"——是"AI让程序员的产出效率翻倍"。一个原来一天写200行代码的工程师,现在一天能写400行,而且bug率下降,因为AI在生成代码时会做基础的静态检查。证据四:边际成本的结构性变化。这是理解这一波AI最重要的一点,它决定了为什么"这次可能不一样"。 传统软件边际成本不为零——每多一个用户,需要多一份服务器、带宽、授权费用。Zoom每增加一个用户,边际成本大概在1-2美元。这导致软件公司必须做大客户市场,小客户贡献不了利润。 AI大模型的边际成本趋近于零——一次训练,多次使用;一次部署,天然支持并发。一个GitHub Copilot用户和100万个用户,模型侧的边际成本差异几乎为零。这改变了商业逻辑:做小客户市场突然变得有利可图了。 这就是为什么Copilot能靠月费10美元活着——它的小客户积累起来,是一个巨大的市场。传统软件时代,这个市场是没人做的,因为边际成本撑不住。 总结这一章:AI不是纯泡沫,有些东西在真实发生——开发者提效、客服降本、代码生成渗透率上升。但这些"真实发生"都有前提:需要工程化落地,不是接个API就完事。
三、泡沫的解剖——什么在泡沫,什么不是
这一章是我的核心观点,我要把它说透。三层泡沫,分清楚。第一层:概念泡沫。 这层最厚,也最该死。典型特征是"AI+传统行业"的简单加法——AI+教育、AI+医疗、AI+农业,PPT上画个图,实际上一行代码没跑通。这类项目在2023年集中死亡,尸骨无存。第二层:应用泡沫。 有产品,有用户,但没有护城河。本质上是在吃模型进步的红利——模型能力提升,应用体验跟着提升;模型一降价,应用的利润空间直接被压缩。Jasper是典型,套壳GPT-3起家,估值冲到17亿,OpenAI一降价就傻眼了。 国内这种项目更多——套壳ChatGPT做"AI写作助手"的,套壳Midjourney做"AI绘图工具"的,2024年倒了一大批。他们的共同死法:模型厂商自己下场做应用,套壳应用毫无还手之力。第三层:技术泡沫。 这个我花点时间说,因为它最隐蔽。 部分AI公司的"技术领先"是虚假SOTA——在公开benchmark上刷分,但实际部署时性能腰斩。Benchmark作弊在AI圈是公开的秘密:刷榜数据集泄露、测试集过拟合、评测方法不透明。导致的结果是,"SOTA模型"在真实用户场景里表现远不如预期。 这种技术泡沫有一个受害者——那些把"SOTA模型"当核心竞争力采购的企业,发现实际效果远不及PPT上的数字。这是2024年很多企业AI项目烂尾的根本原因。不是泡沫的部分:第一,推理能力的真实提升。 从GPT-3到GPT-4,从Claude 2到Claude 3,从GPT-4到GPT-4o,这个能力曲线是真实的。你可以说"大模型没有真正的理解力",但你不能说"它的推理能力没有提升"——实测数据在这里,HLE、MMLU、HumanEval这些benchmark的进步是实打实的。第二,代码辅助的真实价值。 这个我在前面已经说过了,不再重复。唯一补充的是:代码辅助不是"AI取代程序员",而是"AI让程序员的杠杆放大"。一个会用AI工具的初级工程师,产出可以超过不用AI工具的高级工程师。这个趋势已经发生了。第三,科学研究加速。 AlphaFold在蛋白质结构预测上的突破,这个是严肃的科学成果,不是泡沫。AI辅助药物分子设计、材料科学模拟、代码证明验证——这些领域的研究速度确实在加速。有些诺贝尔奖级别的突破,可能就藏在这些AI工具里。我的判断:应用层有严重泡沫,特别是2022-2023年靠概念融资的那批项目。底层模型能力提升是真实的,不是泡沫,但估值包含了一定程度的泡沫。技术泡沫在特定公司存在,但不代表行业整体。 换句话说:这波AI浪潮有泡沫,但泡沫下面有水泥。水泥是真的,但被泡沫盖住了,等泡沫散去,水泥才显露出来。
四、 大模型的真实局限性——工程师视角
这一章写给那些"准备All in AI"的人。你要搞清楚你手里的工具到底能做什么,不能做什么。局限一:幻觉——这个问题比你想的严重。大模型的幻觉率是多少?不同的任务不一样。客观陈述类任务(如"2023年奥斯卡获奖影片有哪些")幻觉率相对低,大概5%-10%。推理类任务幻觉率较高,复杂逻辑链下可能超过30%。创意类任务幻觉率最高——因为创意本身没有"正确答案",幻觉难以被识别。 但这里有一个更严重的问题:你不知道哪个回答是幻觉。 人类判断一个回答是否可信,需要背景知识。问题是——如果你在陌生领域让AI帮你写东西,你本身就缺乏判断能力。AI在胡说八道,你还在那里点头称是。这才是最危险的。 医疗场景的一个真实案例:2023年有用户让GPT-4帮他解读病历,GPT-4给出了"建议增加某药物剂量"的建议。用户不知道的是,这个建议与用户正在服用的另一种药物产生了严重相互作用。这个错误如果真的执行了,后果不堪设想。 这就是为什么在医疗、法律、金融这些"高风险决策"场景,AI目前根本担不了责——幻觉加上领域复杂性,等于定时炸弹。局限二:成本——ROI转正的时间比你想的长。GPT-4每千token的成本约为0.03美元(输入)和0.06美元(输出)。这看起来不贵,但当你用它做"批量内容生成"的时候,成本就上来了。 举一个实际的例子:某内容团队用AI辅助写作,每篇文章平均消耗5000token输入+3000token输出,成本约为0.3美元/篇。一天生产100篇,就是30美元,一个月就是900美元。这只是token成本,还不包括工程对接、知识库构建的质量保证成本。 对比人工写作:一个人一天写5篇高质量文章,月成本约1万元。AI辅助的情况下,团队3个人可以写出15篇,月成本约5000元(含工具+人力),效率提升3倍,ROI转正。 但这是理想情况。实际落地时,你会发现:AI写的东西需要人工校对,这个校对时间可能比直接写还长。特别是在需要"行业know-how"的领域,AI的初稿经常需要大幅修改。幻觉率越高,需要人工介入越多,ROI越难转正。局限三:延迟——实时场景的根本限制。大模型的推理延迟是硬伤。GPT-4的平均响应时间在3-10秒,Claude 3差不多,Gemini Pro也在这个量级。这个延迟在"AI写作助手"场景可以接受——你等3秒出结果,比你自己写10分钟快多了。 但在实时交互场景,这就是根本限制。 想象一个场景:客服对话,用户问"我的订单到哪了",AI需要3秒才回复。这个体验就不是"智能客服"了,是"智能客服让你等3秒然后告诉你答案"。用户感知到的是"我在等一个机器",而不是"机器帮我快速解决问题"。 某些场景的解决方案是"异步AI"——不要求实时响应,比如AI辅助写作、AI辅助编程、AI辅助分析。但要求实时响应的场景(直播、自动驾驶、实时翻译),大模型目前的延迟是根本满足不了的。局限四:能耗——你忽视的隐性成本。大模型训练一次GPT-4的能耗约为1GWh,相当于一个小型城市一个月的用电量。推理阶段的能耗更低,但并发量上来之后,总用电量也非常可观。 微软为OpenAI建设的数据中心,用电量已经引起当地电网的注意。Google在Iowa的数据中心因为AI负载,用电量同比增长了40%。 这不是小问题。当AI大规模部署,能耗成本会传导到用户身上——API价格会涨,电费会涨,最终还是消费者买单。局限五:上下文窗口的真相——不是真正的"记忆"。现在很多模型支持128K甚至1M的上下文窗口,看起来很大。但这不是真正的"记忆",这是"短时记忆"。 模型在处理超长上下文时,会"忘记"开头的内容——这是注意力机制的结构性限制。当上下文窗口超过一定长度,模型对窗口前中后部分的信息权重会失衡,导致输出质量下降。 这意味着:你不能把大模型当"知识库"用,不能把10年的聊天记录扔进去然后期待它"理解你的上下文"。它能处理的,始终是一个有限窗口内的信息。 真正的"记忆"需要靠外部系统——向量数据库、知识图谱、用户画像系统。大模型负责推理,外部系统负责存储,各司其职。 总结这一章:大模型有真实局限性,幻觉、成本、延迟、能耗、上下文窗口,每个都有限制。不是"万能钥匙",是"专用工具"。知道工具的边界,才能用好工具。
五、普通人使用AI大模型的正确姿势
这一章写给那些"想用AI但不知道怎么用"的人。我见过太多人要么"AI万能论",要么"AI无用论",都是因为没有找到正确的打开方式。第一原则:不要用AI做重大决策的独立依据。医疗建议、法律建议、投资建议——这些领域AI目前担不了责。原因在第四章说过了:幻觉+领域复杂性=高风险决策的灾难。 不是说AI在这些领域完全没用——你可以用它做"信息整理"和"初稿生成",但最终决策必须由你自己或专业人士做出。AI是助理,不是顾问。第二原则:AI真正擅长的事——找到那个甜蜜区。AI最擅长的几件事:写作助理。 写初稿、润色、改错别字、调整语气——这些是AI最靠谱的应用。我每天用Claude帮我写技术文档,初稿生成时间从2小时降到20分钟,剩下的时间做人工校对和质量把控。这才是正确的用法。代码Debug。 把错误日志扔给AI,让它帮你分析可能的原因和解决方案。这个准确率相当高,特别是对于常见的错误模式。Stack Overflow上很多"为什么我的代码报错"的问题,AI能回答得比人类更全面。知识整理。 一堆乱七八糟的文档扔给AI,让它帮你总结要点、提取关键信息、整理成表格。这个场景的准确率也很高,因为信息是客观的,不涉及创意和判断。翻译初稿。 AI翻译的准确率已经超过很多非专业译者,特别是技术文档。但"信达雅"还是差点意思——AI翻译做初稿,人工做润色,这是目前最有效的工作流。头脑风暴。 让AI帮你想点子、发散思路、整理方案框架——这个场景很有用,因为AI不会像人类一样"自我审查",它会把所有想法都倒出来,包括那些你自己不敢想的。第三原则:从单一场景切入,不要一开始就搞"AI战略"。我见过太多这样的案例:老板看完一篇"AI颠覆行业"的文章,拍脑袋说"我们要做AI转型",然后投入大量资源做"AI战略",结果三个月后不了了之。 正确的方式是从一个具体场景切入。 比如,你是一个文案编辑,你的痛点是"每天写5篇公众号文章,脑子被榨干了"。解决方案:用ChatGPT或Claude做"话题研究和初稿生成",你负责改写和把关。这个场景够具体,够小,容易验证,容易迭代。 等你把这个场景跑通了,再扩展到下一个场景。不要一上来就想"AI帮我做所有事"——那不现实。第四原则:工具选择——便宜够用优先,不要追新。GPT-4很强,但Claude 3 Sonnet在很多场景已经足够好了,价格还更便宜。开源模型(如Llama 3、Mistral)在很多场景已经能打,部署成本低,不依赖第三方API。 我的建议:主力工具选一个够用的,不要同时追三个。我主力用Claude 3 Sonnet,因为它在代码和写作场景的表现稳定、价格合理、API不限制。偶尔用GPT-4做对比,因为它在某些特定任务上表现更好。 不要陷入"工具焦虑"——花大量时间对比哪个模型更强,忽略了真正重要的事:用好你手头的工具。第五原则:Prompt技巧的本质——不是魔法,是结构化表达。很多人在prompt上浪费太多时间,总觉得"有个magic prompt能让AI突然变强"。其实prompt的本质很简单:把你想要的东西说清楚,把你不要的东西说明白。 好的prompt结构:
角色定义:你是一个xxx,帮我做xxx
任务描述:具体要做什么,输出什么格式
约束条件:有什么限制,不要出现什么
示例(可选):给AI看一个例子,它会更好地理解你的期望
就这么简单。复杂prompt往往是因为任务本身没想清楚,而不是prompt技巧不够。第六原则:真实案例——我是怎么用的。我每天的工作流: 早上:把行业新闻扔给Claude,让它帮我总结要点,生成一个"今日资讯"简报。这比我一个个网站看省时间,还能保证覆盖面。 写文章:用Claude生成初稿框架,然后我自己填内容。这比"从空白文档开始"容易100倍。 代码Review:把PR描述和代码扔给Claude,让它帮我找潜在问题和优化建议。它能找到我肉眼容易忽略的细节。 会议记录:录音转文字后扔给Claude,让它整理成"关键决策点+待办事项+负责人",比我自己整理快3倍。 这个工作流跑了6个月,我的产出效率大概提升了2-3倍。但注意:AI是"放大器",不是"替代者"——我用AI提升了效率,但没有AI我依然能工作,只是慢一点。
六、 结语:泡沫里的真实机会
互联网泡沫告诉我们一件事:泡沫时期涌入的资金和人才,在泡沫退去后不会消失,而是分散到各个领域,在那里生根发芽。2000年互联网泡沫后,那些"失败了"的互联网从业者,带着经验和教训,去了传统行业和新的创业公司,成为后来Web2.0崛起的中坚力量。 这波AI浪潮也一样。那些"死掉"的AI项目培养了大量AI工程师、产品经理、运维人才;那些"失败"的AI创业公司积累的技术和数据,最终会被更健康的公司吸收。普通人的机会窗口在哪里?在应用层,不在底层模型。底层模型是富人的游戏——需要数十亿美元的训练预算,需要顶级的科研团队,需要oublike的算力。普通人做不了这个。 但应用层不一样。应用层需要的是:深刻理解某个行业的痛点 + 知道如何用AI解决那个痛点 + 能把解决方案工程化落地。 这种组合在传统行业里极度稀缺。一个在制造业干了10年的老兵,比一个刚毕业的AI PhD更知道AI能在哪里落地。这是普通人的护城河。 最后一句话:不要用AI证明你很潮,要用AI解决你真正的问题。搞清楚了这个问题,泡沫对你没有意义。
夜雨聆风