AI到底多大程度上能够替代传统软件?

2026年4月,斯坦福HAI 研究院发布了《2026年人工智能指数报告》,这份报告通过较长的篇幅系统性描述了2025年期间全球AI发展的具体动态。内容里提供了很多比较新的行业数据和信息,对于了解AI发展全景和现实中的行业进展有很多启发。近期本人会花一些时间用于精度这篇报告,并将基于报告拆分出一些自己感兴趣的主题进行内容延伸和探讨。由于美股由于AI叙事,这两个月里软件杀估值的现象比较明显,所以本期的《2026年人工智能指数报告》会聚焦在软件领域进行报告中相关内容的解读和延伸。
报告原文链接:https://hai.stanford.edu/ai-index/2026-ai-index-report
一、斯坦福的报告里如何论述传统软件和AI的关系
在这篇报告技术性能章节和负责人AI的章节中,多次对比了AI系统与传统软件在开发范式、能力边界和风险评估的差异。
AI与传统软件的差异1:开发和运维范式
在开发范式上,传统软件的功能是确定性的、可列举的,但是AI模型的能力却表现出了极端的高低不均,AI既可以拥有国际数学奥林匹克金牌水平的能力,但是又可能会无法准确读取时钟刻度和简单运算。AI系统的能力边界无法像传统企业软件那样通过功能清单和测试用例进行验证。同时,传统软件的可靠性、安全性、公平性等属性可以通过独立的质量保障流程分别验证和优化,但是AI系统中多个责任维度之间是有内在冲突的,比如提升隐私保护可能导致公平性或者准确性的下降。AI系统底层技术逻辑上的问题,和传统软件开发方法论是截然不同的。
在透明度和可审计方面,AI模型正在变得越来越不透明,而这又与企业软件领域过去20年所致力于推动的额可审计、合规化有所不同。斯坦福的这篇报告里显示,基础模型透明度指数从2024年的58分下降到2025年的40分。这对于习惯于审查代码和索取合规证书的企业采购部门和安全审计部门而言,AI黑箱化运作将会构成企业的一种新的治理挑战。
在系统运维和更新方面,AI系统在持续运行中所体现出的漂移和衰减问题也是与传统软件运维的版本迭代模式非常不一样。传统软件的维护周期是离散的,以软件版本为单位进行迭代。与之相反,AI模型的性能不仅取决于开发过程中的训练数据质量和体,还会持续受到部署环境数据分布变化的影响,AI需要持续监控,并有可能需要重训练机制。报告中举例FDA在2025年期间对于AI医疗设备领域的应用与监管方面,允许AI在初期授权后持续迭代,这也是监管框架为了适应AI与传统软件的差异而作出的创新尝试。
AI与传统软件的差异2:企业信息化的定位和集成
报告中关于企业应用的调查数据显示,AI目前在企业中最常见的使用方式是嵌入现有的业务职能,比如:知识管理的58%采纳率,软件工程有56%,营销和销售有51%,然而这些并非是替代整个企业的信息化系统。2025年期间,AI的定位更接近于现有企业信息系统的功能增强组建,而不是颠覆整个架构。 报告还特别指出在软件和IT部门,AI工具主要用于加速现有工作流,比如代码生成、文档撰写、测试用例开发等方面,AI并没有被直接用于重新定义工作流本身。这个事实与市场所声称的“AI将完全替代程序员”叙事形成了截然不同的对比。
在AI Agent的部署方面,报告显示,尽管企业的AI采纳比例已经达到88%,但是AI Agent的规模化应用在所有业务职能岗位依然处于个位数的阶段。针对这个问题,报告认为:(1)企业依然存在对于AI的信任问题和安全性障碍,有62%的受访者认为这是首要障碍。(2)AI与现有系统进行集成的复杂性同样也是挑战,因为Agent需要访问多个企业级系统,包括ERP、CRM、企业数据库等,在异构的现有系统环境中实现访问的权限管理和数据一致性的问题远未解决。(3)AI缺乏监控能力和执行的可解释性,企业对于自主执行多步骤任务的AI缺少类似传统软件那样的业务流程监控能力和执行过程的可见性。
函数调用Function Calling是LLM作为企业系统组件运行的一项关键能力。从企业的角度,AI不再仅仅是一个对话框,而是能够嵌入到订单处理、库存查询、客户数据检索等企业信息化流程中的可编排组建。但是根据这份报告,模型函数调用准确率依然存在巨大差异,最高的有77.5%,最低的不到60%。所以将AI可靠地集成到企业的关键信息化流程中依然需要克服很多技术障碍。
二、AI对于传统企业软件竞争格局的影响
1.知识管理领域的替代效应
报告在分析AI的生产力效应时,特别提到在知识管理和内容生成类任务中,AI工具正在对部分传统企业软件功能形成替代。这主要体现在传统上需要人工操作的知识库软件、文档管理系统等等,正在被AI的自动摘要和检索增强生成能力所增强或部分替代。
2.编程工具市场的重构
报告中提到Anysphere(Cursor母公司)以293亿美元估值完成23亿美元融资,年营收增长迅猛。报告认为AI编程助手正从开发者工具插件转变为可以独立构成业务的公司。在Vibe Code Bench基准上,AI已能自主构建完整的网页应用,顶级模型目前能够达到56.5%的成功率,表明AI正在触及传统低代码/无代码平台的领域边界。
3.RAG技术的普及对企业信息架构的影响
从企业信息化视角看,RAG的实质是将AI能力与企业的专有数据和知识库进行连接。不同于传统软件通过固定查询界面访问数据的方式,AI能力下的RAG允许自然语言交互,同时将响应锚定于企业自身的文档和信息源,减少了幻觉风险。
三、AI存在的独特智力挑战
1.供应链风险的维度扩展
AI供应链已经从传统的软件供应商和客户之间的关系,扩展至模型提供商、数据提供商、微调服务商和推理基础设施提供商等多层级的商业生态。在关于台积电单一供应链风险和AI主权框架的讨论中,报告进一步指出与传统企业软件依赖相比,AI硬件的物理集中度引入了全新的地缘政治维度的供应链脆弱性。
2. 合规范围的扩大
ISO/IEC 42001,也就是AI管理体系标准在发布第一年即被36%的受访组织引用为RAI决策的影响因素,NIST AI风险管理框架被33%引用。企业的传统合规框架前期主要涵盖数据保护GDPR、信息安全管理ISO 27001和质量管理系统,但是现在正向上扩展到专门的AI治理层面。对于已建立成熟信息化治理体系的企业而言,既是对现有能力的借力,也是新的成本负担和专业知识要求。
四、财务角度分析AI和传统软件的差异
1.传统企业软件的TCO模型
传统企业软件在过去30年间已形成一套成熟的TCO分析框架,成本的可预测性和线性增长是主要的分析思路。企业可以基于用户数、数据量和交易量的增长,较为准确地推算未来几年的总支出,并在预算周期内进行规划。

2.AI系统无法与传统软件的TCO适配
(1)训练成本的一次性大额支出与不可回收性。传统软件的实施成本主要用于定制化和数据迁移,这些投入在系统切换后仍可部分迁移或保留。而AI模型训练的数千万元的GPU费用一旦投入,如果模型性能不达预期或业务需求变更,这些计算资源无法回收或转用。训练成本不是一次性投入后即完结”的传统初始实施成本,而可能需要在模型达不到业务目标时重复发生。
(2)推理成本的持续性、波动性和不可预测性。传统软件在部署后的边际使用成本接近零。每增加一位用户登录系统,服务器和许可证成本的增幅是可预估的。而AI推理是每次查询都要消耗实际算力资源,边际成本永远不为零。推理成本随用户使用频率飙升而线性增长,但用户使用频率本身是不可预测的,某功能可能因一场社交媒体讨论而在两天内使用量骤增100倍,带动推理账单相应爆炸。这种由用户行为驱动的成本波动性,是传统企业IT预算模型从未需要面对的。
(3)数据成本的隐性化与持续化。传统软件通常在实施阶段完成数据迁移后,数据管理的成本集中在存储和备份上。AI系统则需要在整个生命周期中持续获取、清洗和标注训练数据。无论是为初始训练收集足够样本,还是为模型更新而持续积累新的标注数据,数据的获取成本,具体包含购买专有数据集的授权费、人工标注团队的费用等,以及治理成本,具体包含数据合规审计、隐私影响评估等,都是持续性的,且往往在项目初期被低估。
(4)模型迭代周期的非自主可控性。传统软件的升级周期由企业自身的IT路线图决定,可以选择跳过某个版本,或延迟升级到预算更充裕的年份。但AI模型的迭代压力部分来自外部,底层模型提供者可能弃用旧版API,新版本的基础模型能力可能使企业自研的微调模型没有与之对应的升级路径,竞争对手的AI能力跃迁可能迫使企业加速迭代。这种非自愿升级的成本是传统TCO框架未纳入的。
3.TCO比较模型缺失的后果
由于传统软件TCO思路与AI在分析框架上无法很好适配,在企业实践中可能导致AI系统的3—5年的成本估算可能比同等功能规模的传统软件项目的估算不确定性范围更大。当一个企业采购部门用传统软件的TCO模板去审批AI预算时,他们系统性低估了推理成本、数据成本和迭代成本。企业可能将传统软件部署完成即成本高峰已过的预期错误地投射到AI项目上,AI项目投产后的推理费用可能在第2年远超第1年的训练费用。
报告提供的消费者剩余数据,即生成式AI对美国消费者的年价值达1720亿美元,对应AI公司营收数据,即OpenAI等公司的快速增长,某种程度上间接证实了TCO鸿沟的存在。虽然AI创造的价值巨大,但捕捉这些价值的成本结构同样不同于传统软件,高营收并未在所有AI公司中转化为高利润。
五、企业信息化项目的运维实践
1.传统软件的维护费用结构
传统企业软件的维护费用已有行业惯例可循。按照典型的软件许可协议,年度维护费中的技术支持、补丁更新、版本升级等约为许可证费的15%—25%。这些成本主要用于
修复缺陷,对代码中已发现错误的修正;兼容性维护,适配操作系统、数据库、浏览器等底层环境的变化;安全补丁,响应新发现的安全漏洞;小功能增强,在版本内添加非重大功能等等。维护活动是反应性的、可计划的,工作量与软件代码的规模和复杂度呈现正相关。企业可以基于软件供应商的服务水平协议合理预估未来的维护投入。
2.AI系统的运维成本新维度
(1)推理费用:一项不存在于传统软件中的持续性运营成本
传统软件没有每次使用都要向基础设施提供商付费的模式。推理费用,也就是向云服务商支付的每次API调用或每GPU小时的费用,是AI系统独有的一项持续性运营支出。
成本的可变性与业务量存在非线性关系。传统软件的硬件容量可以按用户增长逐步扩展。但AI推理成本可能因为用户转向更复杂的使用模式而暴涨,例如从简单问答转向需要多步推理的深度分析任务,哪怕是用户数量不变。
企业通常锁定不了长期推理价格,云提供商的GPU定价受制于全球供需、芯片产能和新一代硬件的更新周期。推理成本中的不可控因素远超传统软件。企业因此可能陷入免费使用+付费高峰的陷阱。如报告所述,许多AI工具目前是免费或低价的,用户规模巨大但付费转化有限。如果企业在免费期内构建了依赖AI功能的业务流程,一旦AI供应商将价格提高到成本回收水平,这些流程的成本结构可能一夜之间变得不可持续。
(2)模型演化与更新的非线性
传统软件的更新通常在不改变核心功能逻辑的前提下增加新功能。AI模型的更新则可能给系统本身带来更为深度的变化:由于模型行为的不可预知改变,基础模型新版本不仅增强某些能力,还可能改变输出风格、引入新的偏见模式或在不同类型的输入上表现变差。因此,测试范围不能仅覆盖新功能,而必须重新验证所有已有功能是否依然正常。
另外就是过时Obsolescence的非自主节律的问题,旧版模型可能被弃用,或与新发布的工具链不兼容,迫使企业按照提供者的更新节奏而非自身的业务节奏进行迁移。
微调资产的折旧,企业基于特定版本基础模型进行微调的成果,在新版本基础模型发布时可能面临迁移成本或完全丧失价值。
(3)监测与质量保障的范式转换
传统软件的质量保障主要解决功能是否符合规格的问题,可以通过测试用例进行自动化和规范化。AI系统的监测则需要覆盖更广泛的维度。比如:
性能衰减drift检测,输入数据的分布变化可能导致模型性能缓慢下降,这种衰减不产生错误日志,只能通过持续的统计监控来捕获。
安全与安全边界监测:需要检测模型输出是否包含新的有害内容、是否被用户以未预期的方式操纵,以及是否正在产生新的偏见模式。
事实性与幻觉监测:对生成式输出进行持续的事实准确性评估,这在使用传统自动化测试方法时很难实现。
公平性审计:定期审查模型在不同人群子组上的性能差异,确保未引入新的歧视性行为。
这些监测活动的持续专业人力投入的成本,远高于传统系统的运维人员配比。
(4)人工复核与人在回路中的持续性成本
许多部署的AI系统,特别是高风险场景如医疗诊断辅助、法律合同审查和金融决策,需要在模型输出与最终决策之间保留人工审查环节。像这种人在回路Human-in-the-Loop架构的运维成本可能会非常庞大,因为需要组建并保持一个具备专业判断能力的审核团队,审核人员需要持续的再培训以跟上模型行为的变化。在模型不确定性高的案例中,人工干预的频率可能高到侵蚀AI部署的预期效率收益。
3.运维成本差异的结构性后果
运维维度的叠加可能会导致AI系统的运维和建设成本比可能远高于传统软件。传统软件在5年期TCO中,运维占比通常在40%—60%。而对AI系统而言,如果计入推理费用、模型更新、持续监控和人工复核,后期的累计运维成本可能远超初期的构建和训练成本。报告内容关于推理的累积能耗可能超过训练的论述,在运维成本层面有一个直接的财务对应:推理的累积费用可能超过训练费用,而监控和治理的持续投入可能再次超过单纯的推理费用。从建设密集型到运维密集型的成本重心转移,是企业AI预算模型尚未适应的一项结构性变革工作。
六、变革管理与组织重塑成本的问题
1.技术替换与组织修复的区别
传统软件的实施通常遵循一套成熟的企业变革管理方法论,核心关注点是:业务流程重新设计、用户培训、阶段性部署和阻力管理。实施成败的关键指标通常包括用户采用率、业务流程效率改善和数据迁移完整性。AI的引入则不是对现有流程的自动化或优化,而往往需要从根本上重新界定人与系统之间的分工,这样会带来相较于传统软件实施更深水区的组织变革挑战。
2.AI引入引发的组织重塑成本
(1)流程再设计
传统软件的实施主要重新设计信息如何在系统内流转,AI的实施则需要重新设计认知工作的分配。哪些判断由AI完成,哪些保留给人,哪些由人和AI协作完成。这要求对现有岗位的任务构成进行深度拆解,而不是仅仅在流程图上更改信息传递路径。报告中关于自动化vs.增强的讨论中,Claude使用数据中两种模式此消彼长的胶着状态,正是这种认知工作再分配的实时反映。
(2)岗位与权力的重新配置及其阻力
当AI能够完成过去由资深员工垄断的特定认知任务,如初步诊断、合同草案、代码框架时,组织内部的知识权力结构也会伴随进行重新分配。这些岗位的在位者可能抵制AI的部署,并非恐惧技术本身,而是因为其稀缺性价值和决策权威受到了威胁。阻力往往比用户不会用新系统的传统培训障碍更难识别和化解。
(3)技能重塑的直接与间接成本
从传统软件过渡到AI增强型流程,一线员工和管理者都需要学习新技能,如何编写有效提示、如何评估AI输出的可信度、如何在自己的判断与AI的建议之间进行校准、如何在AI建议明显错误时进行合理覆写。这是一个持续的经验积累过程,不可能通过一次性培训完成。此外,随着员工与AI协作模式的逐步建立,还存在着自动化偏见/过度信任AI或算法厌恶/过度不信任AI等隐性认知风险,这些风险难以量化,但其造成的效率损失或决策失误却可能实质性地影响AI投资的回报。
(4)开发范式的组织冲突
将AI组件引入企业软件系统,需要数据科学家、模型工程师与传统的企业应用开发者进行跨边界协作。这两种群体在工具、方法论和思维模型上非常不同。前者习惯于概率性思维、实验性迭代和模型行为难以精确预测的前提;后者则根植于确定性系统、集成测试和精确行为规格。弥合这种文化和认知上的差距需要投入的时间和精力往往被低估了。
(5)评估体系的适配成本
企业的采购、法务、合规和内部审计部门,依赖一套基于确定性软件的评估模板,需要供应商提供完整的功能规格、安全认证和性能承诺。AI系统的概率性、不透明性和持续演化特征,与这些既有的企业评估流程有着很大的矛盾冲突。更新采购指南、培训法务团队理解模型风险、建立AI系统的内部审计能力,这些组织基础能力的建设本身就是一项可观的成本中心。
3.变革管理成本被系统性低估的原因
企业在制定AI投资商业论证时,往往将AI项目定位为技术升级,类比为一次数据库迁移或前端框架切换。这种类比存在一定程度的误导性,传统技术升级的成本主要集中在IT部门,而AI引入的成本会溢出到人力资源、法务、合规、业务运营和战略规划等几乎所有职能部门。报告虽然提到知识缺口(比例大概占到59%)是实施RAI的首要障碍,也将安全与风险担忧标记为部署Agentic AI的首要障碍,但并未将这些数据点纳入一个系统性的组织变革成本框架中。
夜雨聆风