AI能搭企业级软件吗?中科大*阿里的测试结论来了

最强AI编程助手30道企业级开发题只拿了20分，问题到底出在哪？

Vibe Coding概念火了大半年，各种"3小时用AI搭出完整项目"的教程满天飞。但一个很关键的问题一直没人认真回答：AI到底能不能从零开始，搭出一套真正的企业级软件？

中科大和阿里高德地图联手做了一次认真到近乎严苛的测试，结果出来了——满分100，最强组合只拿了20.68分。

测的什么？SaaSBench

他们专门造了一个叫SaaSBench的测试平台，是目前第一个针对企业级SaaS开发场景设计的AI编程基准。

30个复杂任务

，覆盖6大领域、30个SaaS细分类别（邮件营销、CRM、电商平台、身份管理、工作流自动化等）

超过5370个验证节点，每个任务给AI一份平均4363行的产品需求文档

8种编程语言、6种数据库、13种框架

AI拥有完整的Docker环境，可以自由创建文件、装依赖、跑命令

这不像那些"写个排序算法"的玩具题——这更像是给AI一份完整的PRD，让它独立交付一套可运行的生产系统。

测试对象：Claude Code、OpenHands、Codex CLI三个编程框架，搭配GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro等8个大模型。

结果如何？惨烈

综合得分排名：

最强组合30道题平均只拿到约五分之一的分数。

更残酷的是失败模式分析。他们把480个能力单元按失败轨迹分了5类：

超过95%的任务，AI连业务逻辑都还没开始写，系统就已经挂了。

不是AI不会写代码。他们在6个工程能力维度上做了拆解：

部署（Deploy）

——AI相对最擅长，基础服务启动还行

数据建模（Data）

——中等水平

API合约、业务逻辑、权限控制

——表现偏低

工程质量（Quality）

——垫底，代码组织和边界处理与生产级差距很大

研究总结出两种典型失败模式：

1. "过度自信的提前收手"：AI在系统还没跑起来时就宣告完成。研究者的原话很形象——"地基刚打了一半就开始贴墙纸，并报告工程竣工"。

2. "无效的长期调试循环"：AI在同一问题上反复打补丁，找不到根本原因。就像"用橡皮膏一层层贴来修复漏水的主管道，越贴越乱"。

核心障碍不是算法能力，而是系统配置、多组件集成、依赖管理和部署稳定性这些工程基本功的可靠性。

这项研究对行业来说有几个重要信号：

AI擅长"点"，不擅长"面"。写单个函数、修小bug没问题，但从零搭建一个完整系统，目前还差得远。

框架差距比模型差距更明显。同一个Claude Opus 4.7模型，在Claude Code框架上拿了20.68分，在OpenHands上只有18.12分。好的框架能让模型减少50%以上的"无效操作"。

别被Demo骗了。那些看起来很酷的3小时搭项目视频，通常是高度预选过的场景。真实企业开发涉及多组件协作、复杂状态管理、安全策略——这些才是真正的考验。

短期内，AI最大的价值不是替代开发，而是加速开发。把AI放在"写代码"这个环节效率最高，让人类负责架构决策、系统集成和质量把控。

论文编号 arXiv:2605.17526，有兴趣的可以去读原文，测试框架设计得非常精细。