最强AI编程助手30道企业级开发题只拿了20分,问题到底出在哪?
Vibe Coding概念火了大半年,各种"3小时用AI搭出完整项目"的教程满天飞。但一个很关键的问题一直没人认真回答:AI到底能不能从零开始,搭出一套真正的企业级软件?中科大和阿里高德地图联手做了一次认真到近乎严苛的测试,结果出来了——满分100,最强组合只拿了20.68分。
测的什么?SaaSBench
他们专门造了一个叫SaaSBench的测试平台,是目前第一个针对企业级SaaS开发场景设计的AI编程基准。,覆盖6大领域、30个SaaS细分类别(邮件营销、CRM、电商平台、身份管理、工作流自动化等)超过5370个验证节点,每个任务给AI一份平均4363行的产品需求文档AI拥有完整的Docker环境,可以自由创建文件、装依赖、跑命令这不像那些"写个排序算法"的玩具题——这更像是给AI一份完整的PRD,让它独立交付一套可运行的生产系统。测试对象:Claude Code、OpenHands、Codex CLI三个编程框架,搭配GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro等8个大模型。
结果如何?惨烈
| |
|---|
| Claude Code + Claude Opus 4.7 | 20.68 |
| OpenHands + Claude Opus 4.7 | 18.12 |
| 11.64 |
| 9.26 |
更残酷的是失败模式分析。他们把480个能力单元按失败轨迹分了5类:超过95%的任务,AI连业务逻辑都还没开始写,系统就已经挂了。
问题出在哪?
不是AI不会写代码。他们在6个工程能力维度上做了拆解:1. "过度自信的提前收手":AI在系统还没跑起来时就宣告完成。研究者的原话很形象——"地基刚打了一半就开始贴墙纸,并报告工程竣工"。2. "无效的长期调试循环":AI在同一问题上反复打补丁,找不到根本原因。就像"用橡皮膏一层层贴来修复漏水的主管道,越贴越乱"。核心障碍不是算法能力,而是系统配置、多组件集成、依赖管理和部署稳定性这些工程基本功的可靠性。
对开发者的启示
AI擅长"点",不擅长"面"。写单个函数、修小bug没问题,但从零搭建一个完整系统,目前还差得远。框架差距比模型差距更明显。同一个Claude Opus 4.7模型,在Claude Code框架上拿了20.68分,在OpenHands上只有18.12分。好的框架能让模型减少50%以上的"无效操作"。别被Demo骗了。那些看起来很酷的3小时搭项目视频,通常是高度预选过的场景。真实企业开发涉及多组件协作、复杂状态管理、安全策略——这些才是真正的考验。短期内,AI最大的价值不是替代开发,而是加速开发。把AI放在"写代码"这个环节效率最高,让人类负责架构决策、系统集成和质量把控。
论文编号 arXiv:2605.17526,有兴趣的可以去读原文,测试框架设计得非常精细。