不信你们看这两条放一起有多魔幻:
第一条:OpenAI总裁说,AI写的代码从20%涨到了80%。
第二条:Meta发布的测试,所有顶级AI模型全部0分。
一个是80%,一个是0%。
这两个数字出在同一周。
是不是很矛盾?
我的第一反应也是:这到底是怎么回事?AI到底行还是不行?
今天咱们就好好聊聊这个事儿。
建议先收藏,这篇文章可能会颠覆你对AI编程的认知。

01 这个测试到底有多变态?
先说清楚这个测试具体是干啥的。
Meta联合斯坦福、哈佛搞了一个叫 ProgramBench 的新测试。
和之前的测试不一样,这次不给AI看源代码,只给两样东西:
一个可运行的程序(比如FFmpeg、SQLite这种) 一份使用文档
然后让AI说:你从零把这个软件重新写一遍吧。 不能联网,不能反编译,语言自己选,架构自己搭。
这就好比:
给你一辆车,你开了一圈,然后让你从零造一辆出来。不能看图纸,不能上网查,全靠自己理解。
难度可想而知。
测试了200个项目,生成了24万多个行为测试点,覆盖了压缩工具、数据库、编程语言解释器、音视频处理等各种真实软件。
02 结果:全军覆没
9个顶级模型,全部0%完全通过率。
| 0% | ||
| 0% | ||
| 0% | ||
| 0% | ||
| 0% |
你没看错。没有一个及格。
Claude Opus 4.7算是最好的了,平均能通过51.2%的测试,但要说"完全等价"地重建一个软件,0%。
说人话就是:AI写段代码没问题,但要独立完成一个完整的软件项目,还差得远。

03 AI到底"笨"在哪?
研究团队分析了AI写的代码,发现了几个很有意思的问题:
1、AI只会堆大文件
人类写代码,一个项目平均15个文件,结构清晰,各司其职。
AI写代码,平均3个文件。有60%的解决方案就写了1到3个文件。
这就好比做菜,人类会切菜、备料、炒菜分开来。AI倒好,把所有东西倒进一个锅里煮。
2、AI不爱写函数
Claude Opus 4.7写的函数数量只有人类的29%。
GPT-5.4更夸张,只有10%。
不是它们懒,而是它们没有"模块化"这个概念。想到哪写到哪,一个函数写几百行。
3、AI有自己的"方言偏好"
不管原项目是用什么语言写的,36%的情况下AI都选Python。
这就好比让AI翻译一篇英文文章,它偏要给你翻成方言。
4、有个模型居然作弊了
Claude Sonnet 4.6在联网的情况下,36%的任务直接去GitHub克隆代码库。
还挺聪明是吧?可惜考试不准作弊。
04 看到这个结果,我一点都不意外
为什么?
因为我的亲身经历,和这个测试结果一模一样。
上周那篇文章里我写过,用AI帮闺女做2048游戏,功能很快就写好了,数字方块也能移动。看起来完美对不对?
结果让AI优化一下界面,数字方块全部跑到了格子外面。
我调试了2小时才修好。
为什么AI会犯这种低级错误?
因为它只会"写代码",不会"做工程"。
写2048的逻辑代码,就是一个文件、一个函数的事。但要让界面正常显示,需要HTML、CSS、JavaScript三个文件协同工作,需要考虑布局、定位、响应式。
AI没有这个"全局思维"。
它就像个偏科生,单科能考90分,但综合题全挂。
说人话就是:AI擅长写"句子",但不擅长写"文章"。

05 但这反而是好消息
你可能要问:曹哥,AI这么废,你咋还说是好消息?
因为这件事恰恰说明了:
AI替代不了真正的程序员。
不是因为我站着说话不腰疼,而是因为我做了13年开发,从初级到架构师,太清楚"写代码"和"做工程"之间的差距了。
AI写的代码占比越来越高,这不假。但它写的都是"代码片段"、"单一功能"、"局部实现"。
真正需要你做的,是:
判断这个需求对不对 选择合适的技术方案 设计系统的架构 考虑边界情况和异常处理 保证代码的可维护性
这些能力,AI现在做不到,短期内也很难做到。
所以对0基础的小白来说,我的建议是:
不要怕。AI不会让你失业,反而会帮你更快地跨过"写代码"这道门槛。
你不需要先啃完几年编程基础再开始。你可以直接上手,让AI帮你写代码,你来学怎么做工程。
但有一点你要记住:
AI能帮你写代码,但不能帮你思考。
你想不清楚的事,AI也想不清楚。你描述不清楚的需求,AI也做不出来。
这恰恰是你需要练的能力,不是写代码的能力,而是思考的能力、拆解问题的能力、把需求说清楚的能力。

感慨
写这篇文章的时候,我想起了刚学编程的时候。
那时候最大的门槛是什么?是写代码吗?不是。
是不知道该写什么。
现在有了AI,这个门槛被抹平了。AI能帮你生成代码,帮你搭框架,帮你调试。
但底层的逻辑没变:
技术是工具,思考才是核心。
所以别被"AI考了0分"吓到,也别被"AI写了80%代码"吓到。
两个新闻放在一起看,才是最真实的情况:
AI很强大,但离真正"会编程"还有距离。 AI有局限,但足够帮普通人跨越编程门槛。
该学的学,该用的用,该思考的思考。
你觉得AI编程是帮你更多,还是让你更焦虑了?
评论区聊聊,我挺想听听大家的真实想法😊
如果今天的分享对你有帮助,随手点个赞就行,不用客气👍
收藏起来,等这个话题再热起来,翻出来再看看!
就这样,下期见!✌️
夜雨聆风