当AI生成的代码占90%,团队人均需求吞吐率却只提升了60%——这组反直觉的数据背后,藏着AI编程进入企业的全部真相。
过去一年,AI编程工具彻底火了。Cursor、Copilot、Windsurf轮番刷屏,国外AI编程赛道跑出多个10亿美元级ARR产品。
字节跳动技术副总裁洪定坤,也在火山引擎FORCE原动力大会上交出了一份字节内部的“成绩单”——AI代码贡献率增长超6倍,AI Coding的Token消耗增长5倍,TRAE团队更是激进到超90%的代码由AI产出。
但紧接着,他说了句让人意外的话:
“这些数字不代表AI Coding已做得非常好,反而因为用得越来越多,对挑战有了更真实的体感。”

01 反常识的数字:90%与60%
TRAE是字节自研的AI原生IDE,名字取自“The Real AI Engineer”。作为这个产品的负责人,洪定坤拿自己团队的数据做了个“解剖”:
过去半年,TRAE团队超90%的代码由AI产出,但人均需求吞吐率仅提升了60%。
洪定坤的原话是:
“AI写代码速度是人的10倍以上,理论上应有几倍甚至数量级的提升,但实际只有1.6倍。”
AI写代码的速度起码是人的十倍,当九成代码都由AI产出,效率提升本该是几倍。为什么只有60%?
洪定坤的答案是——单一指标失真了。
盯着“AI代码贡献率”这个数字蒙眼狂奔,以为是在狂奔,实际可能只是把“摆臂”这个动作做得更快。

02 实验揭秘:能跑≠能交付
为了搞清楚问题出在哪,TRAE团队做了一个非常硬核的实验:
选3个主流Coding模型 × 3个主流Agent框架,两两组合,用同一个中等复杂度的需求、相同的Prompt各跑100次。
结果一:看功能正确率——所有组合正确率都超过80%。
结果二:看UI易用性、可靠性、可维护性、性能、兼容性——得分骤降至40到60分,不及格水平。
洪定坤在演讲中描述了几个典型毛病:
AI会过度设计——本来只想做一个很小的参数改动,AI却复制了一大段相同逻辑的代码。
AI不关心异常处理——用户填了不该填的内容、数据传进来是空的,程序能不能处理好?这些AI都容易悄悄省掉,因为省掉之后Demo照样跑得通。
“功能正确率80多分,一到‘能不能交付’就掉到不及格线附近。”
能跑,说明功能是对的;能上线,还得性能扛得住、安全没漏洞、别的模块不会被带崩、半年后换个人接手还能看懂、还能改。
这两者之间的距离,就是90%代码贡献率到60%效率提升之间那个Gap。
03 那些“AI帮不上忙”的部分
为什么AI写得快,团队却快不了多少?
洪定坤团队发现了一个更深层的问题:AI加速了写代码这段路,但软件开发的其他环节没跟上。
一个典型的软件开发过程中,写代码可能大概占不到**40%**的工作,越复杂的应用,代码工作的占比越少。
洪定坤用自己开发“积流成江”英语学习应用的经历说明了这一点——3天用AI写出3000多行代码(85%由AI生成),但后面花了好几天做环境搭建、调试、运维、压测。

他说:
“传统模式下,我调一个bug,可能半天过去了。未来有没有可能就是AI来做这个事情?它来帮我自动从日志里面定位,然后分析可能什么问题,和我一起确认。”
04 破局的关键:Harness基建
找到问题之后,字节的解法是什么?
洪定坤给出的答案是——Harness。
但他特意敲了黑板:Harness不等于Agent框架。
“很多人一提Harness就扎进‘Single还是Multi Agent、配哪些角色和工具’的讨论里。但在真实业务中,决定AI能否落地的,还有大量更基础、更工程化的东西。”
字节团队理解的Harness,是更底层的基建:
上下文工程——给AI的信息够不够、准不准;
架构约束——代码规范、依赖规则有没有明确告诉AI;
团队知识沉淀——过去踩过的坑有没有沉淀进Memory;
技术债梳理——老代码的坑位有没有提前说清楚。
当TRAE团队把这些基建结合进去重跑那个实验,结果发生了质变:可交付性从原本40-60分的不及格水平,普遍拉到80分以上。
从“能跑”到“能上线”,差的不是模型智商,是一整套工程化的治理体系。

05 协作危机:“人人都是程序员”的新难题
AI把写代码的门槛大幅拉低后,一个新问题浮出水面。
洪定坤讲了一个真实的字节内部案例:
一位产品同学用AI做出了一个功能完备的交互页面,页面能看、流程能跑,她要求直接上线。研发团队却告诉她要排期重构。
原因是代码“性能不够好、扩展性没考虑、权限安全也有隐患。”
AI让产品、设计、运营都能把想法直接变成代码,这本身是好事。但问题在于——代码生成的门槛降了,系统的复杂度没降。
“不能因为‘不是工程师写的’就一概否定,也不能‘谁写出来谁就上线’。”
真正的挑战,是让更多人更合理地参与代码生产,同时让这些产出汇入统一的架构、规范与交付流程。
06 转向:从AI Coding到AI Development
经过这一年的实践,洪定坤说字节的关注点已经变了:
第一,找到更合理的指标衡量全局效率——不再迷信单一的“代码贡献率”。
第二,用更稳定的方式让Vibe Coding走向真正的软件工程——处理好技术债、可维护性、安全性。
第三,围绕AI Coding让上下游角色更好地协作——让产出汇入统一的架构、规范和交付流程。
字节正在探索的解决方案,叫做原型驱动开发和系统化AI Development。
简单来说,就是让AI不仅在“写代码”这一段发力,而要进入研发的全流程:编写Spec、自动验证、自动修复Bug、协助上线。
“我们想做的不只是AI Coding,更是AI Development。”
洪定坤的愿景是:未来AI成为调度者,让软件开发all in one,更大幅度地降低开发的门槛。
写在最后
洪定坤在演讲中说了一句话,很适合作为这篇文章的结尾:
“Vibe Coding的问题是只盯着眼前这段代码对不对,很容易局部正确、全局失控。”
一年前,他用3天让AI写了85%的代码,演讲的调性是兴奋的、展示性的。
一年后,代码贡献率推到了90%,他反而开始大谈挑战和痛点。
这个转变本身,或许比任何数据都更有说服力。
AI编程的“质变点”确实到了,但过了门槛之后的路,才刚刚开始。
夜雨聆风