AI写了90%的代码,效率只提升60%?字节副总裁亲述:我们踩了哪些坑

当AI生成的代码占90%，团队人均需求吞吐率却只提升了60%——这组反直觉的数据背后，藏着AI编程进入企业的全部真相。

过去一年，AI编程工具彻底火了。Cursor、Copilot、Windsurf轮番刷屏，国外AI编程赛道跑出多个10亿美元级ARR产品。

字节跳动技术副总裁洪定坤，也在火山引擎FORCE原动力大会上交出了一份字节内部的“成绩单”——AI代码贡献率增长超6倍，AI Coding的Token消耗增长5倍，TRAE团队更是激进到超90%的代码由AI产出。

但紧接着，他说了句让人意外的话：

“这些数字不代表AI Coding已做得非常好，反而因为用得越来越多，对挑战有了更真实的体感。”

01 反常识的数字：90%与60%

TRAE是字节自研的AI原生IDE，名字取自“The Real AI Engineer”。作为这个产品的负责人，洪定坤拿自己团队的数据做了个“解剖”：

过去半年，TRAE团队超90%的代码由AI产出，但人均需求吞吐率仅提升了60%。

洪定坤的原话是：

“AI写代码速度是人的10倍以上，理论上应有几倍甚至数量级的提升，但实际只有1.6倍。”

AI写代码的速度起码是人的十倍，当九成代码都由AI产出，效率提升本该是几倍。为什么只有60%？

洪定坤的答案是——单一指标失真了。

盯着“AI代码贡献率”这个数字蒙眼狂奔，以为是在狂奔，实际可能只是把“摆臂”这个动作做得更快。

02 实验揭秘：能跑≠能交付

为了搞清楚问题出在哪，TRAE团队做了一个非常硬核的实验：

选3个主流Coding模型 × 3个主流Agent框架，两两组合，用同一个中等复杂度的需求、相同的Prompt各跑100次。

结果一：看功能正确率——所有组合正确率都超过80%。

结果二：看UI易用性、可靠性、可维护性、性能、兼容性——得分骤降至40到60分，不及格水平。

洪定坤在演讲中描述了几个典型毛病：

AI会过度设计——本来只想做一个很小的参数改动，AI却复制了一大段相同逻辑的代码。

AI不关心异常处理——用户填了不该填的内容、数据传进来是空的，程序能不能处理好？这些AI都容易悄悄省掉，因为省掉之后Demo照样跑得通。

“功能正确率80多分，一到‘能不能交付’就掉到不及格线附近。”

能跑，说明功能是对的；能上线，还得性能扛得住、安全没漏洞、别的模块不会被带崩、半年后换个人接手还能看懂、还能改。

这两者之间的距离，就是90%代码贡献率到60%效率提升之间那个Gap。

03 那些“AI帮不上忙”的部分

为什么AI写得快，团队却快不了多少？

洪定坤团队发现了一个更深层的问题：AI加速了写代码这段路，但软件开发的其他环节没跟上。

一个典型的软件开发过程中，写代码可能大概占不到**40%**的工作，越复杂的应用，代码工作的占比越少。

洪定坤用自己开发“积流成江”英语学习应用的经历说明了这一点——3天用AI写出3000多行代码（85%由AI生成），但后面花了好几天做环境搭建、调试、运维、压测。

他说：

“传统模式下，我调一个bug，可能半天过去了。未来有没有可能就是AI来做这个事情？它来帮我自动从日志里面定位，然后分析可能什么问题，和我一起确认。”

04 破局的关键：Harness基建

找到问题之后，字节的解法是什么？

洪定坤给出的答案是——Harness。

但他特意敲了黑板：Harness不等于Agent框架。

“很多人一提Harness就扎进‘Single还是Multi Agent、配哪些角色和工具’的讨论里。但在真实业务中，决定AI能否落地的，还有大量更基础、更工程化的东西。”

字节团队理解的Harness，是更底层的基建：

上下文工程——给AI的信息够不够、准不准；

架构约束——代码规范、依赖规则有没有明确告诉AI；

团队知识沉淀——过去踩过的坑有没有沉淀进Memory；

技术债梳理——老代码的坑位有没有提前说清楚。

当TRAE团队把这些基建结合进去重跑那个实验，结果发生了质变：可交付性从原本40-60分的不及格水平，普遍拉到80分以上。

从“能跑”到“能上线”，差的不是模型智商，是一整套工程化的治理体系。

05 协作危机：“人人都是程序员”的新难题

AI把写代码的门槛大幅拉低后，一个新问题浮出水面。

洪定坤讲了一个真实的字节内部案例：

一位产品同学用AI做出了一个功能完备的交互页面，页面能看、流程能跑，她要求直接上线。研发团队却告诉她要排期重构。

原因是代码“性能不够好、扩展性没考虑、权限安全也有隐患。”

AI让产品、设计、运营都能把想法直接变成代码，这本身是好事。但问题在于——代码生成的门槛降了，系统的复杂度没降。

“不能因为‘不是工程师写的’就一概否定，也不能‘谁写出来谁就上线’。”

真正的挑战，是让更多人更合理地参与代码生产，同时让这些产出汇入统一的架构、规范与交付流程。

06 转向：从AI Coding到AI Development

经过这一年的实践，洪定坤说字节的关注点已经变了：

第一，找到更合理的指标衡量全局效率——不再迷信单一的“代码贡献率”。

第二，用更稳定的方式让Vibe Coding走向真正的软件工程——处理好技术债、可维护性、安全性。

第三，围绕AI Coding让上下游角色更好地协作——让产出汇入统一的架构、规范和交付流程。

字节正在探索的解决方案，叫做原型驱动开发和系统化AI Development。

简单来说，就是让AI不仅在“写代码”这一段发力，而要进入研发的全流程：编写Spec、自动验证、自动修复Bug、协助上线。

“我们想做的不只是AI Coding，更是AI Development。”

洪定坤的愿景是：未来AI成为调度者，让软件开发all in one，更大幅度地降低开发的门槛。

写在最后

洪定坤在演讲中说了一句话，很适合作为这篇文章的结尾：

“Vibe Coding的问题是只盯着眼前这段代码对不对，很容易局部正确、全局失控。”

一年前，他用3天让AI写了85%的代码，演讲的调性是兴奋的、展示性的。

一年后，代码贡献率推到了90%，他反而开始大谈挑战和痛点。

这个转变本身，或许比任何数据都更有说服力。

AI编程的“质变点”确实到了，但过了门槛之后的路，才刚刚开始。