字节90%代码AI写,效率只涨60%:我用11个AI员工3年,才搞明白这个反常识

上周火山引擎Force大会上，字节跳动技术副总裁洪定坤讲了一组数据。

TRAE团队，过去半年超过90%的代码由AI写出。听起来很猛对吧？

但紧接着他说了另一个数字：人均需求吞吐率，只提升了60%。

90%的代码交给AI，效率只涨了60%。这两个数字之间，藏着一个几乎所有用AI的人都会踩的坑。

今天我想把这个坑，还有跨过这个坑的方法，完完整整地写给你。

一、为什么AI写得多，效率提升却远没那么大

你可能觉得，AI写代码的速度至少是人的十倍以上，九成代码都AI产出了，效率不该只涨60%啊。

但真实情况就是这样。字节的团队自己也不觉得这是成绩，恰恰因为他们用得足够深，才比大多数公司更早看到了问题。

第一个问题，是盯错了指标。

很多团队会盯"AI代码贡献率"、"AI采纳率"、"生成代码量"这些直观数字。但你把这些数字和真实产出放在一起，那组"90%对1.6倍"的反差就浮出来了。盯着单一指标蒙眼向前跑，以为在狂奔，实际只是把"摆臂"这个动作做得更快，腿没真迈出去。

第二个问题更深，叫"Vibe Coding"的局限性。

过去一两年很流行一种做法：有想法就让AI生成一版，跑通再说。刚开始确实让人上瘾，尤其是没写过代码的人，一句话就能出一个能跑的Demo。

但真实世界里的开发，Coding只是其中一部分。企业要的是长期稳定、可维护、可运营。

TRAE团队做了个实验：三个主流Coding模型和三个主流Agent框架两两组合，用一个中等复杂度的需求，各跑100次。只看"功能是否基本正确"，所有组合正确率都超过80%。可一旦看UI易用性、可靠性、可维护性、性能、兼容性，分数就断崖式下跌。

AI容易悄悄省掉两件关键的事：一是防御性编程，也就是提前替意外情况做好准备；二是异常处理，当系统真的出错时，代码得有预案，能友好提示或安全退回，而不是当场崩溃。

省掉之后Demo照样跑得通，但这和能真正上线还差得远。

第三个问题，是协作。

AI把写代码的门槛大幅拉低后，产品、设计、运营都能把想法直接变成代码。字节内部就发生过：一位产品同学拿着自己用Vibe Coding做出来的需求来找研发，页面能看、流程能跑，她不理解为什么还要排期几天。

代码生成的门槛降了，系统复杂度却没降。谁写出来谁就上线？代码要放进既有架构、和已有模块配合。真正的挑战，是让更多人合理地参与代码生产，同时让产出汇入统一的架构、规范与交付流程。

二、豆包刚上线了一个"真干活"的模式

6月24日，豆包正式上线专业版。

这次更新最大的变化是一个全新的"办公任务模式"。简单说，豆包不再只是聊天，而是能完成一个完整的工作目标，自主拆解步骤，调用本地电脑、浏览器、飞书办公套件等工具，产出可以直接交付的工作成品。

一份行业报告、一张数据分析表、一套PPT，或者一个带后端数据库的网站。

36氪实测了三个场景，按难度递进。

第一个场景最硬核：操作本地电脑文件。让豆包设计一个可复用的软件，帮用户检测重复照片中质量最好的，把其余的放入回收站。豆包先查看本地照片文件夹，了解测试数据，然后开始写代码。过程中经历了多轮自我迭代，遇到依赖兼容性问题主动切换技术方案，发现评分算法和分组逻辑的Bug后自行修复重跑。最后还加了一套极简UI，用tkinter做了完整的图形界面，文件夹选择、严格度滑块、可视化扫描结果、进度条。一个完全不会写代码的人，全程鼠标操作就能清理完重复照片。

第二个场景是财报数据分析加对比图表。让豆包整理近半年全球AI芯片行业的财报核心数据，对比英伟达和AMD两家公司的营收增速、毛利率变化，生成飞书表格和投资摘要文档。豆包交付了两个文件，一份双Sheet的飞书表格和一份投资摘要文档，每个数字都有明确的时间范围标注，投资摘要提炼了三个行业趋势判断并给出了配置建议。作为初稿，这份交付覆盖了一个初级分析师大概半天的工作量。

第三个场景我觉得最有意思：自建Skill。让豆包创建一个可以生成数据可视化面板的技能，然后用这个技能分析世界杯比赛数据。豆包先生成了一个名为"data-dashboard"的Skill，基于ECharts构建，支持多种图表类型，然后调用这个Skill，抓取当天世界杯4场比赛的实时数据，生成了一个交互式数据面板。关键在于：这个Skill创建一次之后可以反复调用，明天的世界杯赛事数据不需要重新描述需求。

豆包日活超过2亿。这2亿人里大多数从未接触过Claude Code和Codex等专业Agent工具。Agent能力进入一个每天2亿人打开的App，覆盖的是一个全新的用户群体。一个从没写过代码的行政人员，现在能用一句话让豆包帮她整理本地文件、生成周报，甚至部署一个内部查询网站。

还有一个细节我挺意外：定时任务。用户可以设定豆包在固定时间自动执行重复性工作，比如每周一上午9点自动生成AI行业动态周报。这跟我在用的11个AI员工里的"调研AI"做的事情一模一样。

价格方面，专业版68元/月标准套餐，学生认证后38元/月。免费用户现有功能和额度不受影响，办公任务模式也在一定额度内向所有用户免费开放。

三、OpenAI自己也在经历同样的转变

OpenAI刚刚发布了一份经济研究报告，数据更极端。

从2025年8月到2026年6月，OpenAI内部经历了一场"从ChatGPT到Codex"的迁徙。最初几个月，ChatGPT还是默认工具，平均每个员工不到10%的token用在Codex上。

现在呢？99.8%的每周输出token来自Codex。工程师团队这个数字是99%。

不只是量变了，更有意思的是质变了。80.6%的个体用户至少发起过一次预计等效人类工作时间超过30分钟的请求；70.2%至少发起过一次超过1小时的请求；25.6%发起过一次超过8小时的请求。最极端的1%用户，每天同时在跑超过60小时的Codex Agent工作。

还有一个趋势让我很感慨：非开发者增长速度远超开发者。自2025年8月以来，非开发者用户增长137倍（个人层面），189倍（组织层面）。法务部门使用量增长了13倍，客服增长了32倍，研究增长了56倍。超过四分之一的业务部门员工用Codex做的工作是工程或编程类任务。

这说明一件事：Agent降低了跨职能边界工作的成本。不是程序员的人，也能做编程相关的事了。

OpenAI自己在报告里加了一句提醒：这些数字是基于0.1%用户的随机样本推断出来的，应该被理解为方向性的而非精确的。但我认为，方向已经很清楚了。

四、我11个AI员工的真实账单，和这三年的迭代

我从2023年开始部署AI员工，现在有11个：客服、文案、设计、剪辑、运营、调研、数据分析、代码、HR初筛、法务初审、投流优化。

月账单从最初的6万降到现在的2万3。降账单靠的不是砍功能，是找到了"用AI干活"和"让AI只是聊天"之间的区别。

这个区别是什么？字节的那个反常识说得够清楚了：AI代码贡献率高，交付效率不一定高。AI聊天多，工作产出不一定多。

我走过的弯路和字节一模一样。

第一阶段，2023年中到2024年初，我让AI做所有事。客服AI回复客户、文案AI写公众号、调研AI查资料、设计AI做图。结果呢？量确实大了，但质量参差，人工审核的时间反而更多了。就像TRAE实验里那个结果：功能80%正确率看着不错，可维护性和可靠性断崖下跌。

第二阶段，2024年中到2025年初，我开始做"Harness"。不是简单地把任务甩给AI，而是给每个AI员工搭一套流程和规范。客服AI有话术模板和异常处理规则，文案AI有风格指南和审核清单，调研AI有数据源白名单和验证流程。就像字节做的：把Vibe Coding变成系统化的AI Development，可交付性从四五十分拉到了80分。

第三阶段，2025年中到现在，我开始让AI员工之间协作。调研AI查完资料自动传给文案AI，文案AI写完初稿自动传给设计AI做配图，客服AI发现异常自动触发法务AI初审。这跟OpenAI报告里说的"多Agent并行运行"是同一件事。我的投流优化AI现在每天同时跑5个投放方案，等于一个人同时盯着5个屏幕。

豆包专业版刚上线的那套"办公任务模式"，说白了就是把这三个阶段一步到位地打包了：明确目标、拆解步骤、调用工具、交付成品。而且它比我手动搭的Harness更厉害的一点是，能操作本地电脑和浏览器，能自建Skill，能设定时任务。

说实话，看到豆包能做到"操作本地电脑、多轮自我迭代、发现Bug自行修复"的时候，我心里是有点紧张的。因为这意味着，以前需要我的代码AI花3个月才搭好的Harness，现在可能一个普通人一句话就能启动。

五、三件具体能落地的事

说了这么多数据和故事，给你三件今天就能开始做的事。

第一件：别盯"AI用了多少"，盯"交付效率变了多少"。

如果你的团队开始用AI了，别只看"AI代码贡献率"或"AI采纳率"这种数字。去看交付周期是不是缩短了，看人均需求吞吐率是不是提升了，看客户投诉是不是减少了。字节的TRAE团队90%代码AI写但效率只涨60%，说明盯着产出量而不是交付量，会蒙眼狂奔。

第二件：给AI搭Harness，不要只做Vibe Coding。

不管是写代码还是写文案，不要让AI自由发挥完就交了。给它上下文，给它规范，给它验证流程，给它异常处理规则。TRAE团队加了Harness之后，可交付性从40-50分拉到80分。中国银河证券引入TRAE后推行规格驱动开发，Oracle迁移项目从5天压到2.5天，采纳率95%。这些不是靠AI多写代码做到的，靠的是把AI嵌入全流程。

第三件：试试豆包专业版的办公任务模式，或者任何能"操作电脑"的Agent工具。

如果你从没用过Agent类工具，豆包专业版是目前门槛最低的入口。2亿日活的应用，68元/月，一句话就能让它帮你整理文件、生成报告、建网站。免费用户也有一定额度的办公任务模式体验。如果你更专业，Claude Code、Codex、TRAE Work都可以试。重点是：从"让AI聊天"变成"让AI干活"。哪怕只是让它帮你整理一下桌面上的文件，或者每周自动生成一份周报。这是从聊天到Agent的第一步，也是最关键的一步。

字节的数据说了一件事：AI写了多少，跟你省了多少，中间差着一个交付效率。

OpenAI的数据指了一个方向：Agent才是工作方式下一步的样子。

豆包上线了一个信号：2亿人第一次摸到了Agent的门槛。

我自己的11个AI员工踩了3年坑，结论很简单：从玩具到工具，中间那道坎，AI更聪明也跨不过去，得你自己把流程、规范、协作搭起来。

AI会越来越聪明。但聪明只是入场券，Harness才是生产力。

如果这篇文章对你有启发，点击上方蓝字「杨宗主」关注我。
每周持续更新AI操盘实战笔记，不吹不装，只说真话。