上周火山引擎Force大会上,字节跳动技术副总裁洪定坤讲了一组数据。
TRAE团队,过去半年超过90%的代码由AI写出。听起来很猛对吧?
但紧接着他说了另一个数字:人均需求吞吐率,只提升了60%。
90%的代码交给AI,效率只涨了60%。这两个数字之间,藏着一个几乎所有用AI的人都会踩的坑。
今天我想把这个坑,还有跨过这个坑的方法,完完整整地写给你。
一、为什么AI写得多,效率提升却远没那么大

你可能觉得,AI写代码的速度至少是人的十倍以上,九成代码都AI产出了,效率不该只涨60%啊。
但真实情况就是这样。字节的团队自己也不觉得这是成绩,恰恰因为他们用得足够深,才比大多数公司更早看到了问题。
第一个问题,是盯错了指标。
很多团队会盯"AI代码贡献率"、"AI采纳率"、"生成代码量"这些直观数字。但你把这些数字和真实产出放在一起,那组"90%对1.6倍"的反差就浮出来了。盯着单一指标蒙眼向前跑,以为在狂奔,实际只是把"摆臂"这个动作做得更快,腿没真迈出去。
第二个问题更深,叫"Vibe Coding"的局限性。
过去一两年很流行一种做法:有想法就让AI生成一版,跑通再说。刚开始确实让人上瘾,尤其是没写过代码的人,一句话就能出一个能跑的Demo。
但真实世界里的开发,Coding只是其中一部分。企业要的是长期稳定、可维护、可运营。
TRAE团队做了个实验:三个主流Coding模型和三个主流Agent框架两两组合,用一个中等复杂度的需求,各跑100次。只看"功能是否基本正确",所有组合正确率都超过80%。可一旦看UI易用性、可靠性、可维护性、性能、兼容性,分数就断崖式下跌。
AI容易悄悄省掉两件关键的事:一是防御性编程,也就是提前替意外情况做好准备;二是异常处理,当系统真的出错时,代码得有预案,能友好提示或安全退回,而不是当场崩溃。
省掉之后Demo照样跑得通,但这和能真正上线还差得远。
第三个问题,是协作。
AI把写代码的门槛大幅拉低后,产品、设计、运营都能把想法直接变成代码。字节内部就发生过:一位产品同学拿着自己用Vibe Coding做出来的需求来找研发,页面能看、流程能跑,她不理解为什么还要排期几天。
代码生成的门槛降了,系统复杂度却没降。谁写出来谁就上线?代码要放进既有架构、和已有模块配合。真正的挑战,是让更多人合理地参与代码生产,同时让产出汇入统一的架构、规范与交付流程。
二、豆包刚上线了一个"真干活"的模式
6月24日,豆包正式上线专业版。
这次更新最大的变化是一个全新的"办公任务模式"。简单说,豆包不再只是聊天,而是能完成一个完整的工作目标,自主拆解步骤,调用本地电脑、浏览器、飞书办公套件等工具,产出可以直接交付的工作成品。
一份行业报告、一张数据分析表、一套PPT,或者一个带后端数据库的网站。
36氪实测了三个场景,按难度递进。
第一个场景最硬核:操作本地电脑文件。让豆包设计一个可复用的软件,帮用户检测重复照片中质量最好的,把其余的放入回收站。豆包先查看本地照片文件夹,了解测试数据,然后开始写代码。过程中经历了多轮自我迭代,遇到依赖兼容性问题主动切换技术方案,发现评分算法和分组逻辑的Bug后自行修复重跑。最后还加了一套极简UI,用tkinter做了完整的图形界面,文件夹选择、严格度滑块、可视化扫描结果、进度条。一个完全不会写代码的人,全程鼠标操作就能清理完重复照片。
第二个场景是财报数据分析加对比图表。让豆包整理近半年全球AI芯片行业的财报核心数据,对比英伟达和AMD两家公司的营收增速、毛利率变化,生成飞书表格和投资摘要文档。豆包交付了两个文件,一份双Sheet的飞书表格和一份投资摘要文档,每个数字都有明确的时间范围标注,投资摘要提炼了三个行业趋势判断并给出了配置建议。作为初稿,这份交付覆盖了一个初级分析师大概半天的工作量。
第三个场景我觉得最有意思:自建Skill。让豆包创建一个可以生成数据可视化面板的技能,然后用这个技能分析世界杯比赛数据。豆包先生成了一个名为"data-dashboard"的Skill,基于ECharts构建,支持多种图表类型,然后调用这个Skill,抓取当天世界杯4场比赛的实时数据,生成了一个交互式数据面板。关键在于:这个Skill创建一次之后可以反复调用,明天的世界杯赛事数据不需要重新描述需求。
豆包日活超过2亿。这2亿人里大多数从未接触过Claude Code和Codex等专业Agent工具。Agent能力进入一个每天2亿人打开的App,覆盖的是一个全新的用户群体。一个从没写过代码的行政人员,现在能用一句话让豆包帮她整理本地文件、生成周报,甚至部署一个内部查询网站。
还有一个细节我挺意外:定时任务。用户可以设定豆包在固定时间自动执行重复性工作,比如每周一上午9点自动生成AI行业动态周报。这跟我在用的11个AI员工里的"调研AI"做的事情一模一样。
价格方面,专业版68元/月标准套餐,学生认证后38元/月。免费用户现有功能和额度不受影响,办公任务模式也在一定额度内向所有用户免费开放。
三、OpenAI自己也在经历同样的转变
OpenAI刚刚发布了一份经济研究报告,数据更极端。
从2025年8月到2026年6月,OpenAI内部经历了一场"从ChatGPT到Codex"的迁徙。最初几个月,ChatGPT还是默认工具,平均每个员工不到10%的token用在Codex上。
现在呢?99.8%的每周输出token来自Codex。工程师团队这个数字是99%。
不只是量变了,更有意思的是质变了。80.6%的个体用户至少发起过一次预计等效人类工作时间超过30分钟的请求;70.2%至少发起过一次超过1小时的请求;25.6%发起过一次超过8小时的请求。最极端的1%用户,每天同时在跑超过60小时的Codex Agent工作。
还有一个趋势让我很感慨:非开发者增长速度远超开发者。自2025年8月以来,非开发者用户增长137倍(个人层面),189倍(组织层面)。法务部门使用量增长了13倍,客服增长了32倍,研究增长了56倍。超过四分之一的业务部门员工用Codex做的工作是工程或编程类任务。
这说明一件事:Agent降低了跨职能边界工作的成本。不是程序员的人,也能做编程相关的事了。
OpenAI自己在报告里加了一句提醒:这些数字是基于0.1%用户的随机样本推断出来的,应该被理解为方向性的而非精确的。但我认为,方向已经很清楚了。
四、我11个AI员工的真实账单,和这三年的迭代

我从2023年开始部署AI员工,现在有11个:客服、文案、设计、剪辑、运营、调研、数据分析、代码、HR初筛、法务初审、投流优化。
月账单从最初的6万降到现在的2万3。降账单靠的不是砍功能,是找到了"用AI干活"和"让AI只是聊天"之间的区别。
这个区别是什么?字节的那个反常识说得够清楚了:AI代码贡献率高,交付效率不一定高。AI聊天多,工作产出不一定多。
我走过的弯路和字节一模一样。
第一阶段,2023年中到2024年初,我让AI做所有事。客服AI回复客户、文案AI写公众号、调研AI查资料、设计AI做图。结果呢?量确实大了,但质量参差,人工审核的时间反而更多了。就像TRAE实验里那个结果:功能80%正确率看着不错,可维护性和可靠性断崖下跌。
第二阶段,2024年中到2025年初,我开始做"Harness"。不是简单地把任务甩给AI,而是给每个AI员工搭一套流程和规范。客服AI有话术模板和异常处理规则,文案AI有风格指南和审核清单,调研AI有数据源白名单和验证流程。就像字节做的:把Vibe Coding变成系统化的AI Development,可交付性从四五十分拉到了80分。
第三阶段,2025年中到现在,我开始让AI员工之间协作。调研AI查完资料自动传给文案AI,文案AI写完初稿自动传给设计AI做配图,客服AI发现异常自动触发法务AI初审。这跟OpenAI报告里说的"多Agent并行运行"是同一件事。我的投流优化AI现在每天同时跑5个投放方案,等于一个人同时盯着5个屏幕。
豆包专业版刚上线的那套"办公任务模式",说白了就是把这三个阶段一步到位地打包了:明确目标、拆解步骤、调用工具、交付成品。而且它比我手动搭的Harness更厉害的一点是,能操作本地电脑和浏览器,能自建Skill,能设定时任务。
说实话,看到豆包能做到"操作本地电脑、多轮自我迭代、发现Bug自行修复"的时候,我心里是有点紧张的。因为这意味着,以前需要我的代码AI花3个月才搭好的Harness,现在可能一个普通人一句话就能启动。
五、三件具体能落地的事
说了这么多数据和故事,给你三件今天就能开始做的事。
第一件:别盯"AI用了多少",盯"交付效率变了多少"。
如果你的团队开始用AI了,别只看"AI代码贡献率"或"AI采纳率"这种数字。去看交付周期是不是缩短了,看人均需求吞吐率是不是提升了,看客户投诉是不是减少了。字节的TRAE团队90%代码AI写但效率只涨60%,说明盯着产出量而不是交付量,会蒙眼狂奔。
第二件:给AI搭Harness,不要只做Vibe Coding。
不管是写代码还是写文案,不要让AI自由发挥完就交了。给它上下文,给它规范,给它验证流程,给它异常处理规则。TRAE团队加了Harness之后,可交付性从40-50分拉到80分。中国银河证券引入TRAE后推行规格驱动开发,Oracle迁移项目从5天压到2.5天,采纳率95%。这些不是靠AI多写代码做到的,靠的是把AI嵌入全流程。
第三件:试试豆包专业版的办公任务模式,或者任何能"操作电脑"的Agent工具。
如果你从没用过Agent类工具,豆包专业版是目前门槛最低的入口。2亿日活的应用,68元/月,一句话就能让它帮你整理文件、生成报告、建网站。免费用户也有一定额度的办公任务模式体验。如果你更专业,Claude Code、Codex、TRAE Work都可以试。重点是:从"让AI聊天"变成"让AI干活"。哪怕只是让它帮你整理一下桌面上的文件,或者每周自动生成一份周报。这是从聊天到Agent的第一步,也是最关键的一步。
字节的数据说了一件事:AI写了多少,跟你省了多少,中间差着一个交付效率。
OpenAI的数据指了一个方向:Agent才是工作方式下一步的样子。
豆包上线了一个信号:2亿人第一次摸到了Agent的门槛。
我自己的11个AI员工踩了3年坑,结论很简单:从玩具到工具,中间那道坎,AI更聪明也跨不过去,得你自己把流程、规范、协作搭起来。
AI会越来越聪明。但聪明只是入场券,Harness才是生产力。
如果这篇文章对你有启发,点击上方蓝字「杨宗主」关注我。
每周持续更新AI操盘实战笔记,不吹不装,只说真话。
夜雨聆风