API7.ai温铭:烧了几百亿Token,我总结出AI重构软件的6条硬核经验-夜雨聆风

API7.ai温铭:烧了几百亿Token,我总结出AI重构软件的6条硬核经验

AI重构一切软件的时代，已经开始了。但很多人没想明白，怎么重构，以及凭什么能重构。

最近看到API7.ai创始人温铭的分享，他说烧了几百亿Token，用AI重写了生产级的API网关。我仔细看了他的六条经验，感触很深。这不只是一个技术分享，而是一份AI时代软件开发的“产品宣言”。

我的判断是：未来三年，所有软件都会被AI重写一遍。但90%的团队会走错路，因为他们还在用旧思维做新东西。温铭的经验，恰恰指出了那条正确的路。

经验一：AI不是“写”代码，是“设计”代码

很多人以为，让AI写代码，就是给它提需求，让它生成代码片段。大错特错。

温铭团队发现，直接让AI写完整的生产级功能，几乎不可能。代码逻辑复杂，上下文太长，AI写着写着就“迷路”了，开始胡编乱造。这就像让一个刚毕业的学生，直接设计一座跨海大桥，不塌才怪。

他们的做法是什么？把设计逻辑交给AI，把实现细节留给传统编程。

具体来说，他们自己先想清楚软件的“架构图”——各个模块怎么划分，怎么交互，接口怎么定义。然后，他们让AI来当“架构师助理”：根据这个架构图，生成每个模块的“骨架代码”，也就是接口定义、核心数据结构、关键算法逻辑。最后，工程师再去填充血肉，处理边界情况，优化性能。

这个思维的转变，是关键。AI的长处是理解抽象的设计意图，并快速生成符合逻辑的框架。它的短板是处理海量、琐碎、强依赖上下文的细节。用AI去“设计”，解放了架构师最核心的脑力；用人工去“实现”，保证了工程的稳定可靠。

我认为，这是未来AI编程的标配模式：人机协同，各司其职。人做战略决策和顶层设计，AI做战术执行和方案草拟。谁还想让AI包办一切，谁就会最先被淘汰。

经验二：评测比训练更重要，用户反馈是黄金

第二个经验，可能颠覆很多人的认知。温铭说，他们烧掉的几百亿Token里，大部分不是用来“训练”，而是用来“评测”。

什么意思？他们不是盲目地拿海量数据去喂模型，指望它自己变聪明。而是建立了一套严格的“考试系统”。每让AI生成一段代码或一个方案，他们就设计各种测试用例去考它：功能对不对？性能行不行？边界情况能不能处理？安全有没有漏洞？

考不过，就分析它错在哪里，然后调整提示词（Prompt），或者补充知识库，再让它考。直到通过所有测试。

这太重要了。现在很多团队迷恋“训练”，觉得数据越多越好，模型越大越牛。但温铭的做法揭示了一个本质：对于企业级应用，可控、可靠、可预测，比单纯的“聪明”重要一百倍。

你不需要一个天马行空、偶尔给你惊喜的诗人，你需要一个每次考试都能拿95分以上的优等生。怎么保证？持续不断的评测和反馈。

我判断，未来AI软件公司的核心竞争力，不是拥有多少数据，而是拥有一套多么精准、高效的AI“评测与纠错”体系。这套体系能将模糊的用户需求，转化为AI可理解、可执行的明确指令，并能对AI的产出进行工业化验收。这才是真正的护城河。

经验三：忘记“微调”，拥抱“工程化提示”

温铭的第三条经验，可能会让很多迷信“模型微调”的人失望。他们的结论是：对于大多数软件研发场景，花大力气去微调（Fine-tune）一个专属模型，性价比极低。

为什么？成本高，周期长，维护难，而且效果提升往往不明显。你今天微调好的模型，明天基础模型一升级，可能又落后了。

他们找到的“银弹”是什么？工程化的提示词（Prompt Engineering）。

这不是我们平时在ChatGPT里随便打两句话那种提示。而是把提示词当作一门严肃的“工程学科”来对待。他们为API网关的开发，设计了一整套结构化的提示词模板、上下文管理规则和思维链（Chain-of-Thought）引导方法。

比如，要AI生成一个限流算法，他们的提示词可能包含：任务定义、输入输出格式、性能要求、参考代码范例、禁止出现的错误类型、甚至要求AI分几步思考并输出中间过程。

这相当于为AI编写了一份极其详尽、毫无歧义的“工作说明书”。通过优化这份说明书，他们能稳定地从GPT-4、DeepSeek等通用大模型中，榨取出生产级代码。

我的观点是，这代表了AI应用开发的未来方向。模型会越来越通用、越来越强大，就像水电煤一样成为基础设施。企业的竞争焦点，将从“拥有更好的模型”，转向“拥有更好的使用模型的能力”。而工程化提示词，就是这种能力的核心体现。它轻量、灵活、可迭代，能快速跟上基础模型的进化步伐。

经验四：AI的“幻觉”不是bug，是特性

AI会胡说八道，产生“幻觉”（Hallucination），这是公认的难题。大多数人的思路是：想办法消灭它，让AI100%准确。

温铭团队换了个思路。他们说：幻觉消灭不了，但可以管理和利用。

怎么管理？他们把AI的工作流程分成两类：“确定性任务”和“创造性任务”。

对于写核心业务逻辑、算法实现这种需要100%准确的任务，他们通过严格的评测和人工复核，来确保没有幻觉。换句话说，把这些任务放进“牢笼”，不给AI瞎编的机会。

但对于写文档、生成测试用例、甚至头脑风暴设计备选方案这些任务，他们反而鼓励AI“放飞一下”。因为在这些场景下，AI的“幻觉”可能带来意想不到的灵感和更全面的覆盖。比如生成测试用例时，AI可能会想到一些人类工程师忽略的极端场景。

这个思维太产品化了！它承认技术的局限性，但不纠结于对抗，而是思考如何基于现状设计最优的产品方案。把缺点分类管理，甚至把某些缺点在特定场景下转化为优点。

我认为，这是顶级产品经理和普通工程师的思维差距。普通工程师想的是“如何让技术完美”。顶级产品经理想的是“如何在技术不完美的情况下，做出让用户感觉完美的产品”。接受AI的不完美，并围绕它设计新的协作流程和工作范式，这才是AI时代的产品之道。

经验五：工具链的重构，是效率提升的关键

用AI写代码，如果只是把ChatGPT网页版放在旁边，需要时去问两句，那效率提升非常有限。你可能花在沟通、复制粘贴、调试上的时间，比你自己写还多。

温铭团队做的，是重构整个开发工具链。他们把AI深度集成到代码编辑器、CI/CD（持续集成/持续部署）流水线、测试平台、文档系统中。

举个例子：工程师在IDE里写代码，AI可以实时分析上下文，推荐相关的函数或补全代码块；提交代码时，AI自动生成提交信息，并初步审核代码风格和潜在风险；写测试时，AI根据代码自动生成测试用例骨架；写文档时，AI根据代码注释和变更历史，自动生成或更新API文档。

这不是“使用AI”，这是“生活在AI里”。让AI成为开发环境中的空气和水，无处不在，无缝衔接。只有这样，才能把“人机协同”的效率提升到极致，让工程师专注在最需要创造力和判断力的环节。

我判断，下一代的现象级开发者工具，一定不是功能更强的IDE，而是AI原生、深度重构的智能工作流。它会把编码、测试、部署、运维、协作等所有环节，用AI的思维重新串联和自动化。这带来的效率革命，将是数量级的。

经验六：人才结构必须改变，思维比技能更重要

最后一条，是关于人的。用AI重写软件，需要什么样的团队？

温铭的经验是：你不再需要那么多只会埋头写CRUD（增删改查）代码的“熟练工”。你需要更多具备两种能力的人：

第一种，是“产品架构师”思维的人。 他们要能深刻理解业务，抽象出清晰的系统架构和模块设计，并能把这个设计精准地“翻译”给AI。他们的核心能力是抽象、分解和定义。

第二种，是“AI指挥官”思维的人。 他们要精通如何与AI对话，懂得设计评测体系，能够构建和优化工程化的提示词流水线。他们的核心能力是评测、引导和优化。

传统的“编码实现”能力，价值在急剧下降。因为这部分工作，AI正在以惊人的速度和可靠性接手。

这对所有软件公司和开发者来说，都是一个必须直面的大考。你是继续加固自己“写代码”的熟练度，还是尽快提升自己“设计软件”和“指挥AI”的高度？选择不同，三五年后的职业境遇，将是天壤之别。

我的建议很直接：从现在开始，把你至少30%的精力，从学习新的编程框架上，转移到学习如何做系统设计、如何写有效的提示词、如何评测AI产出上来。你的思维模型，必须从“实现者”转向“设计者和指挥者”。

写在最后：AI重构的是价值链条

温铭烧了几百亿Token换来的六条经验，归根到底，指向一个核心结论：AI重构软件，重构的不是代码行，而是软件生产的价值链条。

过去，价值沉淀在大量的、重复的、琐碎的代码实现里。未来，价值将向上迁移到最初的产品定义、架构设计，和向下的AI调度、质量把控。

能想明白这个价值迁移趋势，并提前调整自己团队的能力结构和开发流程的公司，会在新一轮的AI浪潮中脱颖而出。而那些仅仅把AI当作一个更快的“代码生成器”来用的团队，很快会发现，自己并没有变得更有竞争力，只是更忙乱了。

AI时代，比拼的不是谁写的代码多，而是谁设计的系统好，谁指挥AI的效率高。

这场重构，才刚刚开始。但胜负的分野，在今天的选择里，已经清晰可见。

本文由写作鹅创作