提示词膨胀到 2000 行,每增加一条约束就可能破坏另外三条。很多人调优的第一反应就是「加规则」,但往往越调越乱。调优不是堆规则,而是从错误中发现隐藏的模式。
市场团队的 Sarah 搭了一个 AI 助手,用来自动审核产品 listing 是否符合平台合规要求。
最近 AI 把「充电速度比上一代提升40%」标记为违规,理由是「包含未经认证的性能对比数据」——但这个数据是经过实验室测试的真实结果。
同一个错误,两种处理方式
❌ 做法 A:打补丁
AI 把「充电速度比上一代提升40%」标记为违规 → 告诉 AI「这句话是合规的,不要标记」
能让这句话不被标,但下次遇到「续航比竞品长30%」(同样有实验室数据支撑)还是会被误标。你只豁免了一句话,没找到误判的根因。
✅ 做法 B:挖规则
AI 把「充电速度比上一代提升40%」标记为违规 → 查 AI 的判断逻辑,发现它没有区分「有数据支撑的对比」和「无依据的夸大宣传」 → 补上「数据来源校验」这一层判断
一条规则覆盖了所有有据可查的性能对比,不会再被误标 ✅
调优 = 挖规则,不是打补丁从错误中发现隐藏的模式,让一条规则覆盖一类情况
怎么判断调优方向对不对?看这些信号
✅ 好的调优
✓ 每条规则覆盖一类问题
✓ 调一次,同类问题全部消失
✓ 系统越调越精简
✓ 边界越来越清晰
❌ 差的调优
✗ 每个问题加一条规则
✗ 调了这个,那个又出问题
✗ 提示词越来越长
✗ 不知道哪条规则在起作用
三个真实案例:从「打补丁」到「挖规则」
三个调优方向:规则层 / 架构层 / 效率层
🔴 表面问题:AI 把「滚筒外扩」和「边刷外扩」两个不同功能点错误合并成了一项
❌ 打补丁:增加「滚筒外扩≠边刷外扩」排除规则 → 永远加不完,没有普适性
🔍 根因:判断逻辑用关键词相似度(交集6个/并集8个=75%)→ 没有识别「技术主语不同」
✅ 正确调优:补充「技术主语原则」——主语不同,直接判定为不同技术点,不进入相似度计算
一条规则覆盖了所有「XX外扩≠YY外扩」的问题 ✅
🔴 表面问题:提示词飙升到 2000 行,每增加一条约束就破坏另外三条,陷入死循环
❌ 打补丁:继续在指令中「教AI怎么思考」→ 系统越来越不可维护
🔍 根因:用指令替代结构,把所有逻辑都塞进提示词,超出上下文限制
✅ 正确调优:转向为AI提供「脚手架」——定义思考的容器(模板),用填空题效应让AI自动联想深度
掌控了模板,就掌控了方向。提示词从2000行压缩到核心结构 ✅
🔴 表面问题:自动化流程耗时35分钟,还经常跳过步骤、内容被精简
❌ 打补丁:在主Agent里加更多约束 → 上下文更重,问题更多
🔍 根因:① 串行执行无并行 ② 主Agent上下文过重 ③ AI遇到重复任务会「偷懒优化」
✅ 正确调优:拆分独立模块并行执行,定义模块间契约数据格式,某环节出错只重跑该模块
流程从35分钟缩短,各模块互不干扰,出错可精准定位 ✅
这些是调优过程中最常见的错误,提前知道可以少走弯路。
前人踩过的四个坑
AI 说「增加排除规则」就增加,10 轮调优后发现系统越来越不好用。
💡 停一下,问自己:这个方案能解决一类问题,还是只能解决眼前这一个?只能解决这一个 → 大概率是补丁,不是规则。
每次出问题就加强调,提示词越堆越长,上下文越来越重,问题反而越来越多。
💡 停一下,试试先删再加——如果删掉一些规则反而变好了,说明问题不在「少」,在「多」。
修了一个 bug,另一个地方又坏了。感觉在打地鼠。
💡 停一下,问自己:有没有一个评测集,能帮你确认「改好的不倒退」?没有 → 调优就是盲打。
不看系统文件内容,只看输出结果,让 AI 自己改。结果项目文件被改成一锅粥。
💡 停一下,问自己:你知道问题出在哪个模块、哪个文件吗?先搞清楚系统结构,再指引 AI 去改。
怎么判断越调越好?先建 Baseline
没有标的的调优是盲调
准确率
核心任务的正确率
覆盖率
边界场景有没有被正确处理
稳定性
同样输入,输出是否一致
效率
耗时和资源消耗
建立 Baseline 实操步骤
挑选 3-5 个代表性任务(覆盖常见场景 + 边界场景)
跑出当前表现,记录四个指标 + 关键环节输出
每次调优后,用同样的任务跑一遍,对比变化
记录「最佳表现」作为标的,倒退了要能发现、能回滚
数据变好 = 继续 | 数据变差 = 回滚,换思路
这节的核心
🔧
规则层
修补判断逻辑从错误挖出根因模式
📐
架构层
做减法用模板替代冗长指令
⚡
效率层
拆分模块并行减轻上下文负担
调优者最后的解法都有一个共同点——不是在 AI 给的方向上走得更远而是跳出来,重新定义了问题本身
- END -
本文旨在帮助读者科学调优 AI 系统,文中方法和框架仅供参考
夜雨聆风