上一篇我们聊了 Prompt Chain——把复杂任务拆成流水线,让 AI 分步完成。
但有一个问题一直悬着没解决:AI 输出的东西,到底好不好?
你让 AI 写了篇文案,读着还行,但"还行"是多好?比你自己写的好还是差?换个 Prompt 会不会更好?
大多数人用 AI 的方式是:生成 → 凭感觉判断 → 差不多就用了。
这就像考试不看分数、做菜不尝味道、写代码不跑测试。没有评估,就没有进步。
今天我们来聊一个被严重低估的能力——Evaluation(评估),教你怎么系统地判断 AI 输出的质量,并且让 AI 自己越变越好。
为什么评估这么重要?
一句话:不会评估的人,优化全靠运气。
你改了 Prompt,效果变好了吗?不知道。你换了模型,哪个更适合你的场景?不确定。你加了几个示例,AI 学到了吗?只能猜。
会评估的人不一样——每次调整都有数据支撑,知道什么有效什么没用,进步速度快十倍。
三种实用评估方法
方法一:人工评分卡(最简单)
给 AI 的输出打分,但不是凭感觉打,而是按维度拆分。
比如评估一篇 AI 写的文案:
同一个任务,用不同 Prompt 各生成一版,按评分卡打分,哪个好一目了然。
关键诀窍: 维度不要超过 5 个,每个维度的打分标准要写出来(不是心里想,是白纸黑字写出来),否则你第一次和第十次的标准会不知不觉漂移。
方法二:A/B 对比法(最直观)
不打分,直接比——两个输出放一起,选更好的那个。
操作步骤:
同一个任务,写两版 Prompt(比如一版给角色,一版不给) 各生成 3-5 个输出 把两组结果打乱顺序,不看标签 逐对比较,选胜者 统计胜率
这个方法的好处是消除锚定效应——你不知道哪个是"新版",判断更客观。
进阶技巧: 找个同事或朋友帮你做盲评,两人独立判断后对比结果。如果你俩的判断一致性超过 80%,说明评估标准够清晰。
方法三:让 AI 自己评估(最省力)
这是个"套娃"技巧——用 AI 来评价 AI 的输出。
给 AI 一个"评估 Prompt":
你是一位资深的内容质量评估专家。请按以下标准评估这段文案:1. 事实准确性(有无错误信息)2. 逻辑连贯性(论证是否通顺)3. 目标受众匹配度(是否适合目标读者)4. 行动指引(读者看完是否知道下一步该做什么)对每个维度给出 1-5 分,并说明理由。最后给出总体评价和改进建议。待评估的文案如下:[粘贴 AI 生成的内容]重要提醒: AI 自评有"自我表扬"倾向——评价自己生成的内容往往偏高。解决办法:
用不同的模型来评估(比如用 Claude 评价 ChatGPT 的输出) 在 Prompt 里强调"请严格评估,重点找问题" 把 AI 的评分跟你的人工评分做对比,校准偏差
实战案例:优化一个写周报的 Prompt
假设你用 AI 写周报,觉得效果一般,想优化。
Step 1:建立评分卡
Step 2:用当前 Prompt 生成 3 版
都打分,取平均值作为"基线"。
Step 3:改进 Prompt,再生成 3 版
比如加上"每项工作必须包含具体数字"这个约束。
Step 4:对比两组分数
如果新版在"量化程度"上从 2.3 分提升到 4.7 分,其他维度没下降,说明这次优化成功。
Step 5:迭代
继续找最低分的维度,针对性优化 Prompt。
几轮下来,你会有一个针对"写周报"这个任务效果最佳的 Prompt,而且你知道它为什么好,不是碰运气。
常见误区
❌ "AI 生成的我看着还行就用了" → "还行"是最危险的判断。它意味着你既不知道有多好,也不知道能多好。
❌ "评估太费时间了" → 第一次建评分卡花 10 分钟,之后每次评估只要 2 分钟。但它能帮你省下反复试错的几个小时。
❌ "一个任务搞这么复杂没必要" → 一次性任务确实没必要。但你反复做的任务(周报、文案、邮件、数据分析),优化一次受益一百次。
小练习
今天就试试:
选一个你经常让 AI 做的任务 花 5 分钟建一个 3-4 维度的评分卡 用当前 Prompt 生成 3 版,打分 改进 Prompt,再生成 3 版,对比
你会发现,一旦开始量化评估,你优化 Prompt 的效率会翻倍。
下一篇预告
下一篇我们聊AI Skill#10:Fine-tuning 入门——当 Prompt 不够用,如何训练自己的专属模型。不需要写代码,不需要买 GPU,用最低成本让 AI 变成你的"专属员工"。
关注「AI引路者」,每天用大白话帮你搞懂 AI。看完就能用。
📦 回复「AI模板」获取 30 个实用 Prompt 模板,直接复制就能用!
夜雨聆风