AI Skill#9:怎么判断 AI 输出的好不好?

上一篇我们聊了 Prompt Chain——把复杂任务拆成流水线，让 AI 分步完成。

但有一个问题一直悬着没解决：AI 输出的东西，到底好不好？

你让 AI 写了篇文案，读着还行，但"还行"是多好？比你自己写的好还是差？换个 Prompt 会不会更好？

大多数人用 AI 的方式是：生成 → 凭感觉判断 → 差不多就用了。

这就像考试不看分数、做菜不尝味道、写代码不跑测试。没有评估，就没有进步。

今天我们来聊一个被严重低估的能力——Evaluation（评估），教你怎么系统地判断 AI 输出的质量，并且让 AI 自己越变越好。

为什么评估这么重要？

一句话：不会评估的人，优化全靠运气。

你改了 Prompt，效果变好了吗？不知道。你换了模型，哪个更适合你的场景？不确定。你加了几个示例，AI 学到了吗？只能猜。

会评估的人不一样——每次调整都有数据支撑，知道什么有效什么没用，进步速度快十倍。

三种实用评估方法

方法一：人工评分卡（最简单）

给 AI 的输出打分，但不是凭感觉打，而是按维度拆分。

比如评估一篇 AI 写的文案：

维度	1分	3分	5分
准确性	有明显错误	基本准确	完全准确
可读性	读不下去	通顺但平淡	流畅有吸引力
相关性	跑题	大致相关	精准命中需求
实用性	看完没用	有点启发	看完立刻能用

同一个任务，用不同 Prompt 各生成一版，按评分卡打分，哪个好一目了然。

关键诀窍： 维度不要超过 5 个，每个维度的打分标准要写出来（不是心里想，是白纸黑字写出来），否则你第一次和第十次的标准会不知不觉漂移。

方法二：A/B 对比法（最直观）

不打分，直接比——两个输出放一起，选更好的那个。

操作步骤：

同一个任务，写两版 Prompt（比如一版给角色，一版不给）
各生成 3-5 个输出
把两组结果打乱顺序，不看标签
逐对比较，选胜者
统计胜率

这个方法的好处是消除锚定效应——你不知道哪个是"新版"，判断更客观。

进阶技巧： 找个同事或朋友帮你做盲评，两人独立判断后对比结果。如果你俩的判断一致性超过 80%，说明评估标准够清晰。

方法三：让 AI 自己评估（最省力）

这是个"套娃"技巧——用 AI 来评价 AI 的输出。

给 AI 一个"评估 Prompt"：

你是一位资深的内容质量评估专家。请按以下标准评估这段文案：1. 事实准确性（有无错误信息）2. 逻辑连贯性（论证是否通顺）3. 目标受众匹配度（是否适合目标读者）4. 行动指引（读者看完是否知道下一步该做什么）对每个维度给出 1-5 分，并说明理由。最后给出总体评价和改进建议。待评估的文案如下：[粘贴 AI 生成的内容]

重要提醒： AI 自评有"自我表扬"倾向——评价自己生成的内容往往偏高。解决办法：

用不同的模型来评估（比如用 Claude 评价 ChatGPT 的输出）
在 Prompt 里强调"请严格评估，重点找问题"
把 AI 的评分跟你的人工评分做对比，校准偏差

实战案例：优化一个写周报的 Prompt

假设你用 AI 写周报，觉得效果一般，想优化。

Step 1：建立评分卡

维度	标准
完整性	是否覆盖了本周所有重要工作
量化程度	是否有具体数字而非笼统描述
老板友好度	老板 10 秒能不能抓到重点
下周计划	是否清晰列出下周优先事项

Step 2：用当前 Prompt 生成 3 版

都打分，取平均值作为"基线"。

Step 3：改进 Prompt，再生成 3 版

比如加上"每项工作必须包含具体数字"这个约束。

Step 4：对比两组分数

如果新版在"量化程度"上从 2.3 分提升到 4.7 分，其他维度没下降，说明这次优化成功。

Step 5：迭代

继续找最低分的维度，针对性优化 Prompt。

几轮下来，你会有一个针对"写周报"这个任务效果最佳的 Prompt，而且你知道它为什么好，不是碰运气。

常见误区

❌ "AI 生成的我看着还行就用了" → "还行"是最危险的判断。它意味着你既不知道有多好，也不知道能多好。

❌ "评估太费时间了" → 第一次建评分卡花 10 分钟，之后每次评估只要 2 分钟。但它能帮你省下反复试错的几个小时。

❌ "一个任务搞这么复杂没必要" → 一次性任务确实没必要。但你反复做的任务（周报、文案、邮件、数据分析），优化一次受益一百次。

小练习

今天就试试：

选一个你经常让 AI 做的任务
花 5 分钟建一个 3-4 维度的评分卡
用当前 Prompt 生成 3 版，打分
改进 Prompt，再生成 3 版，对比

你会发现，一旦开始量化评估，你优化 Prompt 的效率会翻倍。

下一篇预告

下一篇我们聊AI Skill#10：Fine-tuning 入门——当 Prompt 不够用，如何训练自己的专属模型。不需要写代码，不需要买 GPU，用最低成本让 AI 变成你的"专属员工"。

关注「AI引路者」，每天用大白话帮你搞懂 AI。看完就能用。

📦 回复「AI模板」获取 30 个实用 Prompt 模板，直接复制就能用！