半天建完了一套AI剧本评估系统,准确率高达90%

前天下午恰好赶上玛雅图腾红天行者波符，思路变得异常清晰，遂用半天时间，训练AI跑通了一套线上剧本杀的评估系统。

拿这几年自己写过的本做测试，评估结论和市场真实反馈的吻合度达到90%（其实没有出现过错误信息，但我还是保留10%错率）。

哪些本好卖、哪些结构有硬伤、哪些体验会在某个环节崩掉……AI基本都判断对了，大为震撼。

分享一些AI应用心得～

一、试错：把经验塞进机器

我一开始的思路很朴素：把经验整理成规则，让AI照着执行。期望写出一个一劳永逸的神奇prompt。

但问题很快暴露了：我的经验本身有盲区。规则越写越多，系统越来越僵硬。

这个阶段我本质上在做的事还是“人类经验注入”。

早年做棋类AI的人想把大师棋理写进去，做语音识别的人想把音素规则写进去，做视觉识别的人想把边缘检测特征写进去……

大家都想教AI做事，但忽略了AI本身就是大师。

二、转折：从”教AI规则”到”建评估系统”

后来我发现一个规律：凡是我手动加的规则越多的地方，AI的判断反而越死板。它在严格执行我的规则，无法处理我规则没覆盖到的情况。

于是我开始尝试给它一个”能自己学着判断的结构”。

具体来说，我做了三个关键转变：

首先，我建立了评测基准，而不是评分规则

我不再试图告诉AI”好剧本的标准是什么”，而是把我过往所有作品和它们对应的市场反馈整理成一个合集。让系统在这些真实数据里找规律，而不是按我的规则对号入座。

AI工程里有一个正在成为共识的方法论：Evaluation-Driven Development（评测驱动开发）。核心观点是：不要凭直觉判断AI好不好用，要靠评测集说话。你的评测集质量，决定了你整个系统的上限。

我的过往作品+市场反馈，本质上就是我自己的evaluation benchmark。

然后，用反馈校准，而不是用规则修补

当评估结果和我的判断或市场反馈不一致时，我不再去”加一条新规则”来修补，而是把这个偏差本身当作反馈信号，回到框架层面做调整。

系统输出→人类判断→反馈→系统调整——这个循环本质上也是RLHF人类反馈强化学习在应用层的映射。

RLHF是模型变得好用的关键一步。

Richard Sutton把这个现象总结为The Bitter Lesson（苦涩的教训）——长期来看，能利用算力和数据的通用方法，会反复击败人类手工设计的经验。

比如Anthropic的训练方式就很能说明这个逻辑。OpenAI靠RLHF让大量人类标注员评判模型输出好不好，再用反馈调整模型行为。

而Anthropic更进一步，提出了Constitutional AI（宪法AI）：不只靠人类反馈，而是给模型一套”宪法”。

用一组明确的原则让模型自己生成回答、批评、修订，再用这些AI自我反馈做强化学习。

人类标注员的工作被大幅减少，系统靠自我校准变强。

最后，让推理有深度，而不是一次出结果

我的评估不是丢一个Prompt进去就出分数。它是一个多步骤的推理过程：先分析结构，再分析节奏，再分析人物，再交叉验证，最后综合判断。每一步都可能修正前一步的结论。

传统思路是在训练阶段投入更多算力让模型变强，但OpenAI的o1系列和DeepSeek R1证明了在推理阶段投入更多计算，让模型”多想一会儿”，结果质量会显著提升。

我在应用层做的是同一件事：

把完整剧本一次性喂进去，让它在充足的上下文里做多层分析，而不是切碎了一段段判断。

让AI在评估过程中尽可能做更深的推理、更多的交叉校验。用推理深度换结果质量。

三、总结

我见过太多人用AI的方式是这样的：

找到一个神奇Prompt，用几天，发现不够用了，再找下一个。追一个Agent模板，用几天，发现场景对不上，再换一个。收藏一堆提效插件，最后一个都没真正用起来。

这些东西都有用。但它们本质上都是“喂经验”——把别人的经验、别人的规则拿过来塞进自己的工作流里。短期有效，长期不可持续。

我把这叫做“一次性智慧”。

与之对应的是“建回路”——搭建一个能接入你自己的数据、接受你自己的反馈、持续自我校准的系统。它前期慢，但一旦跑起来，会越用越强。

这就是“可迭代系统”。

而且这套prompt system design是可scaling的。

我喂进去的剧本越多，反馈数据越丰富，评估框架的校准就越精确。关键区别在于：我的系统是”可喂”的，不是一个写死的规则集。

AI时代真正值得投入时间的，不是学更多技巧，而是你手上的工作有没有可能建成一个回路？