前天下午恰好赶上玛雅图腾红天行者波符,思路变得异常清晰,遂用半天时间,训练AI跑通了一套线上剧本杀的评估系统。
拿这几年自己写过的本做测试,评估结论和市场真实反馈的吻合度达到90%(其实没有出现过错误信息,但我还是保留10%错率)。
哪些本好卖、哪些结构有硬伤、哪些体验会在某个环节崩掉……AI基本都判断对了,大为震撼。
分享一些AI应用心得~
一、试错:把经验塞进机器
我一开始的思路很朴素:把经验整理成规则,让AI照着执行。期望写出一个一劳永逸的神奇prompt。
但问题很快暴露了:我的经验本身有盲区。规则越写越多,系统越来越僵硬。
这个阶段我本质上在做的事还是“人类经验注入”。
早年做棋类AI的人想把大师棋理写进去,做语音识别的人想把音素规则写进去,做视觉识别的人想把边缘检测特征写进去……
大家都想教AI做事,但忽略了AI本身就是大师。
二、转折:从”教AI规则”到”建评估系统”
后来我发现一个规律:凡是我手动加的规则越多的地方,AI的判断反而越死板。它在严格执行我的规则,无法处理我规则没覆盖到的情况。
于是我开始尝试给它一个”能自己学着判断的结构”。
具体来说,我做了三个关键转变:
首先,我建立了评测基准,而不是评分规则
我不再试图告诉AI”好剧本的标准是什么”,而是把我过往所有作品和它们对应的市场反馈整理成一个合集。让系统在这些真实数据里找规律,而不是按我的规则对号入座。
AI工程里有一个正在成为共识的方法论:Evaluation-Driven Development(评测驱动开发)。核心观点是:不要凭直觉判断AI好不好用,要靠评测集说话。你的评测集质量,决定了你整个系统的上限。
我的过往作品+市场反馈,本质上就是我自己的evaluation benchmark。
然后,用反馈校准,而不是用规则修补
当评估结果和我的判断或市场反馈不一致时,我不再去”加一条新规则”来修补,而是把这个偏差本身当作反馈信号,回到框架层面做调整。
系统输出→人类判断→反馈→系统调整——这个循环本质上也是RLHF人类反馈强化学习在应用层的映射。
RLHF是模型变得好用的关键一步。
Richard Sutton把这个现象总结为The Bitter Lesson(苦涩的教训)——长期来看,能利用算力和数据的通用方法,会反复击败人类手工设计的经验。
比如Anthropic的训练方式就很能说明这个逻辑。OpenAI靠RLHF让大量人类标注员评判模型输出好不好,再用反馈调整模型行为。
而Anthropic更进一步,提出了Constitutional AI(宪法AI):不只靠人类反馈,而是给模型一套”宪法”。
用一组明确的原则让模型自己生成回答、批评、修订,再用这些AI自我反馈做强化学习。
人类标注员的工作被大幅减少,系统靠自我校准变强。
最后,让推理有深度,而不是一次出结果
我的评估不是丢一个Prompt进去就出分数。它是一个多步骤的推理过程:先分析结构,再分析节奏,再分析人物,再交叉验证,最后综合判断。每一步都可能修正前一步的结论。
传统思路是在训练阶段投入更多算力让模型变强,但OpenAI的o1系列和DeepSeek R1证明了在推理阶段投入更多计算,让模型”多想一会儿”,结果质量会显著提升。
我在应用层做的是同一件事:
把完整剧本一次性喂进去,让它在充足的上下文里做多层分析,而不是切碎了一段段判断。
让AI在评估过程中尽可能做更深的推理、更多的交叉校验。用推理深度换结果质量。
三、总结
我见过太多人用AI的方式是这样的:
找到一个神奇Prompt,用几天,发现不够用了,再找下一个。追一个Agent模板,用几天,发现场景对不上,再换一个。收藏一堆提效插件,最后一个都没真正用起来。
这些东西都有用。但它们本质上都是“喂经验”——把别人的经验、别人的规则拿过来塞进自己的工作流里。短期有效,长期不可持续。
我把这叫做“一次性智慧”。
与之对应的是“建回路”——搭建一个能接入你自己的数据、接受你自己的反馈、持续自我校准的系统。它前期慢,但一旦跑起来,会越用越强。
这就是“可迭代系统”。
而且这套prompt system design是可scaling的。
我喂进去的剧本越多,反馈数据越丰富,评估框架的校准就越精确。关键区别在于:我的系统是”可喂”的,不是一个写死的规则集。
AI时代真正值得投入时间的,不是学更多技巧,而是你手上的工作有没有可能建成一个回路?
夜雨聆风