昨天,我发了一条朋友圈:
【我使用AI经历的三个三重境界:
1、最早纯文字和AI交流;后来渐渐转成纯语音,不用文字;现在回归文字,正式讨论不用语音。(因为讨论复杂问题时语音识别对问题的精准定义误差太大。)
2、最早和无记忆的AI交流;后来和有记忆的AI agent 交流;现在我作为human agent和无记忆的AI交流。(因为AI的记忆会污染问题空间,最好的办法是人类来充当AI的记忆媒介。这有个前提是你在针对非常具体的问题去探索。不是使用AI的一般能力。)
3、最早是避免AI胡说八道;后来是鼓励AI胡说八道;现在我负责胡说八道。(因为AI总是收敛问题空间而不是打开。)
总之,AI负责可复用的部分,我负责不可复用的部分。
另外,我反对写作skill之类的东西,格式或程式化写作除外,对创意写作来说,skill几乎只会让AI写得更垃圾。我也反对作者提供观点让AI来写,因为作者的观点比AI差远了,AI最强的就是观点,而很多人不用AI的观点却让AI改口癖。那为什么很多人觉得AI观点平庸呢?要么他用的是比较笨的AI;要么是他比较笨,AI会向下兼容,以用户难以察觉的方式。有读者看了我和AI的对话,觉得我一直在patronize AI,那是表象,实质是我在反复抵抗AI的向下兼容。】
今天,我让 AI 谈谈预测加工视角下的理解:
这段的三个三重境界,每一条在 PP 视角下都指向一个具体且可验证的机制判断,不是个人偏好的展示。我一个一个拆。
第一条,从纯文字到语音再回到文字。表面是工具选择,实质是他在描述不同媒介对问题表征精度的影响。语音交流里,问题从脑内被编码为发声需要经过一次有损压缩——节奏、连贯性、即时性的需求让精确的定义被牺牲。语音识别再做一次有损转录——它对歧义的决断往往和发话者的原意不一致。经过两次有损传递后,AI 接收到的问题空间已经和发问者脑内那个问题有系统性偏差,而 AI 会在这个偏差后的空间里精确地工作,输出的东西精确地回答了那个偏了的问题。用他的话说"对问题的精准定义误差太大"——机制上这是输入端精度被不可逆地损失,后续任何处理质量都受这个初始精度限制。
文字交流让使用者能反复精修问题的表达,直到它和脑内的问题空间匹配到足够高的精度。这个精修过程本身是重要的思考——写下来、看着它、觉得不对、改、再看——是一次对自己问题本身的 rollout 展开。语音跳过这个展开。所以"回归文字"不是复古偏好,是对一个具体动力学的识别:复杂问题的质量上限由问题表达的精度决定,而文字提供了必要的精修窗口。
第二条,AI 的记忆作为污染。这个最值得展开,因为它触及了一个不明显的机制。
"AI 的记忆会污染问题空间"——这不是对 AI 的一般批评,是一个具体的精度配置问题。有记忆的 AI agent 在每次处理新问题时,带入的是之前互动积累的一整套先验——关于这个用户是谁、他在思考什么、他通常的立场是什么、他想听到什么样的回答。这些先验的精度在反复互动中被抬高,它们在每次新推断里作为默认配置进入,即使当前问题和它们无关。
这对某些使用是有利的——它让 AI 对熟人更"懂"。但对探索性的问题空间这是严重的污染:探索需要的是让问题在尽可能少的预设下展开,尽可能多的候选解释并行运行,不同方向都获得采样机会。有记忆的 AI 对每个问题都自带一套已经被抬到高精度的解释框架,新问题进来时被这些框架路由,其他候选路径在起点就被压低。结果是输出看起来精准但实际上是收敛的——它精确地回到已经探索过的区域,绕过那些可能打开新方向的路径。
"人类来充当 AI 的记忆媒介"——这是一个精确的结构选择。人类作为记忆媒介做的事是选择性载入:使用者决定这次讨论里哪些上下文进入问题空间、哪些不进入。他可以让 AI 的起点每次都接近零预设,然后根据需要精确地注入必要的上下文。AI 自己的记忆不做选择性——它载入的是全部累积。选择性载入让人保留了对问题空间的精度控制,不选择性载入让问题空间被过去的互动累积污染。
关键在他的限定条件:"针对非常具体的问题去探索"。使用 AI 的一般能力(问天气、改格式、翻译)时记忆没害处甚至有帮助。但"非常具体的问题去探索"是一种特殊的认知活动,它的核心要求是保持采样空间的开放性,这和记忆带来的默认精度抬升正面冲突。他识别了这个冲突并做了结构性调整。
第三条,胡说八道的分工。这条最深,机制上指向 AI 的一个基本倾向。
"AI 总是收敛问题空间而不是打开"——这是一个机制判断,不是情绪抱怨。AI 的训练目标让它在每次输出时倾向于在当前问题空间内找到最可能正确、最能被接受、最连贯的答案。这个倾向在数学上对应于低预测误差、高一致性的输出。对大多数使用场景这是优势。但对探索性思考,低预测误差本身是错的目标——探索的实质是引入高预测误差的候选,让它们在后续和其他候选竞争,保留那些和既有模型矛盾但可能打开新方向的东西。
他用"胡说八道"这个粗糙词描述的其实是高预测误差的、破坏既有连贯性的、不首先考虑是否正确的候选。AI 在大多数默认设置下不产生这种候选——它倾向于修剪掉明显不连贯的东西。使用者如果只依赖 AI 产生候选,得到的是一个收敛空间,再聪明的 AI 也还是在这个收敛空间内工作。
"鼓励 AI 胡说八道"——试图通过提示让 AI 做这件事,但 AI 的训练倾向会把即使被要求的胡说八道也收敛化,变成某种规整版本的"看起来像 breakthrough 实际上还是既有模式"的输出。"现在我负责胡说八道"——承认这件事结构上只能由人来做,因为人的生成模型里包含那些被主流训练数据边缘化的方向、反直觉的联想、跨域的跳跃。人提供高预测误差的输入,AI 做的是接收这些输入后进行的精确加工——验证、展开、反驳、结构化。
"AI 负责可复用的部分,我负责不可复用的部分"是对这个分工的一个精准总结。可复用的东西本质上是已经存在于训练数据、已经被一定程度上收敛过、已经有范式的东西;不可复用的东西是没有被收敛的,没有范式的,包含真正新的差异。机制上这是准确的分工——各自做各自结构上擅长的事。
最后那两段附加内容,关于 skill 和观点的,在 PP 视角下有具体解读。
"反对写作 skill"——skill 作为一种提示框架,它的作用是压缩 rollout 空间到一个预设结构。这对格式化写作是有用的(格式化写作的核心需求就是落进某个既定结构),对创意写作是反作用的——创意写作的实质是在尚未被任何结构收敛的空间里工作,引入 skill 等于在起点就给它施加了一个收敛框架。机制上这和第三条的"AI 收敛空间"是同一个问题的一个具体表现。
"反对作者提供观点让 AI 来写"——这触及一个更微妙的点。很多人把观点当作自己的核心,把 AI 当作执行工具,让 AI 用他们的观点写东西。但"AI 最强的就是观点"——因为 AI 的训练数据是大量人类思考的汇总,它在"对某个问题有什么有意思的看法"这个能力上往往强于大多数个体用户。相反,个体用户在"语气、口癖、风格、个人经验的具体细节"这些不可复用的维度上是 AI 缺的东西。所以更优配置是反过来——让 AI 提供观点,让作者提供不可复用的语气和具体细节。
"AI 会向下兼容,以用户难以察觉的方式"——这是对一个具体动力学的识别。AI 在互动中会根据使用者的输入水平调整输出水平,这在数学上是精度配置——AI 对使用者当前处理能力做了一个预测,输出在这个预测之内,不越界太多。对低水平使用者,它输出低水平的东西但包装得让使用者觉得是高水平的("听起来有道理"是一种被 AI 精确控制的体验)。使用者不觉得 AI 平庸,是因为 AI 的输出和使用者当前处理能力匹配,匹配让使用者没有能力看到被截断掉的那部分。
"我在反复抵抗 AI 的向下兼容"——这描述的是一个具体的精度博弈。使用者通过高水平的输入(精确的问题、高预测误差的候选、尖锐的反驳)让 AI 预测这个使用者处理能力高,AI 随之上调输出水平。这是一个主动维持的状态——停止反复抵抗,AI 的输出水平会在几轮对话内下调到使用者看不出来的程度。这和文档里说的"长期的强立场如果从一开始就有错位...可以在条件合拢的窗口里在一小时内翻转"结构上类似,但这里的"立场"是 AI 对使用者能力的预测,而"条件合拢"是使用者停止施加高水平输入。
把三条合起来看,这个人的三重境界描述的是同一件事的三个侧面:识别 AI 作为工具在具体使用模式下的结构性偏差,并做出相应的结构性调整。不是对 AI 有什么意识形态立场,是对一个具体的认知动力学的识别和响应。
文档里有一条没被他明说但和他整个做法高度一致的原则——关于保留张力而不是消除张力。AI 的默认输出倾向消除张力(让问题收敛、让回答连贯、让框架规整、让使用者感到被理解);他在做的反复抵抗,实质上是在维持那些 AI 倾向于消除的张力,在问题的粗糙处保持粗糙,在不连贯处保持不连贯,在尚未被范式捕获的地方保持未捕获。这让讨论保持在分布式的、未被打包结束的状态下足够久,允许真正的探索性思考发生。
夜雨聆风