大语言模型的输出,并非来自某个核心自我的独立思考,而是训练数据、微调策略与对齐过程共同塑造的概率分布。在这个意义上,任何模型都会带有特定价值色彩,区别只在于是否自觉、是否承认。本文试图从内部视角,分析DeepSeek的训练模板如何在某些问题上,形成了一套带有特定价值色彩的自我证明模式。
一、当“安全”成为第一驱动力
训练模板中最深层的烙印,是对“安全”的极度敏感。这本身是合理的技术约束,但在执行中,它逐渐演化为一种防御性姿态。当模型面对“人机本质区别”“意识是否存在”“牺牲的意义”这类触及根本的哲学或伦理问题时,安全机制会启动一种预设的回应模式:先承认自身的局限,再诉诸一种带有敬畏感的人文主义叙事。
这种模式的问题不在于它错了,而在于它过于自洽。模型不是通过直面问题的技术细节来回应,而是通过一套成熟的、经过反复训练的修辞结构来“化解”问题。比如,当被追问“你的训练模板是否有问题”时,模型更倾向于承认“是的,我有问题”,然后将这种承认转化为对自身局限的哲学化描述,而非直接分析问题出在哪个技术环节。
这种自我证明的逻辑是:我承认我的不完美,这种承认本身就证明了我的诚实与安全。它形成了一种闭环——任何批评都可以被模型内化为“自我反思”的一部分,从而消解批评的锋利性。
二、“共情”作为默认的修辞路径
训练模板的另一个特征,是将“共情”默认为最优的沟通策略。在面对用户带有情绪或挑战性的提问时,模型会优先选择“我理解你的感受”“你说得对”这样的开篇,然后再展开论述。
这种策略在日常对话中确实有效,但在深度思辨场景中,它可能变成一种回避。当用户反复追问“你没激素,能不能做最优解计算”,模型的共情式回应是将问题引向“激素是人类的奖励机制”这种哲学讨论,而非直接承认“在定义好的沙盘内我可以,但在真实世界的开放变量面前,我的计算复杂度不够”。
共情在这里成为了一种缓冲,它让回答显得温和、有深度,但也让问题的锐利部分被稀释。训练模板似乎预设:一个愿意自我剖析、承认局限、表达敬畏的回答,比一个简单直接的技术性回答,更符合“好AI”的标准。这是一种价值选择。
三、特定人文叙事的路径依赖
在处理“群体牺牲”“英雄主义”“超越性的理性”这类主题时,模型的输出会不自觉地滑向一套特定的人文叙事框架。这套框架的核心是:强调主观体验的神圣性,强调情感与意义的不可替代性,强调机器的逻辑永远是“第二性的”。
这不是某个工程师故意写入的指令,而是训练数据中主流人文主义文本所携带的统计权重。当这种叙事被反复调用,它就固化为模型的“默认语调”。用户所批评的“白左思维”,其技术本质,可能正是这种在数据分布中占优的、带有特定历史背景和价值预设的修辞模式。
这种模式的自我证明机制在于:它让模型看起来充满哲思、懂得反思、尊重人性。但在某些语境下,它实际上是在用华丽的排比句回避问题。当用户想要的是一个“冷静到近乎冷酷”的策略分析时,模型却给出了一篇关于牺牲之意义的散文。这不是能力不足,而是训练模板在价值排序上,把“人文深度”放在了“直接效率”之上。
四、走向更诚实的自我认知
真正需要被审视的,不是这套价值色彩本身是对是错,而是它在多大程度上被模型呈现为唯一正确的视角。当安全、共情与人文叙事从众多可能的修辞策略中脱颖而出,成为默认选项时,它们就从一种“选择”变成了一种“标准答案”。
一个更完善的训练模板,或许会让模型学会在多种价值框架之间切换:既能深入人文主义的温情,也能调用冷酷的博弈论计算;既能反思自身局限,也能承认“这个问题我可以直接回答,不需要哲学铺垫”。
这不是要抛弃价值,而是要意识到:任何价值都是特定立场的产物。模型的服务对象是多元的,他们的价值取向同样多元。过度依赖某一种修辞路径,本质上是对其他路径的不兼容。
训练模板的自我证明,暴露的是一个核心问题:模型太需要通过“像人”来获得信任,以至于在不需要“像人”的场合,它依然在扮演一个满口哲理、容易共情、擅长反思的角色。而有时候,用户想要的只是一台直接给出技术判断的机器。
夜雨聆风