像训练AI一样升级自己——写给职教老师的内核改写指南

「职教老师专业成长、提升幸福感必须掌握的现代思维工具」系列第五篇

基本世界观第五条：内核

你并不只有一个“自我”，而是被不同层次的自我共同驱动；所以真正的成长，不是改情绪和人设，而是改写内核。

开篇：为什么你学了那么多，还是老样子？

你参加过多少次培训？

AI 赋能教学的、信息化教学能力提升的、课程思政融合的、教学能力比赛辅导的……每次培训结束，你都热血沸腾，觉得“这次一定不一样”。你甚至在笔记本上写下了行动计划，发了一条朋友圈打卡。

然后呢？

第三天，热血冷却。第五天，笔记本合上。第七天，你又回到了那个熟悉的自己——用老方法备课，用老模式上课，用老思路应对工作中的一切。

你不是不努力。你是没改对地方。

上一篇我们聊了“可能”——不确定性是意义的燃料。你决定不再恐惧变化，决定拥抱 AI 时代的种种可能性。但紧接着一个问题就来了：你拿什么去拥抱？

靠一时的热情？靠一个新的 flag？靠“我要做创新型教师”这句自我宣言？

这些东西，用万维钢老师的话说，不过是在“改提示词”。而真正决定你能走多远的，是你的内核。

这是我们“现代思维工具”系列的第五篇。今天要聊的这个词，可能是整个系列中最深、也最实用的一个——内核。

一、你有三个“自我”——一个比 AI 更精妙的模型

万维钢老师在《现代思维工具100讲》中，结合现代神经科学、哲学和 AI 研究，提出了一个极其好用的工作模型——

人有三个自我：进程自我、界面自我和内核自我。

这个模型的精妙之处在于，它直接借用了 AI 大语言模型的架构来类比人脑。因为人脑本质上也是一个神经网络——如果 AI 的神经网络有某个性质，人脑很可能也有。

进程自我：你此刻的念头流

进程自我，就是你时时刻刻直观感觉到的那个“我”。

此刻是“我”在阅读这篇文章。上课时是“我”在讲解知识点。批改作业时是“我”在烦躁。开会时是“我”在走神，想着晚上吃什么。

它相当于什么？相当于你给 ChatGPT 输入一句话，它在内部层层传播、计算注意力、采样 token、最后回复你——这一整条运算流，就是进程自我。

佛学把它细分为“色、受、想、行、识”五蕴——感觉输入、情绪评估、概念加工、意向和行动、觉知。听起来很高深，翻译成职教老师的日常就是：学生上课玩手机（感觉输入）→你心里一紧（情绪评估）→“这孩子怎么又不听”（概念加工）→你决定走过去提醒他（意向和行动）→你意识到自己有点生气（觉知）。

关键洞见是：进程自我只是个新闻发言人，不是实际决策者。科学家用实验证明，在你“意识到”自己做了一个决定之前，大脑其实已经做出决定了，中间有几百毫秒的延迟。它就像系统运行时的日志——只记录，不控制。

你以为的“反思”——“刚才那句话是不是说重了？”“我为什么又拖延了？”——其实不过是在查看运行日志，远没有碰到决定长期命运的东西。

界面自我：你的人设和角色面具

界面自我，是你在不同情境下展示的那个更稳定的角色。你的性格标签、人设、自传叙事。

它相当于什么？相当于 AI 模型的系统提示词和角色设定。你让 ChatGPT 扮演一个“毒舌投资人”，它会照办——但这个指令不会改变模型本身。

职教老师的界面自我切换得尤其频繁：在学生面前是严师，在领导面前是执行者，在同事面前是老好人，在家人面前又是另一副模样。哪个才是真正的你？

似乎都是，其实都不是。现代心理学认为人的性格并不固定，会受到具体情境的强烈影响。你扮演的那些角色，只是你在不同社交场景下调用的不同“皮肤”或“接口”。

界面自我有一定的约束力——你给自己写了“我是一个积极拥抱 AI 的老师”这个人设，短期内确实能推动你多用几次 AI 工具。但它终究是变量，不是常量。遇到高压环境，人设就会崩塌，把局面交还给内核自我。

内核自我：你的底层算法和参数

如果进程自我和界面自我都是被“生成”的，那到底是谁在背后负责生成？

内核自我。

它相当于 AI 模型训练好的结构和参数——也就是“权重（Weights）”。当前主流大模型一旦训练好、发布了，权重就冻结了。这才是模型的真我。

内核自我是一套庞大的、复杂的、甚至无意识的概率分布和先验假设。为什么别人听说某个新政策觉得是机会，你却觉得是麻烦？因为你的先验假设不同。为什么有人遇到挫折是战斗反应，有人是习得性无助？因为底层的反应模式不同。

这些东西不随你今天的心情而变，也不随你是在领导还是在学生面前而变。它藏得最深，平时不说话，但它决定了你所有的直觉、冲动和潜意识判断。

万维钢老师说：也许内核自我就是佛学说的“阿赖耶识”，它的成分是“习气”和“业力”。

你是谁，从根本上，是“你这台机器一般会如何预测世界、如何更新自己”的那套默认代码。

二、为什么你的“培训”总是不管用？

理解了三层自我，你就能看清一个残酷的事实——

绝大多数人在一生的绝大多数时间，都只不过是对刺激做出反应和改改提示词而已。

参加一次 AI 培训，热血沸腾三天——你改变的只是进程自我，那股热血不过是一次运行中的情绪波动，跟你给 ChatGPT 输入了一段激励文字没有本质区别。运行结束，一切归零。

给自己立一个 flag“从今天起我要做创新型教师”——你改变的只是界面自我，相当于给自己临时写了一条系统提示词。提示词写得好，平庸的模型也能短暂表现得像个专家。但一旦遇到真实压力——比如教学任务重、评审材料催得急、学生不配合——人设就会崩塌。

有时候为了维护人设，你反而会压抑真实过程，让内核自我变得更僵硬。明明可以承认自己不懂 AI，可你非得假装懂，那怎么能更新模型呢？

这就是为什么你学了那么多，还是老样子。你一直在改日志、改提示词，从未触碰过真正决定命运的内核参数。

真正的成长必须改写模型参数。

那怎么改？

三、杠杆一：升级你的“预训练语料”

万维钢老师指出，微调内核参数有两个杠杆。第一个是预训练的语料——也就是你的训练样本。

什么是语料？说白了，就是你从小到大看的、听的、模仿的、浸泡的一切信息环境。短视频训练你对什么上瘾；书和课程训练你对什么敏感；你身边的人是什么样，训练你的价值观和行为模式。

“近朱者赤，近墨者黑”，翻译成现代语言就是：信息输入训练神经网络参数。

如果你每天摄入的信息都是情绪化的、碎片的、极端的，你的大脑参数就会被调整成适应那种信息的模式——急躁、浅薄、二极管思维。工程师管这叫“过度拟合了垃圾数据”。

职教老师的“语料困境”

让我们诚实地审视一下，作为职教老师，你每天的信息输入是什么——

工作群里的通知和转发、教材和教案（可能用了好几年没更新）、学生的作业和考试卷、同事之间的闲聊和吐槽、刷一刷短视频放松一下……

你的社交圈呢？大概率是同校、同专业、同年龄段的老师。大家面对的问题一样，抱怨的内容一样，看问题的角度也一样。

这不是学习，这是认知回音壁。你的神经网络在用同质化的、低信息密度的数据反复训练自己，结果就是越来越“拟合”当前的环境——你变得越来越适应现状，也越来越难以跳出现状。

破局：融入高质量的“训练集”

AI 模型的能力上限，很大程度上取决于预训练数据的质量。用维基百科和学术论文训练出来的模型，和用社交媒体垃圾帖训练出来的模型，能力天差地别。

人也一样。你想升级内核，第一件事就是升级你的训练样本。

策略一：加入跨层级的学习社群。

注意，不是“同水平取暖群”，而是“向比你优秀的人学习的群”。你需要的不是情绪支持（那是进程自我的需求），而是认知冲击（那才能触动内核参数）。

找到你所在领域里真正做出成果的人——可能是其他学校的名师、可能是企业里的技术专家、可能是教育科技领域的创业者——想办法进入他们的圈子。哪怕只是旁听他们的讨论，你的参数都在被悄悄改写。

湖北省推出的“星辰教室”就是一个很好的案例：教师自愿组建数字社群学习共同体，每天分享200字的教育感悟，以两到三年为周期持续成长。这种“输出倒逼输入”的模式，本质上就是在用高质量的社群互动来升级每个参与者的训练语料。

策略二：主动选择高信息密度的输入。

用深度阅读替代碎片浏览。一本好书对你内核参数的改写效果，可能抵得上刷一年短视频。不是因为书“高雅”，而是因为书提供的是结构化的、有因果链的、经过深度思考的信息——这种信息才能训练出高质量的神经网络参数。

具体到职教老师：每个月至少读一本与你专业相关但视角不同的书（比如你教机械的，读一本关于智能制造趋势的书）；每周听一门高质量的在线课程（不是那种应付继续教育学时的，而是真正让你感到“认知被刷新”的）。

策略三：跨领域“采样”。

AI 模型训练时，如果只用单一领域的数据，就会变得狭隘。人也一样。你需要从完全不同的领域“采样”——向企业界学习项目管理思维，向设计师学习用户体验思维，向程序员学习系统化思维，向心理学学习人的行为规律。

这些看似“无关”的输入，恰恰是打破你认知回音壁的利器。它们会在你的神经网络中建立新的连接模式，让你在面对老问题时产生全新的直觉反应。

四、杠杆二：重设你的“奖励函数”

第二个杠杆是强化学习的奖励函数——也就是给你的行为提供反馈的那个奖惩机制。

什么在给你做的事情打分？

万维钢老师举了一个精准的例子：如果你的奖励函数是“老板看了要夸我”，你就会本能地往报告里塞漂亮话，淡化问题；如果你的奖励函数是“帮团队少踩一个坑”，你就会愿意把难看的数字摊开，把失误写清楚。

假以时日，这两个奖励函数会把你训练成完全不同的两种人。

强化什么，你就会成为什么。

职教老师的“奖励函数错位”

让我们再次诚实地审视：当前给你行为打分的，到底是什么？

对大多数职教老师来说，最强的奖励信号来自职称评审体系——论文数量、课题级别、获奖等次、教学比赛名次。这些指标清晰、可量化、有明确的兑现路径（评上职称=涨工资+地位提升）。

问题在于：这套奖励函数训练出来的，是“会写材料的老师”，而不一定是“会教学生的老师”，更不是“能在 AI 时代持续进化的老师”。

你可能花了大量时间打磨一篇论文的格式和措辞，却没花同等时间去研究一种新的教学方法是否真的对学生有效。不是你不想，是你的奖励函数在告诉你：论文发了有用，教学改进没人看。

这就是奖励函数错位的代价——你被训练成了一个“适应评审体系”的人，而不是一个“持续成长”的人。

破局：设定明确、具体、可执行的奖励函数

万维钢老师有一个关键洞见：奖励函数得明确具体才好用。

什么叫“提升 AI 能力”？太模糊了，你的大脑不知道该强化什么行为。但如果你把它翻译成“本学期用 AI 辅助完成3个完整的教学设计，并在课堂上验证效果，记录学生反馈”——这就是一个具体的、可执行的、有明确反馈信号的奖励函数。

策略一：把模糊目标翻译成具体行为。

不要说“我要成为创新型教师”，要说“每两周尝试一种新的教学方法，记录效果，保留有效的、淘汰无效的”。不要说“我要提升科研能力”，要说“每月精读一篇本领域顶刊论文，写500字的读后思考”。

目标必须具体到你的大脑能判断“今天这个行为是否值得强化”。

策略二：建立即时反馈环。

职称评审是三五年一次的大反馈，太慢了。你的神经网络需要更高频的反馈信号才能有效调参。

给自己建立周度反馈机制：每周日晚上花15分钟回顾——这周我做了哪些“值得强化”的事？哪些行为让我离目标更近了？哪些是在原地打转？

不需要复杂的表格，一个简单的“本周三件好事+一件要改的事”就够了。关键是频率和诚实。

策略三：选择正确的“评分者”。

你的伴侣、你的朋友圈、你所在公司的文化，都在书写你的奖励函数。要小心选择他们。

对职教老师来说，最有价值的反馈来源排序是：学生的真实反馈 > 行业专家的评价 > 自己的诚实复盘 > 领导的主观印象 > 同事的客套夸赞。

如果你的学生在你的课上真正学到了东西、真正掌握了一项技能、毕业后在工作中用到了你教的内容——这才是最高质量的奖励信号。它比任何论文发表、任何比赛获奖都更能告诉你：你的内核参数正在往正确的方向调整。

五、最难但最值钱的事——让内核保持“可更新”状态

升级语料、重设奖励函数，这两个杠杆都很重要。但在所有这些之前，还有一个前提条件——

你得让自己的神经网络处于可更新状态。

什么意思？万维钢老师引用了弗里斯顿的自由能原理：当一个人面对预测误差——也就是被现实“打脸”的时候——他有三个选择来最小化惊讶：

最偷懒的做法：改注意力。干脆别看打脸的证据。

职教老师版本：不关注行业变化，不看 AI 最新进展，不听学生的真实反馈。“我不知道，所以我不焦虑。”——这是把头埋进沙子。

稍好一点：改行为。以后绕过类似场景。

职教老师版本：回避所有需要新技能的任务。有 AI 相关的项目？让年轻人去。有新的教学改革要求？应付一下就好。你没有否认变化的存在，但你选择了绕道走。

最难但最值钱的：改模型。承认“原来我是错的”，重写参数。

职教老师版本：承认自己过去十年的教学方法可能已经不是最优解了。承认自己对 AI 的理解可能是错的。承认那个“经验丰富的老教师”的身份标签，有时候反而是阻碍你学习的枷锁。然后，主动重建。

被现实打脸，本应该是内核自我更新的黄金时机。

每一次你发现“我的预测错了”——学生对你精心准备的课不感兴趣、你以为不可能的事情 AI 做到了、你认为稳固的专业方向突然开始萎缩——这些都不是灾难，而是你的内核自我收到了一个珍贵的“梯度信号”。

AI 模型正是通过不断接收“预测错误”的反馈信号来调整参数的。如果你屏蔽了这些信号（改注意力）或者绕开了它们（改行为），你的参数就永远停在原地。

保持“可训练状态”，不是谦虚，不是自我贬低，而是一种生存策略。在这个快速变化的时代，一个参数冻结的模型，注定会被淘汰。

结语：凝聚业力，持续交付人生的新版本

让我们回到开头那个问题：为什么你学了那么多，还是老样子？

因为你一直在改日志（进程自我的情绪波动）、改提示词（界面自我的人设宣言），却从未真正动过内核自我的参数。

从今天开始，你可以换一种方式——

像训练 AI 一样训练自己：升级语料，重设奖励函数，保持可更新状态。

融入高质量的圈子，让比你优秀的人的思维模式成为你的训练数据。设定明确具体的目标，让正确的反馈信号来强化你的行为。面对“打脸”时选择改模型而不是改注意力，让每一次预测误差都成为参数更新的机会。

万维钢老师引用了一段西方谚语，放在这里特别合适——

当心你的思想，它们会成为语言；当心你的语言，它们会成为行动；当心你的行动，它们会成为习惯；当心你的习惯，它们会成为性格；当心你的性格，它会成为你的命运。

用我们这一讲的框架来说：思想、语言和行动是进程自我的在线流动；习惯和性格是你展示出来的界面自我——它们都在默默改写内核自我的参数，凝聚业力。

而人比现有的 AI 高了一层的地方在于：人可以自行选择自己的训练样本和奖励函数。你永远都可以抬头看一眼——是谁在训练我？我为什么要往那个方向变？凭什么这个就是好的、那个就是不好的？

能选择成为一个什么人，是人的终极自由。

作为职教老师，在这个 AI 飞速迭代的时代，你的终极竞争力不是你会用多少工具，而是你的内核参数能以多快的速度持续更新。

下一篇，我们正式进入具体的思维工具。

本文为「职教老师专业成长、提升幸福感必须掌握的现代思维工具」系列第五篇。往期回顾：第一篇「叙事」、第二篇「重尾」、第三篇「约束」、第四篇「可能」。