从大语言模型到OpenClaw:智能技术发展的底层逻辑是什么
一、将差异数据化 内化和外化 从人类开始能够使用工具开始,昨天的个体和今天的个体之间就产生了差异,这种差异使人变得更好,这种差异刺激人想变得更好,人能怎么办呢?两种方式:内化和外化。 内化(精神世界):将这种差异用大脑的神经元之间的链接来存储,明天遇到同样的问题后就再次激活那几个神经元,产生和昨天一样的结果。有些差异能够存储到DNA中遗传给下一代。 外化(物理世界):但有些差异(比如记忆)就很难遗传下去,于是人尝试用四肢和物理世界发生交互,通过改变物理世界的形态来存储这种差异。比如把差异刻在石头上、记载在纸上。我们称这些被记载下来的差异为”数据“。 有些数据是物理数据本来就存在的,人把它记录下来而已。比如天上有一个太阳,于是我们画个圈来表示这个太阳。我们称之为”自然数据“。有很多自然数据不因人的意志而改变,需要人去发现,把发现到的结果整理在一起称之为”自然科学“。 有些数据是因为人的存在才存在的,人也把它记录下来。比如我们说的语言,原本只有声音,但是声音不太好记载,所以人就创造符号,用符号把语言记录下来,我们称之为”符号数据“。这种因为人的意志而改变的数据也有它自己的规律,我们将这些规律成为”社会科学“。 所以自然科学反映的是物理世界的规律,社会科学反映的是人类的精神世界的规律。 压缩和简化 当我们把数据存储在石头上时,我们传递数据就需要让石头产生位移,从一个地方转移到另一个地方。但改变物理介质的位置的根本目的还是希望能够降数据从一个人的精神世界传递到另一个人的精神世界。人的时间是有限的,体力是有限的,心力是有限的。面对有限的时间、体力和心力,就必须要提高效率。解决这个问题的办法就是:压缩和简化。(奥卡姆剃刀,省力原则) 符号化 把固定的石头变成移动的石板,把移动的重的石板变成轻的龟壳,把不好刻的龟壳变成好写的纸张,把写在纸上的复杂的符号变成简洁的符号,把需要1000个符号组织的语言体系变成用10个符号就能组织的语言体系,把需要10个符号表示的1000种形式变成用2个符号表示的10000种形式,发现2个符号再也不能缩减后再去寻找能够表示2个符号的介质。 数字化 一开始发现是手指头(Digit),然后发现是灯泡,然后发现是二极管,然后发现是集成电路,然后是超大规模集成电路。当一堆集成电路形成的矩阵要显示图像时,就需要控制显示器上的发光原件用不同的颜色,当屏幕上的图像从一页转换到另一页时相当于一个矩阵转换成另外一个矩阵,这个时候就发现需要使用线性代数来加速屏幕上一个图像矩阵转向另一个图像矩阵的速度,这个时候就需要集成电路加速从一个状态转向另一个状态。那如果用矩阵表示的图像能够从一个状态快速转变成另一个状态,那么声音、文本也可以吗?原本声音和文本是通过序列来表示的,视频也是一个又一个的图像组成的序列啊,能够用矩阵来表示声音和文本吗?等等,大脑的神经网络不就是一个矩阵吗,人学习的的本质不就是从一个矩阵转换成另一个矩阵吗?人是怎么转换的呢?人的精神世界需要物理世界的刺激来产生变化,并且根据这个刺激来产生具身反应,根据这个交互来改变神经元的分布。我们要是在超大规模的集成电路上模拟出一个神经网络,让它接受物理世界的刺激来改变状态呢?这不就是使用线性代数来学习或者模拟出一个数字矩阵吗? 文字向量化 但是物理世界的数据太多怎么办?先从文字开始,但是文字之间的变化怎么呈现出来最容易?人和人之间的状态变化怎么最容易呈现?当一堆人忽然走在一起,我们就可以看谁和谁最容易勾肩搭背在一起,这就是”人际关系“。文字之间也有”文际关系“,这个关系我们称之为”共现“。我们先把文字打乱,然后找到一个文字和另一个文字之间的规律。用什么来表示文字呢?用数字来表示。用什么数字来表示呢,用数字矩阵来表示。这个矩阵怎么来?用线性代数来计算。无形中我们发现了原来可以用数字矩阵表示文字的语义。我们曾经用一堆文字符号来表示另一堆文字符号的语义,现在我们进一步简化,用一堆数字来表示文字的语义。用的符号更少了,也更精简了。 我们称这种表示为”Embedding“(嵌入、表征、向量),其实就是一个固定维度的数字矩阵。这个矩阵的维度越高,能够表示的语义越准确。但为了用更高维度来表示语义就需要更大规模的文字符号数据和更大的算力,需要更好的线性代数公式和更省电省空间的超大规模集成电路。 多模态向量化 文字就是一种人造的符号,物理世界除了文字还有很多不同的符号形态,比如图像、声音、温度等所有能被人的感官感知到的外部刺激形式,都可以用数字矩阵来表示。所以语言模型只是一个中间态,下一步是宏观物理世界模型,再下一步我猜可能是微观物理世界模型。人可能会被自己的眼睛、耳朵、皮肤的生理机制限制,只能从物理世界得到有限的刺激。但是机器人可以通过传感器获取到更多人得不到的宏观世界的刺激,能够获取到人不可能得到的微观世界的刺激。比如机器人看到的世界、听到的声音、感知到的波都跟人不一样,他们基于这些刺激得到的数据从一个状态转换到另一个状态时,就会产生更多意想不到的效果。 宏观化和微观化 二、将数据智能化 ”精神世界-数字世界-物理世界“交融进化 我们此时此刻在哪里呢?我们此时此刻正处在高纬度的数字世界和高纬度的物理世界融合的时间点。大语言模型已经可以用高维数字矩阵来模拟语义了,虽然现在还有这种各种的问题,但都是阶段性的。从人类开始使用硅基计算机开始将自己的精神世界的产物和物理世界的客观数据压缩后存储到计算机之后,大语言模型就是注定要产生的。因为大语言模型的本质就是人的精神世界和客观物理世界的压缩和简化。这个压缩一开始是极简压缩或者有损压缩(也就是最开始的胡说八道模式),但随着数据量的增加,这个极简压缩在开始慢慢变大,变成高质量有损压缩,开始通过人类的反馈把不该损失的保留下来,把没有价值的损失彻底丢掉,直到变成高质量无损压缩。 人于是进入到了一个恶性循环,一个群体智能组织和另一个群体智能组织在对抗时,就必须看谁能用最少的资源完成更高质量的无损压缩大语言模型。这里的资源目前以人为主,未来也会扩展到用最少的物理世界的资源。人不可能停止对抗,因为人自己本身就是因为要和昨天的自己对抗,渴望去寻求那种差异感。 ”信息差-注意力差-执行力差“交替演进 目前我们每个人之间有三个差,分别是:信息差、注意力差和执行力差。 信息差 大语言模型在尝试磨平人和人的精神世界的信息差,你知道的我也很快可以知道。但是这个过程中出现了很多问题,一个是信息过载,并不都是所有进入到人脑的信息都是经过压缩和清洗的。在没有大模型和互联网的时候,人类通过教育来筛选入脑的的信息。但是大模型和互联网(尤其是以短视频为核心的自媒体)的出现使得现行教育的筛选作用被注意力经济催动的极短动态信息大爆炸大规模冲击。 这个不见得是坏事,因为传统教育传授入脑的是被精致压缩后的预制菜,工业化规模的预制菜生产流程是很难自我改变的,甚至是很难微调的,需要外部冲击来进行破坏性冲击实现创新。所以现在的教育要解决的根本性问题,是如何重新建立一个知识压缩和清洗机制,用更多的时间完成高价值知识的入脑,要寻找一种垃圾信息的防火墙,就像是治水一样,要建设都江堰那样的智慧工程。 注意力差 解决完信息差之后就要解决注意力差的问题。人类的高质量有价值知识如果已经被高质量无损压缩后进入到一个人的精神世界了,那么一个人应该把宝贵的注意力分配到哪些信息上呢?我想此时此刻大家都在寻找答案,每个人都是对的,因为每个人都想生存下来,都希望明天会更好,这个时候既要遵循自上而下的组织规则,指哪儿去哪儿,也要尝试自下而上的规则,自己希望去哪儿就去哪儿,确保大方向不变,局部微调,实现全局最优解。 执行力差 一旦注意力差解决了,把有限的时间、体力、精力瞄准到具体方向了,就看谁的执行力强,谁能够借助大语言模型为核心的生成式人工智能来快速改变世界创造价值。人自己的时间是线性向前流失无法逆转的,所以必须寻求并行机制,让自己的数字分身跟自己同时行动。人自己的精力肯定不够,需要大语言模型来辅助自己思考。人自己的体力肯定不够,需要具身机器人来帮助自己行动。所以我认为下一个方向一定是一个人尝试去雇佣更多低成本高质量的数字人来协助自己,一定是借助机器人帮助自己高效使用时间,节省有限的体力和精力。 生命差的弥合 即便人再有执行力,也要面对死亡。当人和机都到位后,就是维护的问题,人的精力和体力需要维护,机器人也需要维护,所以未来人需要更好的医学来维持身体的健康,需要更好的机制来维持精神的健康,需要更多的资源来维持机器的健康。如果还是从压缩和省力的角度来思考的话,要想实现这一点,大概率就是人减少工作时间,提高休息时间,借助机器人来维持高质量的生活。不过这一点又跟人想去寻求差异刺激的天生补偿机制相悖。 我思考到这里后就一直没有一个很好的答案。一个班里的学生一定是分级的,有优秀生,有后进生。优秀生似乎终其一生也不愿意停止创造,后进生会通过学习之外的其他方式来创造属于自己的价值,甚至遵循奥卡姆剃刀原则,选择最省力的躺平。财富和健康似乎终究会集聚在20%的人身上,剩下的80%的人要通过消耗自己的时间、精力和体力来维系另外20%。我不太敢往这方面想。 想到这儿,我想对此时此刻(2026年3月15日)我看到的“精神世界——数字世界——物理世界”融合现状进行一些描述,帮助此时此刻的大家了解我们面对的是什么。 三、将智能差异化 私有数据开源化 从近期短暂的历史来看,大语言模型技术是以2017年谷歌发表“Attention is all you need”这篇论文的发表作为爆发远点的(在此前是伴随机器翻译的需求、语言资源的规划、算力设备迭代等近70年的发展作为前置条件的)。大语言模型应用是以2022年ChatGPT的发布作为爆发点的。2024年Deepseek的开源推理模型和专家模型的出现使得大语言模型更节省资源更智能了,它的开源推动全球大语言模型应用进入到新的阶段。2022年-2025年中国和美国的大语言模型产品用免费的方式让大语言模型开始从全球用户那里通过提示词来仍有所节制的获取个人数据。2026年实质是“病毒”的OpenClaw以披着羊皮的狼的形式开始从全球用户那里公开的疯狂的攫取个人数据和个人电脑的权限,与此同时2025年和2026年视频生成模型开始疯狂攫取人类的想象力、品味。 大语言模型人型化 给大模型长眼睛:让大模型通过联网可以有限知道世界在发生什么。之所以是有限,是因为世界正在发生的事情并非实时进入到互联网,而是压缩后被人类用新闻、微博、朋友圈、小红书、推特、短视频、长视频等形式上传到互联网,不过传感器数据、卫星数据、军事数据等还没有进入公域,而是在私域与大模型疯狂结合。 给大模型做饭:通过Skills中存储的高效能人类的高效工作流、上下文压缩技术、JSON结构化数据形式来把大规模的数据去粗取精做成精致的饭送给大模型吃。 给大模型长手:让大模型通过API、MCP、Python代码等形式来获取结构化的数据、操控电脑上的工具;通过Python代码和CLI命令来控制各种操作系统(电脑操作系统、手机操作系统、嵌入式操作系统等) 给大模型长脑子:给大模型长脑子分成两个侧面,一个层面是真的让大模型变聪明,比如通过算法让大模型参数更大更节约资源;还有一个层面是为它准备小抄,让大模型假装变聪明。因为大模型是没有记忆的,无法在使用过程像人一样“热更新”,所以就必须从不同角度来为它创造可以复用的记忆。它的每次启动就像是科幻小说里在同一个时间点醒来,只不过醒来时看到不一样的东西记忆就不一样。这一步目前主要通过结构化数据库或者结构化文本(比如Markdown)的形式来实现。 给大模型装上心脏:目前大家看到的OpenClaw,本质上是一个工程创新。其实可以认为是把上面的几个拼到了一起,还给它装上了心脏,模拟心跳,让它可以按照既定的程序来办。这个既定的程序可以执行固定的公祖留,也可以是执行一个它自己的一次”随机思考“,让它根据自己的想法来决定做什么。这可能是比较疯狂的地方。 以上这些中间工具本质上都是”软件工程“和”硬件工程“。因为在这个过程中人不是在尝试发现这个物理世界的自然规律,而是在创造和优化自己照着自己的形象仿制出来的产品,这本身就是个控制论引导下的工程过程。 人机融合化 那么,现在的我们应该做什么?我觉得每个人的选择都是不一样的,我自己的角色是高等教育的教师,我的选择就是把有限的时间、精力和体力放在教书育人上面。我选定的方向是培养懂语言、懂技术、懂文化、懂管理的卓越语言工程师(短期为了翻译专业转型,会定性为”语言服务架构师“,长期来看为了整个语言专业转型升级将定性为”卓越语言工程师“)。 卓越语言工程师 卓越语言工程师的整体定位是:人才秉持AI向善、以人为本的基本原则,将高水平的语言智能技术应用于国家和社会的现实场景中,解决真正的问题。 偏向技术的人可以参与AI本身的研发优化,偏向管理的人可以参与以AI为核心的解决方案的设计和管理,偏向语言的人可以将AI作为工具来深度研究人类语言和AI产出的语言,偏向文化的人可以将AI作为工具来研究社会。 以上分别对应:语言技术、语言管理、语言科学和语言伦理。所以卓越语言工程师将依托交叉学科培养。 语言文化素养+大语言模型素养 在培养语言工程师的过程中要抓住两个素养:语言文化素养和大语言模型素养,前者教会学生成为一个社会人,如何开展真实的人和人之间的交际,后者教会学生如何正确认识机器人(智能体),如何与机器人交互。 交叉学科+阈概念 而在底层的课程体系中,要深入挖掘最核心的最有价值的知识点(阈概念),并对他们进行认知难度排序、交叉逻辑关系排序和学习流程排序,将交叉学科知识点与真实世界的需求有机结合。作为教育者,我们在思考的是如何在有限的1500小时的课堂时间里讲授最有价值的知识,这里的价值既有知识本身的经济价值,也有教育者带去的情绪价值。学生带着这些价值再去课下的2000-3000小时中去创造更多价值。 小结 我本身不是唯技术的。正是交叉学科的背景让我看到了一些技术发展背后的底层逻辑,也基于这些底层逻辑去更好更清楚的看到问题。今天大家看到的AI发展乱像难道没有问题吗?必然是有问题的,但是我们需要看到它的本质。比如OpenClaw的本质是一个现象级过渡型的中间产品,养龙虾的过程就是把自己遇到的问题和解决问题的过程记录下来,把自己的思想和工作状态压缩后用及时聊天工具这种形式借助提示词告诉OpenClaw,OpenClaw使用大模型来整理这些提示词,对他们进行解压缩,然后存储到结构化的Markdown文件里,形成我们的数字分身和智能助手。 我想把目前技术发展的趋势比作是一款游戏里繁荣的贸易,这个游戏里人人都是魔法师,什么都可以创造,玩游戏的人越来越多,都在为游戏本身、游戏里的积分、游戏机付费,财富会不断集中在拥有算力和算元的人身上(也就是目前OpenClaw的推动者)。所以这个趋势正在催使我们中的一部分人成为价值的创造者,而不仅仅是消费者。更需要思考的是,我们的国家需要我们成为什么样的人,我们的小家需要我们成为什么样的人,我们自己想成为什么样的人。 我们每个人都在追求比今天的自己更好的那个”我“和”我们“,这种昨天的我和今天的我之间的差异催使和刺激我们去改变自己位于精神世界的智能。 (本文完全古法写作,飞行中的随想,欢迎大家批评指正!)