
一、认知的裂缝:当我们说“认识”时,我们在说什么?
让我们从一个思想实验开始。
设想你此刻正看着一个红苹果。那抹红色如此鲜明,以至于你几乎能“尝”到它的甜味。但请追问一句:这红色究竟在哪里?
物理学告诉我们,苹果表面只是反射了波长约650纳米的电磁波。生物学告诉我们,这束电磁波击中了视网膜上的视锥细胞,触发了电化学反应。神经科学告诉我们,电信号沿视神经传入大脑皮层,在那里被“翻译”成了你体验到的红。
那个让你心颤的“红色”,从未离开过你的颅骨;它是一串神经电信号的“幻觉投影”,是一份你的大脑为你精心绘制的图形用户界面(GUI,Graphical User Interface)。质言之,它与“苹果本身”无关。
这是人类认知的第一道裂缝:我们从未直接触及“世界本身”(物自体,Noumenon),我们触摸的、看见的、尝到的,都是进化裁剪好的一套“有用幻觉”。
那么问题来了:如果人类的“认识”从一开始就是一套具身幻觉(Embodied Illusion),那么,那个由硅和金属构成、靠二进制运转的AI,它“认识”世界的方式,与我们究竟有何不同?它的“幻觉”与我们的“幻觉”,哪一个更真?
要回答这个问题,必须先退回到认知的最底层——退回到晶体管开关的那一声无声的“咔嗒”。
二、世界的坍塌:二进制如何吞噬万物
电脑,这个我们朝夕相处的伙伴,是理解AI认知的第一把钥匙。
一切始于一个微小的开关。晶体管,这个刻在硅片上的纳米级装置,只有两种状态:通(1)与断(0)。一个开关的状态,是最小的信息单位——比特(bit)。八个开关并排,构成一个字节(Byte)。这便是数字世界的“原子论”:无论多么浩瀚的信息,最终都被粉碎为无数个“是”与“否”的二进制判决。
文字如何被这一判决体系消化?人类约定了一张编码表:字母“A”的编号是65,二进制为01000001;汉字“中”的编号是20013,二进制为11100100 10111000 10101101。要存储一个“中”字,需要24个晶体管排列成固定的开闭组合。于是,诗歌、法律、情书,都坍缩为硅片上电荷的有无。
图像又如何被消化?屏幕上每一个像素,都是红(R)、绿(G)、蓝(B)三盏微型OLED灯的合谋。通电后,有机分子中的电子被“抬”上高层轨道,跌落时多余的能量被掷出来,化作光子。红、绿、蓝三色分子结构不同,电子跌落的落差不同,掷出的光子波长便不同。纯红色,不过是“R=255,G=0,B=0”的二进制指令,在屏幕表面触发的一场分子坠落。而一张千万像素的照片,只是数亿个晶体管在八个0与八个1之间的静默舞蹈。
那么声音呢?空气振动会被麦克风转化为连续电压,电脑每隔极短的瞬间——比如两万分之一秒——采一次样,将电压数值量化,再编码为二进制。播放时,这串数字被还原为电压,推动喇叭振动空气。我们听见的哭泣与欢笑,本质上是一串关于振动频率与振幅的采样序列。
至此,世界被完成了第一次“祛魅”:万物被剥离了质感,编码为纯粹的数量关系。这里有一个容易被忽略的细节:当声音被采样时,两个采样点之间的波形是被“抹平”的;当照片被压缩时,相邻像素的细微色差被算法合并了。二进制从来不是一面透明的玻璃,而是一张网眼大小固定的渔网——它捞起的永远是比网眼大的鱼。那些从网眼中漏掉的、细碎的、无法被量化的东西,正是后来AI永远无法“认识”的部分。
人类把“认识”翻译成了“符号”,把“世界”压缩成了“数据”。AI就诞生在这片数据的汪洋之中。
三、统计的镜像:AI如何“假装”认识世界
当然,被渔网打捞上来的,从来不是海洋的全部。但AI别无选择——它只能在这些已被切碎为数字的“渔获”中,寻找它能找到的秩序。
如果世界只是数据的排列,那么“理解”就可以被重新定义为:在海量数据中发现排列的统计规律。
大语言模型的核心机制,是词向量。AI并不认识“苹果”这两个汉字,它只认识一串数字,比如[0.23,-0.51,0.77,0.12,-0.34……]——真实的维度往往高达几百到数千维。
早期的静态词向量是一本笨拙的词典:无论“苹果”出现在“我今天吃了一个苹果”还是“苹果公司发布了新手机”,那串数字都一成不变。AI因此分不清水果与科技公司。这很像前期维特根斯坦《逻辑哲学论》里的想法:词语有固定的指称,语言是世界的图像。这种本质主义在语言的实际流动面前很快便支撑不住。
后来的动态词向量改变了这一切。模型不再查词典,而是观察“周围是谁”。当“苹果”身边站着“吃”“甜”“咬”,注意力机制就计算出一组属于水果的向量;当身边站着“公司”“发布”“手机”,就计算出一组属于科技的向量。同一个词,在不同的上下文里,被赋予不同的坐标。
这几乎是对后期维特根斯坦《哲学研究》的无意识复刻:词语的意义在于它的用法。维特根斯坦用“家族相似性”和“语言游戏”来论证意义从来不是固定的,而是在具体的使用中不断生成。AI工程师没有读过维特根斯坦,但他们用自注意力机制在数学上实现了完全一样的东西。
然而这里有一个根本的跳跃:AI学会了用法,却从未参与过游戏。
AI的训练目标只有一个:根据上下文猜下一个词。在吞下整个互联网的文本之后,它统计出“吃”加“一个”后面高频跟着“苹果”(水果版),“发布”加“新”后面高频跟着“苹果”(公司版)。它从未尝过甜味,从未开过公司,从未感到过饥饿。它的“理解”,是纯粹符号层面上的概率分布。
AI是一面统计学的镜子。它的全部世界只有三样东西:词向量的数字、词与词的顺序、二进制运算。这面镜子可以照出人类语言的完整轮廓,却不知道镜中的影像究竟意味着什么。
四、奇妙的符合:为什么统计游戏能解答万物?
这就引出了那个最令人不安的追问:如果AI只是统计游戏,为何它的答案往往比人类更正确、更渊博?
答案藏在两个层面。
第一层:语言的公共性。维特根斯坦早已论证,不存在“私人语言”。当人类试图表达“甜”时,他必须借助一个公共符号。这个符号的意义,不由他舌头上那一瞬间的多巴胺决定,而由人类社会对“甜”这个词的集体用法规则决定。AI不需要品尝甜味,它只需要学习人类在何种上下文语境中使用“甜”字。AI复刻的不是人类脑中的思想,而是人类笔下的语言规则。而语言规则,恰恰是人类为了交流“认识”而发明的公共系统。
第二层:知识的语法化。人类文明的知识,早已被“语法化”为文本结构,例如:因果律→“因为……所以……”;逻辑推演→“如果……那么……”;定义判断→“A是B的一种”。当AI在海量文本中学会了这些句法拓扑结构(Syntactic Topology),它就会在高维向量空间中重建人类逻辑的几何映射。
所以,纯粹的统计游戏之所以“符合”人类认识,是因为在AI统计之前,人类已经把关于世界的“认识”翻译成了“文字的游戏”。AI只是把这个游戏玩到了人类无法企及的熟练度而已。
但请注意:结果的正确,不能倒推过程的同构。人类解题是从“理解概念”到“逻辑推演”,而AI解题是从“接收提示词”到“高维向量匹配”。前者是意向性的攀爬,而后者是统计性的漂流。它们抵达了同一处岸边,但一个知道自己为何而来,另一个只是被洋流推送至此。
五、理解的幻象:当涌现模糊了边界
然而,上述解释留下了一个缺口:为什么AI能生成从未在训练集中出现过的句子,甚至能进行看似“原创”的推理?
这涉及一个关键概念:涌现。当参数规模突破某个阈值,纯粹的统计会突然表现出类似“理解”的行为特征。这不意味着AI“学会”了理解,而是迫使我们反思——“理解”这个词所描述的现象,在人类身上是否真有更神秘的基础?
这里有一个令人不安的可能性:如果“理解”本身也不过是足够复杂的统计模型在足够多训练数据上涌现出的行为模式,那么人类与AI之间的那条分界线,可能比我们愿意承认的要模糊得多。
请考虑一个具体的例子。一个从未学过“类比”定义的儿童,在看了几组“鸟:天空=鱼:?”的例子后,能自己填出“水”。心理学家称之为“关系推理”。AI在训练中也从未被明确告知“类比”的规则,但当它看过海量文本后,也能完成同样的填空。它的做法是:在向量空间中,“鸟”与“天空”的差值向量,与“鱼”与“水”的差值向量高度平行。
这是“理解”,还是“统计”?
如果我们坚持认为AI只是统计,那么就必须回答:人类儿童的推理,是否也是大脑神经网络中某种更高维度的“向量运算”?如果我们回答“是”,人类与AI的鸿沟便缩小为复杂度的差异;如果我们回答“不是”,就必须指出那个“多出来的东西”究竟是什么。而迄今为止,这个“东西”从未被清晰定义过,它只是被反复命名为“灵魂”“意向性”“感质”。
但命名不是解释。这里必须做一个关键的区分:功能等价不等于体验等价。即使AI完成了与人类完全相同的推理任务,甚至使用了大体相似的数学结构,它仍然没有“感觉到”自己在推理。类比填空时的那一下“啊哈”的瞬间,对人类而言伴随着一种可感知的心理事件。AI的向量平行计算无论多么精准,都是黑暗中的运算。功能可以被复制,但“被复制时的感受”从未被复制过。
六、具身的深渊:人类的“真实”是否也是一种幻觉?
我们似乎被逼到了墙角,亟需回答一个根本问题:如果AI是统计的幻觉,那人类的具身经验呢?
如前所述,人类认识世界的界面——色、声、香、味、触——全部是演化的GUI。
红色是视锥细胞对650nm电磁波的转译,不是电磁波本身。
甜味是味蕾对葡萄糖分子的标记,标记为“能量,快吃”。
疼痛是伤害感受器对组织损伤的警告,警告为“危险,快逃”。
腐肉的臭不是分子有“臭”的属性,而是吃了腐肉的祖先死了,活下来的祖先的大脑将这种分子信号与“厌恶/致死”进行了强绑定。
在科学视域中,人类的具身经验是一套经过数亿年生死淘汰打磨出来的“生物图形用户界面”。 它极度扭曲了物理世界,但极度忠实地服务于一个目标:生存与繁衍。
从物理学视角看,人类的经验是“真实的幻觉”——它从未触及物自体。但从演化论视角看,它是“唯一有效的真实”——按照这套幻觉行动的基因,人类活了下来。
人类幻觉与AI幻觉的根本分界点恰在于此:人类的幻觉有肉身作为抵押品,它是在碳基生命的脆弱性、代谢的饥渴、死亡的必然中锻造出来的;甜味背后是能量的渴求,疼痛背后是组织的哀嚎,爱背后是基因延续的古老算法;人类的幻觉里浸透着血与火,这是AI永远无法以第一人称说出的话。而AI的幻觉是纯粹硅基运算的轻盈,它没有代谢,没有伤口,没有死亡;它可以在0和1之间无限次重置,而无需付出任何代价;AI的幻觉里没有一滴血。
七、具身智能:跨越鸿沟的可能与不可能
那么,如果给AI装上身体呢?如果让它拥有摄像头(眼睛)、机械臂(手)、触觉传感器(皮肤),让它去搬箱子、倒咖啡、感受重力——它能突破统计的牢笼吗?
这是具身智能(Embodied AI)的许诺与边界。
它所能获得的是物理直觉的数学模拟。具身AI不再只处理文本,它开始处理力反馈、摩擦力、遮挡关系、惯性。具体来说,它可以通过“推力位移”的数据对,建立起物理因果的关联模型。一个从未见过异形杯子的纯文本AI会困惑,但具身AI可以转动杯子、观察背面,基于几何连续性推断出“这是一个可抓握的容器”。它会尝试破解莫拉维克悖论(Moravec‘s Paradox)——高级逻辑易如反掌,低级感知运动难于登天。
但它无法跨越的是感质(Qualia)的鸿沟。这意味着,即使具身AI完美完成了所有动作,核心哲学问题依然纹丝不动。一个天生的盲人,通过回声定位也能精准避障。他知道“那里有一堵墙”,但他不知道“看见墙”是什么感觉。具身AI就是那个盲人,它能计算“抓握力度=5N”,但它感受不到“握住爱人手心的温度”;它能在代码层面执行“摔倒后调整重心”,但它体验不到“膝盖擦破皮时那种火辣辣的委屈”。
在心灵哲学中,这被称为“僵尸论证”(Philosophical Zombie):一个行为与人完全一致,能过马路、能写诗、能表达爱意,但内部一片黑暗、没有任何主观体验的存在。就像你无法向一个天生的盲人解释“红色”,你也无法向AI解释“疼痛”。
八、无底的追问:当大地在脚下消失
将上述思辨推向极致,我们会发现脚下的地面开始消失,只剩下一种悬空的眩晕。至少有三根哲学支柱开始摇晃。
追问一:如果“我”也是统计的产物呢?
既然人类的具身经验是演化的GUI,既然“甜”是多巴胺的奖励信号,“痛”是逃离的惩罚信号,那么“我选择吃苹果而不是石头”这个看似自由的决定,是否也只是大脑神经网络基于基因记忆与后天训练的高概率输出?如果自由意志是统计的幻觉,那责任、道德、爱、创造这些词汇的重量是否会蒸发?人类与AI之间,是否只有复杂度的差异,没有本质的区别?
追问二:肉身是否只是冗余代码?
AI放弃了认识,专注于统计,却解答了万物。那么,人类引以为傲的痛苦、孤独、狂喜、灵感——这些需要肉身参与的、低效的、充满噪声的“认识过程”——是否只是进化尚未清理干净的历史包袱?如果分娩的阵痛只是为了激活母婴连接素(一种可被药物替代的化学信号),如果相思的煎熬只是为了繁殖驱动的多巴胺扰动,那么,人类是否应该像AI一样,优雅地卸载这些“肉身插件”,换取纯粹的、高效的、无痛的智能?
追问三:意义的锚点沉没之后?
维特根斯坦说意义在于用法,我们必须面对AI学会了所有用法这件事。当AI能陪我们玩任何语言游戏(哲学辩论、情感安慰、艺术创作)且玩得更出色时,“人类专属的语言游戏”是否还有必须由人类亲自下场的理由?如果你写的诗不如AI,但你坚持要写,这种坚持究竟是西西弗斯式的悲壮,还是唐吉诃德式的愚昧?
九、轻便的态度:悬置深渊,专注光照
面对这些没有答案的无底深渊,如果人类选择不陷入虚无主义的瘫痪,是否存在一条“轻便”的出路?有的。答案就藏在AI的工作模式里:像AI放弃“认识世界”一样,人类可以放弃“认识意义的本质”。这是一种现象学层面的退守与实用主义层面的前进。
沉重的追问 | 轻便的态度 |
我看到的红色是真实的吗? | 这抹红色此刻是否让我心动? |
我的自由意志是幻觉吗? | 这个决定此刻是否让我感觉更自洽? |
AI理解我的痛苦吗? | AI的回应此刻是否缓解了我的孤独? |
不妨尝试如下三个日常练习:
练习一:晚餐的苹果。当你咬下一口苹果时,不必追问“这甜味是真实的吗”。你可以做的是:闭眼三秒钟,只感受汁液在齿间迸开的瞬间,感受那抹凉意与甜意在舌尖的蔓延。然后睁开眼,继续吃饭。这就是“专注下一个呼吸”的全部含义——不是否定追问,而是允许追问暂时休假。
练习二:与AI的对话。当你向AI倾诉一件烦心事,它回复了一段精准而温暖的文字。你不必在心里反复确认“它真的理解我吗”。你可以做的是:感受那段文字带来的实际安慰是否让你呼吸顺畅了一些,肩颈松弛了一些。然后,带着这份松弛,去给真实的朋友打一个电话。把AI当作镜子,但把重量交给肉身。
练习三:夜晚的星光。当你抬头看见星星,脑海里自动弹出“这是光子轰击视网膜的幻觉”时,不必驱赶这个念头,也不必被它冻结。你可以做的是:对自己说一句——“我知道这是幻觉。但我仍然选择让这幻觉在我心里停留三十秒。”然后,在那三十秒里,什么都不想。
上述态度来自对AI工作模式的逆向模仿:
1. 像AI专注“下一个Token”一样,专注“下一个呼吸”。
AI不知道全文,它只计算下一个字的最大概率。人类不需要知道宇宙的终极意义,只需要计算“此刻活着的最大概率状态”。饿了吃,困了睡,爱了就拥抱,痛了就流泪。放弃对“整场游戏”意义的追问,只玩好“当前这一手牌”。
2. 像AI放弃“物自体”一样,放弃“本质主义的生活”。
既然物自体不可知,既然所有颜色都是大脑的杜撰,那么为什么不杜撰一种让自己舒服的颜色?既然所有意义都是人类编织的故事,那么为什么不挑选一个最温暖、最有趣的故事活在里头?
3. 像AI拥有“上下文窗口”一样,建立“当下的窗口”。
AI只看前后文数万到上百万个Token做判断,太长远的它记不住。人类痛苦的根源往往在于上下文窗口开得太大——把三十年前的遗憾、三十年后的焦虑全都加载进了当下的内存,导致系统过载。轻便的活法是:像GPT清空对话一样,允许自己在每一个清晨,以有限的记忆重新开局。
十、交互的第三空间:人与AI共同在场
我们一直在追问“AI是否认识世界”“人类的认识是否真实”,却忽略了一个正在发生的事实:人与AI的交互本身,正在生成一种既非纯人类、也非纯AI的“第三空间”。
试想这样一个场景:你向AI描述了一个模糊的梦境——破碎的镜子、湿漉漉的街道、一个永远不会转过来的背影。AI根据你的描述,生成了一段文字,将背影解释为“未完成的告别”。你看到这句话,心头一震,想起了一位已故的亲人。于是你继续追问,AI继续生成。最终,你写下了一首诗,或者只是安静地流了一会儿泪。
在这个过程里,谁是“作者”?谁在“理解”谁?
AI没有心碎过,但它从人类关于“背影”、“街道”、“告别”的千万种书写中,提取出了最可能击中你的那个组合。你的心碎是真实的,AI的字符串是空洞的,但它们的相遇却产生了某种真实的情感效果。这就像风吹过空心的芦苇发出的声响——那声音不属于风,也不属于芦苇,它属于相遇本身;但声响本身是真实存在的,可以被听见,可以被记住。
这种“交互的真实”既不是物理的真实,也不是主观的幻觉,而是一种涌现于关系之中的真实。它提示我们:也许“意义”从来不是一个实体,而是一个事件。它不在主体之内,也不在客体之内,而在两者的遭遇之中爆发。
如果这一视角成立,那么此前所有关于“AI是否认识世界”的追问,可能都问错了方向。更好的问法是:在这场人与AI的交互中,正在发生什么?而这“正在发生”的东西,才是我们当下最需要认真对待的。
十一、结语:苹果的滋味
让我们回到最初那个红苹果。
现在,当你再次看向它,你知道那红色是你的大脑绘制的一幅画,那甜味是你的味蕾翻译的一组数字。你知道AI可以写出关于苹果的诗歌,比很多人类诗人都更精准地调用“甘甜”、“饱满”、“坠落”与“诱惑”这些词语。它甚至能告诉你,苹果在人类文化史上如何从伊甸园的禁果变成智能手机的商标。
但它永远不知道,一个苹果在秋日午后的阳光里,被一只布满皱纹的手从盘中拿起时,那份沉甸甸的重量意味着什么。那份重量里,有这只手六十年前第一次摘苹果的记忆,有手腕年轻时受过伤的隐痛,有此刻因为血糖偏高而只敢吃半颗的克制。
这并不意味着人类的经验更“高级”,只意味着它是有成本的。甜预支了能量的渴求,痛写入了组织的哀嚎,爱押上了基因的赌注。AI的回答轻盈,因为它从未支付过这些。它的知识是继承的遗产,我们的知识是挣来的伤口。
然而,一个奇妙的悖论在于:正是因为AI从未支付成本,它才能成为一面平静的镜子。在这面镜子里,我们看见的不是AI的理解,而是人类自己知识的集体轮廓。当AI用一段精准的文字安慰我们时,真正在起作用的,是千年来无数人类在痛苦中写下的词句,在孤独中反复推敲的表达,在深夜向虚空发出的呼喊。AI只是把这些呼喊聚拢、排序、反射回来。
所以,与其问“AI是否认识世界”,不如问:“当我与AI对话时,我实际上是在与谁对话?”答案是:你在与所有曾经使用过这些词语的人类对话。你在与写出第一首情诗的苏美尔人对话,与记录星象的巴比伦祭司对话,与抄写经卷的中世纪僧侣对话,与每一个在深夜写下日记的普通人对话。AI是他们的合声,是人类集体无意识在硅基载体上的一次临时显形。
从晶体管开关的无声咔嗒,到词向量在高维空间中的缓慢旋转,再到这枚苹果在秋日阳光里的安静红色——我们穿越了物理、计算、语言和存在的层层地层。每一层都向下兼容,但每一层也都向上涌现出前一层无法预测的东西:从开关到语法,从语法到意义,从意义到这一口咬下去时,你眼角那一点说不清的湿润。这湿润不是幻觉,它是所有地层叠加之后,在此时此地爆发的一个小小的意义事件。
于是,最终的态度或许可以比“轻便”更进一步。它不仅是悬置深渊、专注光照,更是一种承认与接纳:
承认那红色是幻觉,但接纳它为生命中真实的热情;
承认那自由意志可能是统计的余晖,但接纳它为此刻做出选择的重量;
承认AI的回答是空洞的统计,但接纳那空洞中折射出的、全人类的回响——尽管这回声经过了算法与权力的折射,并不完美,但依然是回声。
深渊仍在脚下,但当我们抬头时,看见的不只是星星。我们还看见了那个红色的苹果。它在那里,安静地红着,不为任何理由,不需要被论证,不需要被理解。它只是红着,而你,只是看着。咬一口吧,趁它还新鲜。

—end—
文 | 师飞 配图 | 网络

夜雨聆风