AI真的「懂」你说的话吗?双关语背后藏着一个更深的问题

AI真的「懂」你说的话吗?双关语背后藏着一个更深的问题
当你对AI说「这道菜真是要命的好吃」,它不会叫救护车,这说明它懂语言。但当你说「他这个人很圆滑」,它能感受到你语气里那点轻蔑吗?理解字面意思和理解语言,是两件完全不同的事。
有一个测试语言模型的经典方式:给它讲一个冷笑话,然后问「你觉得这个笑话好笑吗」。几乎所有模型都会说「好笑」,然后解释笑点在哪里。但它说「好笑」的时候,和你真正笑出来的那一刻,中间隔着一条很深的沟。这条沟的名字,叫做语言的多义性。
双关语,是语言的压缩炸弹
双关语在语言学里有个更正式的名字:语义歧义。一个词,同时携带两种以上的意思,哪种意思是「真正的意思」,取决于语境、说话人的意图,以及听者的文化背景。比如英语里那个著名的例子:「Time flies like an arrow; fruit flies like a banana.」这句话可以被解析成至少三种不同的语法结构,每种结构意思都不一样。对人类来说,第一次读到会愣一下,然后恍然大悟,然后觉得有趣。这个「愣一下」的瞬间,其实是大脑在快速排列组合所有可能的解释,然后选出最合理的一个。
早期的自然语言处理系统对付这类问题的方式很笨:穷举规则。程序员手动列出一个词的所有可能含义,再列出所有可能的消歧规则。遇到新的双关就崩。这条路走到尽头,是一堵叫做「组合爆炸」的墙——语言里的歧义太多,规则永远写不完。
现代AI的破局方式:用概率替代规则
大语言模型换了一条路。它不试图「理解」每个词的意思,而是学习:这个词在什么位置跟什么词一起出现。训练数据里「苹果」和「手机」同时出现的次数,远多于「苹果」和「水果摊」同时出现的次数——当你说「苹果发布会」,模型会自动往科技方向靠。这不是真正的理解,这是统计上的猜测。但猜测的准确率高得惊人,高到让人产生「它懂了」的错觉。
1536
GPT类模型中,每个词被编码成的向量维度数(以某版本为例),每个维度都在捕捉语义的某一个侧面
隐喻的处理方式类似,但更复杂。「他是一头狮子」,没有人真的以为在说动物学。大脑会自动完成从字面意思到隐喻意思的跳跃,这个跳跃背后是几十年的文化积累。语言模型在海量文本里见过足够多的「他是一头狮子」之后,也学会了这个跳跃。但这里有个微妙的陷阱:它学会的是「这个表达通常用来夸人勇猛」,而不是真正理解「勇猛」这个概念和「狮子」这个动物之间的联系为什么成立。
「
语言模型学的是语言的影子,而不是影子背后的那个人
」
它真正卡住的地方:新鲜的隐喻和文化私货
现有AI处理语言的短板,在两类情况下会暴露得很彻底。第一类是全新创造的隐喻。训练数据里没见过的比喻方式,模型会直接按字面处理,或者给出一个奇怪的解释。有人曾经用「他的笑容是一把瑞士军刀」测试过几个主流模型,得到的回答五花八门,大多数都在努力解释「多功能」这个角度,但完全错过了这个比喻里那种隐隐的锋利感。
第二类是文化私货,尤其是小圈子黑话和时代性语言。「绷不住了」「栓Q」「这也太顶了」,这些词的真实含义不在词典里,在某一代人的集体记忆里。语言模型如果训练数据里这类语料不够,就会闹笑话。更麻烦的是,这类语言更新速度极快,今天的新词,明年可能已经是老梗。模型的训练是有截止日期的,语言却不停着。
一个更值得问的问题
1统计规律可以模拟理解,但无法替代理解
2语言的意义不只存在于文本里,还存在于使用语言的人和他们的生活里
3AI处理语言的边界,本质上是人类语言复杂性的一面镜子
但这里有个反直觉的地方:我们也许高估了「真正理解」的门槛。人类在处理语言的时候,同样在做大量的统计推断。你之所以能秒懂「这道题把我整不会了」,不是因为你对语言有什么神圣的领悟,而是因为你在特定的语言环境里泡了足够长的时间,积累了足够多的模式。从这个角度看,人和模型的区别不是「理解」vs「不理解」,而是训练数据的来源不同——一个来自生活,一个来自文本。
●语言理解的本质,可能比我们想象的更「机械」——只是人类的「机械」运行了二十几年,已经快到感觉不出来了
这不是在替AI辩护,也不是在贬低人类语言能力。这是一个值得认真对待的问题:当我们说AI「不懂」双关语和隐喻,我们到底在说它缺少什么。是计算能力?是数据?是某种我们暂时还描述不清楚的东西?如果是第三种,那这个问题的答案,可能不只是AI领域的问题,而是语言学、认知科学,甚至哲学共同需要面对的问题。
✦ 小结
AI处理双关语和隐喻的方式,本质上是用统计概率模拟语义直觉。它能猜对大多数情况,但在新鲜隐喻和文化语境面前会露馅。更有趣的问题不是「AI懂不懂语言」,而是:我们所谓的「懂」,究竟是什么。
夜雨聆风