【论文荐读】让AI学会“品甜”、“闻香”、“听曲”:如何从大语言模型中提取感知概念空间

Kumar, N., Chatterjee, U., & Schockaert, S. (2025). Extracting conceptual spaces from LLMs using prototype embeddings. In C. Christodoulopoulos, T. Chakraborty, C. Rose, & V. Peng (Eds.), Findings of the Association for Computational Linguistics: EMNLP 2025 (pp. 9275-9298). Association for Computational Linguistics.

Kumar等（2026）这篇论文探讨了如何让大语言模型（LLM）“理解”并量化一些抽象、主观的感知特征，比如食物的甜度、气味的强烈程度、音乐的忧伤感等。下面是对该文的介绍。

让AI学会“品甜”、“闻香”、“听曲”：如何从大语言模型中提取概念空间

AI能不能像人一样，判断出“香蕉比黄瓜甜”，或者“钢琴曲比电钻声更悦耳”？这不仅仅是让AI认识这些词汇，而是让它理解背后的感知维度——比如甜度、明亮度、愉悦感。在认知科学里，这种用几何空间来表示概念和实体之间关系的方法，被称为“概念空间”。简单说，就是把香蕉、苹果、蛋糕这些实体，放进一个多维度的坐标系里，每个维度代表一个感知特征（比如甜度、脆度）。

这个概念听起来很有意思，而且在“可解释AI”里很有用——如果AI能告诉你它判断“香蕉很甜”的依据是“甜度坐标”有多高，那它的决策过程就透明多了。但问题来了：怎么给AI建立这样的概念空间？传统的做法是让真人做海量的两两比较（比如“香蕉和苹果哪个更甜？”），但这种方式太慢、太贵、根本没法大规模应用。

一个大胆的念头：让LLM自己来

近几年，大语言模型（比如GPT-4、Llama）展现出了惊人的“常识”和“感知模拟能力”。比如你问它“香蕉和黄瓜哪个更甜？”，它能给出合理的答案。但如果你要它为成千上万的食物排一个“甜度排行榜”，你总不能一个个问吧？那会累死API接口的。

于是，论文的作者们提出了一个更聪明的思路：能不能直接从LLM生成的“实体嵌入”（也就是实体在LLM内心世界里的“数字画像”）中，读出它的感知属性？换句话说，能不能找到一个方向向量，用它和“香蕉”的嵌入做点积运算，结果就直接等于香蕉的“甜度值”？这样，我们就不用再问LLM“哪个更甜”，而是直接“算”出来。

原型嵌入：用“极致代表”定义特征

那么，怎么找到这个神奇的方向向量呢？一个很自然的想法是：把特征描述本身也变成一个嵌入。比如，想衡量“甜度”，我们就构建一个短语——“一种非常甜的食物”（称为“原型描述”）。然后，把这个短语也输入LLM，得到一个“原型嵌入”。最后，我们假设：某个实体（比如“香蕉”）的嵌入，与这个“甜味原型”的嵌入越相似，那它就越甜。

这个思路直觉上很美好，但实际操作时却碰了壁。预训练的LLM有个“小bug”：实体（如“香蕉”）的嵌入和原型描述（如“一种非常甜的食物”）的嵌入，不在同一个“语义子空间”里。打个比方，就像你用“米尺”量身高，却用“公斤秤”称体重——两者根本对不上。论文中Figure 1（图一律请见本文最后所附，后同）很直观地展示了这一点：在预训练模型里，实体和原型的点分布在两个不同的簇里。

微调：给LLM的“嵌入空间”校准一下

为了解决这个“子空间不匹配”的问题，研究者们采取了一个巧妙的办法：对LLM进行微调。他们用GPT-4o（一个更强大的模型）自动生成了一个小型的训练数据集。这个数据集包含123个属性，每个属性对应7个正例（符合该属性的实体）和4个负例（不符合的）。例如，对于“长河流”这个属性，正例有“尼罗河、亚马逊河、长江……”；负例有“短河流、干涸河流、小城市……”（注意“小城市”和河流完全不搭，用来防止模型学偏）。

然后，他们设计了一个分类损失函数，目标就是让“原型嵌入”和它对应的7个正例实体的“平均嵌入”尽可能接近，同时远离那4个负例。这就好比是让LLM学习一个“对齐规则”：以后你说“非常甜的食物”这个原型，它的嵌入就应该和“糖、蜂蜜、蛋糕”这些真实甜食的嵌入靠近。

此外，他们还加了一个排序损失函数，目的是让模型学会正确的相对顺序（比如“香蕉”的甜度嵌入应该大于“黄瓜”的）。最终，模型的总体损失就是这两个损失的加权和。经过这样一番“定向培养”，LLM终于能把实体和原型放在同一个“概念空间”里愉快地比较了（见Figure 1的下半部分）。

效果如何？不仅不差，甚至更好

为了验证这个名为ProtoSim（原型相似度）的方法到底行不行，作者们在多个数据集上进行了“盲测”。他们让模型预测不同实体的感知属性值（比如甜度、咸度、苦度、音乐的悲伤感等），然后和真人给出的评分做对比，看排序的一致性（准确率）。

结果令人满意：

ProtoSim表现优异：在很多维度上，ProtoSim的准确率超过了70%，甚至80%，尤其在“甜度”、“咸度”这些比较明显的感知维度上。

比“两两比较法”更实用且性能相当：之前的方法（一个个问“哪个更甜”）虽然准确率也不错，但计算成本高得离谱。而ProtoSim只需要一次嵌入计算，就能得出所有实体的分数，效率呈指数级提升。最关键的是，在多个数据集（如食物味道、音乐情感）上，ProtoSim的平均表现超越了这种缓慢的两两比较法。

微调是关键：如果不做微调，直接拿预训练模型算相似度，准确率只有可怜的50%多（相当于瞎猜）。而加入那个小型的分类数据集后，准确率一下子飙升到72%以上。这证明“对齐空间”这一步是神来之笔。

模型大小不是唯一：有意思的是，并不是模型越大效果越好。在某些任务上，8B参数的Llama3居然比24B的Mistral表现还好。这可能说明，对于感知特征，模型的“对齐能力”比纯粹的参数规模更重要。

不只能排序，还能打分：从“谁更甜”到“甜度几分”

ProtoSim还有一个隐藏技能：它不仅能给出排序，还能输出一个连续的具体数值（实体嵌入和原型嵌入的点积）。这个数值可以被直接解释为“甜度分数”。论文里展示了一个散点图（Figure 2），横坐标是模型预测的甜度，纵坐标是真人评分的甜度（来自590种食物）。结果发现，两者呈现出明显的正相关（皮尔逊相关系数高达0.752）。也就是说，模型不仅仅知道“香蕉比黄瓜甜”，它甚至能给香蕉打个“7.8分甜度”（假设满分为10）。当然，对于一些“中间态”食物（比如“加糖的咖啡”），模型有时也会“走眼”，但总体上相当靠谱。

存在的不足：不擅长“否定”，也会“望文生义”

任何研究都有局限性，这篇也不例外。作者们通过一个“食谱推荐”任务做了定性分析，发现ProtoSim有几个“软肋”：

“抓不住重点”：有时候模型会过于关注查询中的某一个词，而忽略了整体。比如问“富含抗氧化剂的沙拉”，模型却推荐了“富含维生素的奶昔”——它只看到了“抗氧化剂”和“维生素”的关联，忘了“沙拉”和“奶昔”的区别。

“太吃文字表面意思”：如果查询和选项有大量相同的词（比如“糙米甜点”），模型会倾向于选择包含“糙米”的选项，即使那个选项根本不是甜点（比如“糙米蘑菇饭”）。它被“词袋”迷惑了，没有真正理解语义。

“不懂否定词”：当查询中出现“不含……”时，模型基本就懵了。例如，“不含蔓越莓酱的感恩节晚餐”，它还是会正儿八经地推荐“火鸡配甜蔓越莓酱”。对于“无乳糖”、“不油腻”这类否定约束，它目前还很难从嵌入相似度中捕捉到。

总结：一条通往“可解释AI”的捷径

总的来说，这篇论文展示了一条非常实用的路径：我们不需要让LLM不厌其烦地回答无数个“哪个更X”的问题，而是可以通过“原型描述”和一个轻量级的微调，直接把LLM内部的知识蒸馏成一个结构清晰、维度可解释的“概念空间”。这样一来，我们不仅获得了实体的感知属性评分，效率还更高。虽然它目前还不太擅长处理否定和复杂的组合条件，但作为一项基础方法，它已经证明了自身的价值。未来，如果能结合线性映射或更好的否定处理机制，这种方法很可能成为AI理解人类主观感知世界的一把利器。