表情识别,AI离读懂你的脸还有多远?|可信情感计算技术篇 ①

心理学上有一个著名的发现，叫梅拉比安法则。

1971年，加州大学洛杉矶分校的Albert Mehrabian教授做了一系列实验，试图量化一件事：当一个人向另一个人传递情感和态度时，信息到底是怎么分布的？

结果出乎很多人的意料。

文字内容只占了7%。 语音语调占了38%。而表情和肢体语言，占了55%。

你想想看，如果把人类沟通中的表情抹掉，你接收到的情感信息直接砍半还不止。这也是为什么微信聊天那么容易被误解——字都在，表情没了。这也是为什么视频会议比电话会议更有「临场感」——你捕捉到了对方眉毛的微微一挑、嘴角的不自觉上扬。

表情，是人类情感沟通的主航道。

但这个发现引出了一个让人坐不住的问题：如果表情如此重要，那今天的AI，到底读懂了多少？

一、一道"读脸"的奥数题

坦率的讲，让AI读懂表情，比让AI下围棋难得多。

围棋的规则是确定的，棋盘是固定的，每一步的可能性虽然天文数字但终究可枚举。表情不一样。同一个人的同一个微笑，在不同文化里可能代表完全不同的东西。更麻烦的是，表情天然是模糊的——一个人在笑的同时可能在忍，在愤怒的同时可能在克制。人类自己有时候都说不清对方此刻到底什么情绪，你让机器来猜？

但学界还是前赴后继地扑了上去。

原因不复杂：这是情感计算领域最基础、也是数据最丰富的一条技术路线。 语音情感识别受限于语料库规模，生理信号情感识别受限于传感器普及度，只有表情识别——摄像头已经遍布手机、电脑、车载屏幕、安防设备。数据管道是通的，差的就是算法。

从2010年代开始，表情识别经历了三次范式跃迁。最早是手工设计特征——研究员们自己定义什么叫"嘴角上扬"、什么叫"眉毛紧锁"，然后写规则去匹配。准确率徘徊在60%出头。后来深度学习入场，CNN自动从数据里学特征，一下子把准确率推到了80%以上。再到2023年，Transformer架构进入表情识别，利用注意力机制捕捉面部各区域之间的长距离依赖关系，把RAF-DB这个核心基准上的准确率拉过了92%。

不到六年，从80%到92%。 在高分段每爬一个点都越来越难的前提下，这个进步速度在任何AI子领域都算快。

但92%是一个什么样的水平？够用了吗？要看跟谁比。

二、四大考场，同一位"考官"

表情识别不是只有一个榜单。这个领域公认四个打榜基准，差异之大，本身就是一个故事。

RAF-DB是最主流的主赛场——3万张从互联网上抓取的面部照片，不限制光线、角度、是否遮挡。它考验的就是"野生环境"下的识别能力。AffectNet^[1]规模更大，45万张，但标注质量明显更粗糙——很多照片的情绪标签本身就值得商榷。FERPlus正好相反，每张照片由10个人独立投票标注，标签质量是所有数据集中最高的，相当于"裁判最严的考场"。

把截至2026年6月主要方法在这四个数据集上的成绩摊开来看（数据来源：FERMam, Nature Sci Rep 2026）：

方法	年份	RAF-DB	AffectNet (7类)	AffectNet (8类)	FERPlus
POSTER++	2023	92.21	67.49	63.77	—
FERMam	2026	92.13	66.38	61.45	91.68
POSTER	2023	92.05	67.31	63.34	91.62
TransFER	2021	90.91	66.23	—	90.83
MRAN	2023	90.03	66.31	62.48	89.59
FG-AGR	2023	90.81	64.91	60.69	91.09
SCN	2020	87.03	—	60.23	89.39

这张榜单上有几个细节值得注意。

POSTER++横扫三榜，但优势远没有到"独孤求败"的程度。 RAF-DB上92.21%，FERMam 2026年用更小的模型追到了92.13%——差了不到0.1个百分点。一个2023年的工作至今没有对手能全面超越，说明这件事的难度天花板比想象中高。

数据集之间的鸿沟，比模型之间的差距大得多。 同一个POSTER++，RAF-DB上92%，一到AffectNet 7类直接掉到67%，8类掉到63%。这不是算法崩了，是数据集的难度本身就差了量级。AffectNet规模更大、标注更粗糙、类别更多，对所有方法都公平地难。

轻量化路线在"裁判最严"的考场上实现了反超。 FERPlus上，2700万参数的FERMam打败了4300万参数的POSTER++。一个好的训练范式可能比单纯堆参数更有用——这个信号在2026年变得越来越清晰。

三、榜单背后，AI还在为什么挣扎

92%的准确率听起来不错，但如果把镜头拉近去看细分表现，问题立刻就出来了。

复合表情是最大的软肋。 目前所有主流方法在"高兴""惊讶"这类轮廓清晰的基本情绪上表现都不错，但一遇到"既愤怒又悲伤""表面平静内心翻涌"这种人类日常中最常见的情感状态，准确率断崖式下跌。背后的原因不是模型不够大，而是标注体系本身就没给这种中间地带留位置——你必须选一个标签，没有"各50%"的选项。

"稀有表情"几乎被忽略。 RAF-DB里"恐惧"类样本只有几百张，"厌恶"类更少。数据不平衡的问题在表情识别里比图像分类严重得多——你不能像收集猫狗图片一样去收集"恐惧的脸"。这导致模型在多数类上越练越好，少数类上原地踏步。

跨数据集泛化是老大难。 你在RAF-DB上训出来的模型，换到AffectNet上直接掉20个百分点。这不是过拟合，是两个数据集的图像来源、标注标准、类别定义有系统性差异。各家用各家的尺子，量出来的东西自然对不上。

好在2026年出了两个信号，说明学界开始正视这些"榜单之外"的问题。

第一个是变分推断的引入。2026年2月Nature Sci Rep上的一项工作，不再要求模型猜一个确定的标签，而是输出一个概率分布——"这张脸有40%的概率是高兴、35%是中性和、25%是悲伤"。这更接近人感知表情的真实方式，也说明模型终于开始承认一个前提：标注本身就不完美。

第二个是轻量化的实质性突破。2026年3月发表的FERMam用了Mamba的选择性状态空间模型，既能像Transformer一样捕捉面部各区域之间的长距离依赖，计算量又随输入线性增长而非平方爆炸。这个突破的落点很清晰：桌面设备、台灯、汽车座舱里直接跑一个92%准确率的表情识别模型，已经不再是天方夜谭。 当一个领域开始关心"模型能不能跑在台灯上"而不是"榜单能不能多零点几个点"的时候，通常说明它越过了从学术到产业的分界线。

四、大模型来了，局面变了

以上说的都是专用模型阵营的进展。但2025年以来一个不可回避的变量是：大模型进场了。

2025年11月，一项名为FerBench的系统评测在arXiv上发表，在RAF-DB和AffectNet上测试了20个多模态大模型。结果很说明问题。

表现最好的通用大模型InternVL3-38B，在RAF-DB上拿到78.68%。离专用模型POSTER++的92%差了14个百分点。GPT-4o更惨，只有22.88%。

这个结果其实不意外。大模型训练的时候，表情识别从来不是目标函数。它见过无数人脸照片，但它从没有被人要求过"告诉我这张脸是什么情绪"。零样本直接上阵，翻车是正常的。

但另一个发现更有趣。基于开源大模型Qwen2.5-VL做表情特化训练的UniFer-7B，在RAF-DB上拿到了88.72%。虽然还是没追平专用模型阵营，但这个差距已经从14个百分点缩小到了不到4个百分点。

这个结果说明了一条新路：用大模型的底座能力做情感特化，训练成本比从头造轮子低得多，效果正在逼近专用方案的SOTA。 这条路如果继续往下走，表情识别的入场门槛会持续降低，但做深做透的难度会持续抬高——能同时在多个数据集上稳定输出、能把模型压缩到边缘设备上跑的团队，正在积累一种很难追的复合能力。

五、冷静地看，接下来会怎样

几条线索放在一起，未来的轮廓是清晰的。

技术层面，复合表情和跨数据集泛化是接下来最硬的骨头。 这不是加几层Transformer就能解决的问题，需要标注体系本身的变革——从"非此即彼"的硬标签向概率分布迁移。变分推断开了个头，但远没到成熟。

落地层面，轻量化已经把门推开了。 当表情识别不再需要云端GPU的时候，应用场景会从手机App扩展到几乎一切带摄像头的设备。但这同时也把隐私问题推到了台前——你的台灯、你的汽车、你的电视，都在看你。

范式层面，大模型底座+情感特化大概率会成为主流路线。 从头训练专用模型的时代可能正在过去。未来的竞争力不在于能不能训练一个大模型，而在于手里有没有高质量的情感标注数据、能不能在特定场景里把模型调到最好。

把所有线索收拢到一起，有一条主线是最清楚的：表情识别正在从一门"纯学术手艺"变成一套"产业基础设施"。 当一个领域的头号玩家开始关心模型能不能跑在端侧、标签能不能反映真实世界的模糊性，而不是榜单能不能多零点几个点的时候，它就已经不在学术论文的范畴里了。

在更大的版图上，表情识别、语音情感、生理信号融合、情感推理——这些今天看起来各自独立的子任务——最终会汇入一个能真正理解人类情感的通用模型。谁在这条链路上掌握了最多的底层能力，谁就更接近那个终局。

而表情，是这条链路上被打磨得最久、数据最丰富、离产业最近的一环。 它不是一个已经解决的问题。它是一张还没打完的牌。

参考论文：FERMam (Nature Sci Rep 2026), Variational Inference for FER (Nature Sci Rep 2026), FerBench (arXiv 2511.00389, 2025)
榜单来源：whdeng.cn/RAF, paperswithcode.com

「可信情感计算」技术系列 · 第一篇
下一篇预告：多模态情感融合——当表情、声音、文本三个通道的信息不一致时，AI该信哪一个？

引用链接

[1]AffectNet: http://whdeng.cn/RAF/model1.html