心理学上有一个著名的发现,叫梅拉比安法则。
1971年,加州大学洛杉矶分校的Albert Mehrabian教授做了一系列实验,试图量化一件事:当一个人向另一个人传递情感和态度时,信息到底是怎么分布的?
结果出乎很多人的意料。
文字内容只占了7%。 语音语调占了38%。而表情和肢体语言,占了55%。
你想想看,如果把人类沟通中的表情抹掉,你接收到的情感信息直接砍半还不止。这也是为什么微信聊天那么容易被误解——字都在,表情没了。这也是为什么视频会议比电话会议更有「临场感」——你捕捉到了对方眉毛的微微一挑、嘴角的不自觉上扬。
表情,是人类情感沟通的主航道。
但这个发现引出了一个让人坐不住的问题:如果表情如此重要,那今天的AI,到底读懂了多少?
一、一道"读脸"的奥数题
坦率的讲,让AI读懂表情,比让AI下围棋难得多。
围棋的规则是确定的,棋盘是固定的,每一步的可能性虽然天文数字但终究可枚举。表情不一样。同一个人的同一个微笑,在不同文化里可能代表完全不同的东西。更麻烦的是,表情天然是模糊的——一个人在笑的同时可能在忍,在愤怒的同时可能在克制。人类自己有时候都说不清对方此刻到底什么情绪,你让机器来猜?
但学界还是前赴后继地扑了上去。
原因不复杂:这是情感计算领域最基础、也是数据最丰富的一条技术路线。 语音情感识别受限于语料库规模,生理信号情感识别受限于传感器普及度,只有表情识别——摄像头已经遍布手机、电脑、车载屏幕、安防设备。数据管道是通的,差的就是算法。
从2010年代开始,表情识别经历了三次范式跃迁。最早是手工设计特征——研究员们自己定义什么叫"嘴角上扬"、什么叫"眉毛紧锁",然后写规则去匹配。准确率徘徊在60%出头。后来深度学习入场,CNN自动从数据里学特征,一下子把准确率推到了80%以上。再到2023年,Transformer架构进入表情识别,利用注意力机制捕捉面部各区域之间的长距离依赖关系,把RAF-DB这个核心基准上的准确率拉过了92%。
不到六年,从80%到92%。 在高分段每爬一个点都越来越难的前提下,这个进步速度在任何AI子领域都算快。
但92%是一个什么样的水平?够用了吗?要看跟谁比。
二、四大考场,同一位"考官"
表情识别不是只有一个榜单。这个领域公认四个打榜基准,差异之大,本身就是一个故事。
RAF-DB是最主流的主赛场——3万张从互联网上抓取的面部照片,不限制光线、角度、是否遮挡。它考验的就是"野生环境"下的识别能力。AffectNet[1]规模更大,45万张,但标注质量明显更粗糙——很多照片的情绪标签本身就值得商榷。FERPlus正好相反,每张照片由10个人独立投票标注,标签质量是所有数据集中最高的,相当于"裁判最严的考场"。
把截至2026年6月主要方法在这四个数据集上的成绩摊开来看(数据来源:FERMam, Nature Sci Rep 2026):
| POSTER++ | 92.21 | 67.49 | 63.77 | ||
| FERMam | 91.68 | ||||
这张榜单上有几个细节值得注意。
POSTER++横扫三榜,但优势远没有到"独孤求败"的程度。 RAF-DB上92.21%,FERMam 2026年用更小的模型追到了92.13%——差了不到0.1个百分点。一个2023年的工作至今没有对手能全面超越,说明这件事的难度天花板比想象中高。
数据集之间的鸿沟,比模型之间的差距大得多。 同一个POSTER++,RAF-DB上92%,一到AffectNet 7类直接掉到67%,8类掉到63%。这不是算法崩了,是数据集的难度本身就差了量级。AffectNet规模更大、标注更粗糙、类别更多,对所有方法都公平地难。
轻量化路线在"裁判最严"的考场上实现了反超。 FERPlus上,2700万参数的FERMam打败了4300万参数的POSTER++。一个好的训练范式可能比单纯堆参数更有用——这个信号在2026年变得越来越清晰。
三、榜单背后,AI还在为什么挣扎
92%的准确率听起来不错,但如果把镜头拉近去看细分表现,问题立刻就出来了。
复合表情是最大的软肋。 目前所有主流方法在"高兴""惊讶"这类轮廓清晰的基本情绪上表现都不错,但一遇到"既愤怒又悲伤""表面平静内心翻涌"这种人类日常中最常见的情感状态,准确率断崖式下跌。背后的原因不是模型不够大,而是标注体系本身就没给这种中间地带留位置——你必须选一个标签,没有"各50%"的选项。
"稀有表情"几乎被忽略。 RAF-DB里"恐惧"类样本只有几百张,"厌恶"类更少。数据不平衡的问题在表情识别里比图像分类严重得多——你不能像收集猫狗图片一样去收集"恐惧的脸"。这导致模型在多数类上越练越好,少数类上原地踏步。
跨数据集泛化是老大难。 你在RAF-DB上训出来的模型,换到AffectNet上直接掉20个百分点。这不是过拟合,是两个数据集的图像来源、标注标准、类别定义有系统性差异。各家用各家的尺子,量出来的东西自然对不上。
好在2026年出了两个信号,说明学界开始正视这些"榜单之外"的问题。
第一个是变分推断的引入。2026年2月Nature Sci Rep上的一项工作,不再要求模型猜一个确定的标签,而是输出一个概率分布——"这张脸有40%的概率是高兴、35%是中性和、25%是悲伤"。这更接近人感知表情的真实方式,也说明模型终于开始承认一个前提:标注本身就不完美。
第二个是轻量化的实质性突破。2026年3月发表的FERMam用了Mamba的选择性状态空间模型,既能像Transformer一样捕捉面部各区域之间的长距离依赖,计算量又随输入线性增长而非平方爆炸。这个突破的落点很清晰:桌面设备、台灯、汽车座舱里直接跑一个92%准确率的表情识别模型,已经不再是天方夜谭。 当一个领域开始关心"模型能不能跑在台灯上"而不是"榜单能不能多零点几个点"的时候,通常说明它越过了从学术到产业的分界线。
四、大模型来了,局面变了
以上说的都是专用模型阵营的进展。但2025年以来一个不可回避的变量是:大模型进场了。
2025年11月,一项名为FerBench的系统评测在arXiv上发表,在RAF-DB和AffectNet上测试了20个多模态大模型。结果很说明问题。
表现最好的通用大模型InternVL3-38B,在RAF-DB上拿到78.68%。离专用模型POSTER++的92%差了14个百分点。GPT-4o更惨,只有22.88%。
这个结果其实不意外。大模型训练的时候,表情识别从来不是目标函数。它见过无数人脸照片,但它从没有被人要求过"告诉我这张脸是什么情绪"。零样本直接上阵,翻车是正常的。
但另一个发现更有趣。基于开源大模型Qwen2.5-VL做表情特化训练的UniFer-7B,在RAF-DB上拿到了88.72%。虽然还是没追平专用模型阵营,但这个差距已经从14个百分点缩小到了不到4个百分点。
这个结果说明了一条新路:用大模型的底座能力做情感特化,训练成本比从头造轮子低得多,效果正在逼近专用方案的SOTA。 这条路如果继续往下走,表情识别的入场门槛会持续降低,但做深做透的难度会持续抬高——能同时在多个数据集上稳定输出、能把模型压缩到边缘设备上跑的团队,正在积累一种很难追的复合能力。
五、冷静地看,接下来会怎样
几条线索放在一起,未来的轮廓是清晰的。
技术层面,复合表情和跨数据集泛化是接下来最硬的骨头。 这不是加几层Transformer就能解决的问题,需要标注体系本身的变革——从"非此即彼"的硬标签向概率分布迁移。变分推断开了个头,但远没到成熟。
落地层面,轻量化已经把门推开了。 当表情识别不再需要云端GPU的时候,应用场景会从手机App扩展到几乎一切带摄像头的设备。但这同时也把隐私问题推到了台前——你的台灯、你的汽车、你的电视,都在看你。
范式层面,大模型底座+情感特化大概率会成为主流路线。 从头训练专用模型的时代可能正在过去。未来的竞争力不在于能不能训练一个大模型,而在于手里有没有高质量的情感标注数据、能不能在特定场景里把模型调到最好。
把所有线索收拢到一起,有一条主线是最清楚的:表情识别正在从一门"纯学术手艺"变成一套"产业基础设施"。 当一个领域的头号玩家开始关心模型能不能跑在端侧、标签能不能反映真实世界的模糊性,而不是榜单能不能多零点几个点的时候,它就已经不在学术论文的范畴里了。
在更大的版图上,表情识别、语音情感、生理信号融合、情感推理——这些今天看起来各自独立的子任务——最终会汇入一个能真正理解人类情感的通用模型。谁在这条链路上掌握了最多的底层能力,谁就更接近那个终局。
而表情,是这条链路上被打磨得最久、数据最丰富、离产业最近的一环。 它不是一个已经解决的问题。它是一张还没打完的牌。
参考论文:FERMam (Nature Sci Rep 2026), Variational Inference for FER (Nature Sci Rep 2026), FerBench (arXiv 2511.00389, 2025)
榜单来源:whdeng.cn/RAF, paperswithcode.com
「可信情感计算」技术系列 · 第一篇
下一篇预告:多模态情感融合——当表情、声音、文本三个通道的信息不一致时,AI该信哪一个?
引用链接
[1]AffectNet: http://whdeng.cn/RAF/model1.html
夜雨聆风