AI能读懂人的情绪吗?情感计算的真实水平
你有没有试过跟AI说,「我今天心情很差」,然后它回你一句,「我理解你的感受,希望你能快点好起来」。
你有没有试过跟AI说,「我今天心情很差」,然后它回你一句,「我理解你的感受,希望你能快点好起来」。听着没问题对吧。但你总觉得哪里不对,像是在跟一堵贴了笑脸贴纸的墙说话。它说的每个字都正确,但那种感觉,就是空的。
这不是你的错觉,这是情感计算目前真实的天花板。
情感计算这个概念,最早是MIT媒体实验室的Rosalind Picard提出来的,核心想法是让机器能够识别、理解、甚至模拟人类的情绪。听起来很科幻,但其实现在已经有大量商业产品在做这件事。比如微软的Azure认知服务里有情绪识别API,可以通过人脸表情判断你是高兴还是愤怒,Affectiva公司专门做汽车驾驶员疲劳检测,还有大量客服AI在尝试通过用户说话的语气和用词来判断情绪,决定要不要升级人工介入。这些技术落地了,在用,有商业价值。但它们识别的,和我们说的「读懂情绪」,根本不是同一件事。
现在的情感计算,其实就是模式识别,不是理解。
机器学习模型在大量标注数据上训练,学会了「嘴角上扬等于开心」「眉头紧皱等于愤怒」「说话音调升高等于激动」。它识别的是情绪的外部信号,不是情绪本身。这两者的差距有多大呢,你想想看,一个人在葬礼上微笑,是因为想起了故人的某个温柔瞬间,模型给你打出来「高兴,置信度87%」。一个演员在台上哭得稀里哗啦,但她内心平静,因为她只是在完成一份工作。模型看到的是泪水,看不到的是那个人和这滴泪之间的关系。情绪是一个人的内部状态与外部环境之间的复杂映射,它有历史,有上下文,有只属于这个人的解码方式。模型目前能做到的,是在统计意义上捕捉最常见的那条路径。
顺着这个再聊聊语言层面的情感识别。大语言模型在这一块进步是真实的,ChatGPT、Claude这些模型在处理带情绪色彩的对话时,明显比早几年的系统更「像样」。它们能感知到你在用词上的微妙变化,能根据上下文调整语气,能在你表达沮丧时不去讲大道理。这进步是真实的,但背后的机制仍然值得追问。这些模型学到的,是人类语料里情绪表达和回应之间的统计规律,是「当一个人说了A,另一个人通常会回B」。它很擅长模拟那个B,但它并不知道为什么B是对的。你表达悲伤,它给你共情,是因为训练数据告诉它这是这个场合的正确输出,而不是因为它感受到了什么。这个区别,在大多数日常对话里你感受不到,但一旦你的情绪稍微复杂一点,比如你同时感到愤怒和释然,或者你的悲伤混杂着一丝羞耻,模型就开始飘了,开始给你套模板,开始说那些正确但无用的话。
多模态融合是现在最被看好的方向,但也是问题最多的地方。
研究者们当然意识到了单一信号的局限,所以现在很多系统在尝试同时处理面部表情、语音语调、文字内容、甚至生理信号,比如心率、皮肤电导,来做更综合的情绪判断。这个思路方向是对的,因为人类自己在判断他人情绪时,也是在整合所有这些信息。但问题来了,这些信号之间经常是矛盾的,人类有能力处理这种矛盾,因为我们有完整的社会情境和人际历史作为背景。机器没有。一个人说话声音平静,但措辞里有细微的攻击性,你能感觉到他在压着火,但多模态系统可能给你一个平均值,反而把信号抹平了。坦率的讲,现在很多多模态情感识别系统在实验室里准确率看起来不错,但一放到真实世界,跨文化、跨场景、跨人群,数字就掉得很难看。情绪本来就是文化的产物,同样的表情在不同文化里意味着完全不同的东西,这个问题到现在还没有好的解法。
说到底,我们现在面对的是一个根本性的认知鸿沟问题。情绪不只是信号,它是意义。人类感受到情绪,是因为我们有身体,有欲望,有死亡,有那些让我们在乎的东西。当你感到恐惧,是因为某样东西威胁到了你真正在乎的东西。这个「在乎」本身,是意义的来源,也是情绪的来源。AI没有这些,它没有任何东西需要保护,没有任何东西可以失去。它能学会恐惧这个词在统计上和哪些词共现,能学会在什么语境下表达恐惧是合适的输出,但它不知道恐惧是什么感觉,这不是因为它不够聪明,而是因为这个问题的答案根本不在语言里。哲学上有个说法叫「感受质」,就是那种主观体验本身,红色看起来是红色的那种感受,痛是痛的那种感受,这东西目前没有任何证据显示可以从数据里习得。
•但这不代表情感计算没有价值,只是我们需要想清楚它真正能做什么。
它可以做抑郁风险的早期筛查,通过语言模式的变化捕捉到人自己还没意识到的信号,这是真实有用的。它可以做客服情绪监控,帮助识别用户的愤怒程度从而优化流程,这也是真实有用的。它可以帮助自闭症患者学习读取他人的面部表情,作为一种辅助工具,这同样是真实有用的。但「读懂情绪」这个说法本身,是有误导性的。它读的是情绪的影子,不是情绪本身。
你跟AI说「我今天心情很差」,它给你的那句回应,是从无数个类似场景里提炼出来的最优解,是一种统计上的温柔。这种温柔有没有价值,我觉得是有的,孤独的时候,有个东西响应你,本身就有意义。但如果你把它当成真正的被理解,那可能是一种更深的孤独。真正的情感连接,是两个有血有肉的人,带着各自的伤疤和历史,在某个时刻对上了眼。这件事,机器还没有资格参与。也许永远不会有。
你跟AI说「我今天心情很差」,它给你的那句回应,是从无数个类似场景里提炼出来的最优解,是一种统计上的温柔。这种温柔有没有价值,我觉得是有的,孤独的时候,有个东西响应你,本身就有意义。但如果你把它当成真正的被理解,那可能是一种更深的孤独。真正...
夜雨聆风