社交媒体里成千上万张图,AI现在能帮我们自动分类了?

本文共2100字，阅读需4-5分钟。

不知道你有没有发现，现在刷社交媒体，比文字更“抓人”的往往是图片：讨论气候变化时，有人发太阳能板照片，有人做了呼吁可再生能源的海报，还有人用表情包玩梗；说起街头抗议，不同活动的标语、logo千差万别，但传递的核心诉求可能是一致的。

对于研究网络舆论、社会传播的学者来说，这些图片里藏着大量公共讨论的密码，但要把成千上万张图片按「表达的意思」自动分类，曾经是个大难题。最近来自哥本哈根信息技术大学和乌普萨拉大学的研究团队就解决了这个问题：用现在大火的多模态大语言模型（就是能看懂图片的大模型，比如GPT-4V）给图片先写“语义说明”，再做分类，效果比传统方法好太多，还能自动给分类结果起主题名，普通人也能看懂。

原来以前的图片分类，“看错”了太多意思

要理解新方法好在哪，得先说说以前的方法有什么问题。

过去给大批量图片自动分类，靠的是卷积神经网络（CNN），简单说就是靠AI提取图片的视觉特征：有什么形状、什么颜色、有哪些物体，再把长得像的图片归到一起。

这种方法分“长得像”的东西没问题，但如果我们关心的是「这张图要表达什么意思」，就容易出错了：

-太阳能板、风力发电机、印着“发展可再生能源”的文字海报，视觉上长得完全不一样，但在气候传播研究里，它们都是讲“可再生能源”这个主题，应该归到一类，可传统方法会把它们分到不同的簇里；

-反过来，一张印着地球的素食宣传图，和一张印着地球的气候数据图，视觉上都是“蓝色星球”，会被传统方法归成一类，可两者表达的意思完全不沾边。

说白了，传统方法只能看懂图片“表面有什么”，看不懂图片“背后要说什么”——而恰恰是这个“背后的意思”，才是社会科学研究最关心的内容。更麻烦的是，传统方法分完类，我们也不知道每个类到底是什么主题，得人工一张一张看才能总结，成千上万张图要花大量的时间，完全是“黑箱”。

换个思路：让大模型先给图片写一段说明，再分类

这次研究提出的新思路说起来其实很简单：既然大模型已经能看懂图片，还能把看懂的内容写成文字，那我们何不先让大模型当“翻译”，把图片里要表达的内涵意思转成文字，再对文字做分类？

整个流程是这样的：

1.把图片喂给能看懂图的大语言模型（VLLM），让它用一段话描述这张图要表达的内涵意思；

2.把大模型写出来的文字转成文字向量，再做降维、聚类；

3. 对每个聚类里所有的描述做关键词提取，直接就能得到这个类的主题标签，比如“可再生能源”“塑料污染”“气候变化抗议”，完全不用人工总结。

为了验证这个方法是不是真的更好，研究团队找了1万多张社交媒体上的气候变化相关图片，一边用新方法分类，一边用传统方法做对照，结果差别非常明显。

新方法好在哪？你看完例子就懂

这次研究对比出来的结果，完全符合我们的预期：

在“按意思分类”这件事上，新方法的准确率是传统方法的两倍多。传统方法分出来的类，往往是“长得像但意思不一样”，而新方法哪怕图片长得完全不一样，只要核心意思一致就能归到一起。

就像我们前面举的例子：传统方法把所有带地球图案的图凑成一堆，里面什么主题都有；而新方法把太阳能板、风力发电机、文字海报凑成一堆，全都是讲可再生能源，语义整齐得惊人。

当然，新方法也不是没有“牺牲”：在“按物体外观分类”这件事上，它比传统方法略差一点，但这个差距非常小，而它在“按意思分类”上的提升要大得多——对于我们要研究社会传播、公共舆论来说，当然是“意思分对”比“长得像分对”重要得多。

更惊喜的是可解释性：研究人员让三个完全没接触过这些数据的人，只靠算法自动生成的主题关键词，把随机抽的图片组匹配到对应分类，准确率居然达到了83%，远高于瞎猜的3%。也就是说，算法分完类，你不用看图片就大概知道每个类在讲什么，太省心了。

当然研究也发现了一个要注意的点：这个方法对“最小聚类规模”这个参数比较敏感，如果要求每个类必须足够大，就会把本来意思不同的类强行凑在一起，反而降低质量。所以如果要找细分的主题，设置比较小的最小类规模就好。

这个方法不止对学者有用

看到这你可能会说，这不是给学者用的研究方法吗？和我有什么关系？其实不然，这个方法的应用场景比你想的多得多：

- 对舆情监测来说，很多带隐喻、梗的违规视觉内容，比如换了皮肤的仇恨符号、改了图案的不良信息，传统方法识别不出来，新方法能靠语义精准聚类，更快批量发现；

- 对品牌营销来说，要整理社交平台上用户发的相关内容图片，新方法能自动按用户表达的情绪、主题分类，更快摸清用户的讨论倾向；

-对内容平台来说，也能用这个方法更快整理不同主题的视觉内容，做内容推荐也会更精准。

当然，目前这个方法还只是在气候变化传播的数据集里做了验证，未来还要在更多场景、更多语言文化下测试，也需要适配开源大模型降低使用门槛。但不可否认的是，这个思路打开了大规模视觉内容分析的新方向：原来不用让AI在像素里猜意思，让AI先把意思翻译成人类语言，一切就都清晰了。

参考资料：Leveraging VLLMs for Visual Clustering: Image-to-text mapping shows increased semantic capabilities and interpretability（https://doi.org/10.31235/osf.io/bf459）

声明：本公众号发布的心理学论文内容仅用于科普，不构成任何医疗建议。禁止曲解、断章取义本内容，未经授权禁止商业转载。科研成果不保证内容绝对完整准确，读者请理性参考。