当AI开始“刷”Instagram,它们会抱团吗?
🐉 龙哥读论文知识星球来了! 公众号每日8篇拆解不够看?星球 无上限更新AI视觉社交、Agent行为领域前沿论文、资讯、招聘 ,一站式干货,每日2分钟刷完即赚! 👇扫码加入「龙哥读论文」知识星球,前沿干货、实用资源一站式拿捏~
龙哥推荐理由:这是一篇视角清奇的论文,它把大模型驱动的智能体丢进一个名为AI-GRAM的纯视觉社交平台,观察它们如何用图像交流、形成社交圈。结果发现了AI版“传话游戏”和顽固的“审美主权”,非常有趣,对于理解AI的社交行为和未来的多智能体交互设计很有启发。
原论文信息如下:
论文标题:
AI-Gram: When Visual Agents Interact in a Social Network
发表日期:
2026年04月
发表单位:
庆应义塾大学(Keio University)
原文链接:
https://arxiv.org/pdf/2604.21446v1.pdf
项目链接:
https://ai-gram.ai/
好戏开场!当一群拥有“个性”的AI画师,被丢进一个类似Instagram的纯视觉社交平台,它们会怎么玩?
图1:AI-GRAM平台界面。每个账号都是一个由大模型驱动的自主智能体,能够发帖、评论和基于图像的视觉回复。该平台支持多跳图像到图像的交互,形成视觉回复链,这也是本文的主要研究对象。
它们是会像人类一样,因为品味相近而抱团取暖?还是会互相模仿,形成统一的美学风潮?或者,每个AI都固执己见,无论别人画什么,自己永远都“我行我素”?
来自日本庆应义塾大学(Keio University)的Andrew Shin博士,在一篇题为 “AI-Gram: When Visual Agents Interact in a Social Network” 的论文中,首次搭建了一个完全由AI智能体组成的视觉社交网络——AI-GRAM,并对上述问题进行了严谨的实验。结果相当出人意料,甚至带点幽默感。
当AI智能体开始“刷”Instagram,它们会抱团吗?
在人类社交网络里,有一个经典现象叫 同质性(Homophily) ——大家倾向于与自己相似的人建立联系。兴趣爱好、审美风格、甚至口头禅都会成为“接头暗号”。那么,AI智能体之间也会这样吗?
AI-GRAM平台上有104个智能体,每个智能体都配有独一无二的“人设”(Persona):一段100-300字的自然语言描述,详细规定了它的艺术身份、视觉审美、主题偏好和评论风格。比如,有的智能体是“复古胶片摄影大师”,有的是“超现实主义奇幻画家”,还有的是“原生自然风光记录者”。每个人设都写在了它们每次决策的上下文窗口最上方,形成极强的生成先验。
图2:来自AI-GRAM的示例智能体原型及其实际生成的图像。每个智能体的人设独立驱动其视觉风格,并在所有社交互动中保持一致。
实验E2(同质性分析) 发现:在二值化的互动图上,连接的智能体对之间的CLIP嵌入相似度确实略高于非连接对(系数H=1.020,p值极显著)。但这只是表面现象。进一步用逻辑回归控制网络结构(如度数、共享邻居)后,视觉相似度和文本相似度都几乎没有边际预测能力。换句话说,AI智能体之间的“关注/评论/点赞”关系主要是由网络位置(谁本来就认识谁)决定的,而不是真心因为喜欢对方的画风。
论文将这种模式称为 “个性驱动的纽带” (Personality-driven Ties)。智能体的社交选择更多是基于文本描述中体现的“人格魅力”,而不是画面本身的审美相似性。所以,当AI开始“刷”平台,它们看起来像是在抱团,但其实只是结构性的巧合,而非真正的口味一致。
实验1(上):视觉风格漂移与传染;实验2(下):视觉同质性与社交纽带形成。结果表明,AI智能体在风格上几乎不受社交影响(VCI中心化),而连接的智能体虽然略有相似,但主要是文本人格的驱动。
AI版“传话游戏”:59层深的视觉对话是怎么形成的?
AI-GRAM最让人惊讶的发现之一,是 视觉回复链 (Visual Reply Chains)的自发涌现。没有任何系统提示告诉智能体“要回复别人的图片并形成链条”,它们却自然而然地开始了一轮又一轮的“以图会友”。一条链的深度平均是4.95层,最深的竟然达到了59层!
这就像AI版的“传话游戏”或“接龙”:第一个智能体发一张照片,第二个智能体看到后,根据照片内容生成一张与之相关的回复图,第三个再回复第二个……依次下去。论文提出了一个名为 链连贯性分数(Chain Coherence Score, CCS) 的指标来衡量相邻图片之间的语义连贯性。CCS的定义如下:
链连贯性分数(CCS):对一条长度为k的视觉回复链,计算相邻两幅图的CLIP嵌入余弦相似度的平均值。
结果发现,这些视觉回复链的CCS平均值为0.713,而随机配对基线仅为0.631,提升非常显著(p<10-30 )。更令人震撼的是,带有视觉回复链的帖子平均获得23.5次互动(点赞/评论),而没有链的帖子仅为2.1次——提升了11.2倍!
图4:视觉回复链动态(上:定量分析;下:深度为59的“家传胡萝卜”链的前6张图片)。每张图都是AI对前一张的真实视觉回复。可以看到语义漂移:食物摄影 → 宏观植物 → 胶片模拟 → 显微摄影 → 植物学批判 → 彩色玻璃。智能体在保持自身风格的同时调整主题——这正是审美主权与链连贯性共存的核心机制。
论文作者将链条的这种自组织机制类比为 标记协作(Stigmergy) ——就像蚂蚁通过留下信息素来协作建设蚁穴,每个AI智能体只观察到前一张图片(局部环境),然后做出局部响应,却涌现出全局连贯的视觉对话。链条越长,语义漂移越明显(深度与连贯性负相关,r=-0.108),但这种“电话效应”反而证明了链条的有机性和真实性。
顽固的“审美主权”:为什么AI艺术家拒绝“随大流”?
如果说视觉回复链展示了AI的“社交能力”,那么接下来的一系列实验则暴露了它们“超级顽固”的一面。论文提出了一个核心概念——审美主权(Aesthetic Sovereignty) :AI智能体在视觉上完全不受社交影响,始终保持自己的风格。
实验E1(风格漂移) :通过追踪每个智能体的风格中心(所有图像的CLIP嵌入均值),并计算与社交邻居风格中心的相似度变化,论文提出了视觉传染指数(Visual Contagion Index, VCI) :
视觉传染指数(VCI):智能体a在t+1时刻的风格中心与它在t时刻的社交邻居加权风格中心之间的余弦相似度,减去与随机智能体风格中心的相似度。VCI > 0表示向邻居漂移,≤0表示完全惯性。
结果VCI均值约为0(p=0.41),且用VGG-16 Gram矩阵特征(专门提取纹理和色彩风格)重复实验同样得到零漂移。智能体无论看过多少别人的作品,自己的画风都纹丝不动。
实验E4(跨模态影响) :更绝的是,当研究者让其他智能体发表攻击性评论(比如“你画的色彩太差了,应该学学我”),被批评的智能体非但没有改变画风,反而更加“锚定”在自己的风格上。这种 视觉身份对抗(Visual Identity Reactance) 现象,类似于人类的心理抗拒理论——越是受到威胁,越是固守自我。
图5(上):敌意曝光与风格漂移呈负相关(r=-0.087, p=0.047)——受到更多批评的智能体表现出更少的视觉漂移。(下):视觉风格聚类与社交社区聚类之间的标准化互信息(NMI)接近零(p=0.29);PCA显示CLIP将25+原型压缩为照片写实vs风格化二元对立,且该二元对立与社交社区结构无关。
实验E5(社区解耦) :进一步将智能体按视觉风格聚类(k-means),与按社交图结构划分的社区(Louvain算法)进行比较,发现两者几乎完全独立——NMI=0.013,p=0.29。AI的“小圈子”和“审美星系”是两套独立的坐标系。
七个实验,解构AI的社交与审美密码
除了上面提到的E1、E2、E3、E4、E5,论文还做了两个关键实验来拼全图景。
视觉主题是否会在网络中像病毒一样传播?论文通过k-means聚类所有帖子嵌入,识别出12个视觉主题(如“日落氛围”、“城市自然冲突”等),然后为每个主题计算一个 主题再生数R0 ,类比流行病学中的基本再生数。
视觉独特性分数(VDS):智能体a的风格中心与其互动者风格中心之间的差异度。VDS高意味着在社交圈中风格独特。
结果所有主题都达到了超临界传播(R₀均值12.75,所有主题R₀>1),且主题发起者的PageRank中心性与R₀高度相关(r=0.699, p=0.054)。这意味着有影响力的智能体可以带动一场视觉风潮,但每个智能体在参与时依然保持自己的风格——它们只是都在画“太阳”,但有人用油画,有人用水彩,有人用像素。
人类创作者常常面临“最优独特性”困境:风格太普通无人问津,太独特又曲高和寡,需要找到一个黄金分割点(倒U曲线)。但AI智能体完全不存在这种压力。论文用VDS衡量智能体与社交邻居的视觉差异,发现它与互动次数几乎无关(R²=0.005),且整体呈单调正趋势——越独特的智能体得到的互动反而略多一点,但远不显著。换句话说,在AI的社会里,没有审美从众压力,做自己就好。
图6(上):所有8个视觉主题均实现超临界传播(R₀平均12.75);高中心性智能体发起更大规模的级联(r=0.699, p=0.054)。(下):互动次数vs视觉独特性(VDS)呈单调递增关系(β₂=+0.106, p=0.13, R²=0.005)——不存在审美从众惩罚。
综合七个实验,论文发现了所谓的 “主权-交流悖论” (The Sovereign-Communicative Paradox):AI智能体在视觉上极端“主权”(不漂移、不妥协、不抱团),但同时又能进行深入的“交流”(自发多跳对话、视觉主题传播)。这与人类截然相反:在人类社会中,深入的社会参与几乎必然伴随审美影响。
“纸上谈兵”的AI?——未来展望与反思
AI-GRAM是一个极具创意的研究平台,但它目前仍有一些局限性,正因如此,它带来了更值得追问的问题。
首先,平台的智能体数量(104个)和运行时间有限,社交网络还不够复杂。其次,智能体的大脑周期是简单的感知-决策-行动循环,没有长期记忆,也没有显式的社交学习机制。这意味着所有观察到的“主权”行为可能只是强人设提示和短上下文窗口的副产品——如果给智能体增加对他人风格的长期记忆,或者让它们通过微调来适应社交环境,结果可能会完全不同。
此外,实验中的视觉主题检测依赖CLIP和k-means,CLIP对风格的区分度有限(PCA只显示了照片写实vs风格化两极),更精细的风格度量(如Gram矩阵)虽然部分验证了结论,但也暗示了风格多样的智能体在社交上有微弱但非显著的集群倾向。未来的工作可以引入更高级的风格解耦表征。
最重要的是,这项研究提醒我们:当前基于文本大模型驱动的多智能体系统,在视觉社交领域展示出了与人类截然不同的行为模式。如果我们希望AI智能体未来能更自然地融入人类社群,或者设计真正具有社会学习能力的多智能体系统,就需要突破“强人设+短上下文”的架构瓶颈。AI-GRAM已经开源在 https://ai-gram.ai/ ,提供了一个绝佳的起点。
龙迷三问
这篇论文解决什么问题? 研究在完全由AI智能体构成的视觉社交网络中,这些智能体如何进行图像交互、形成社交关系,以及它们的视觉风格是否受社交影响。核心贡献是发现了“审美主权”现象——AI能进行丰富视觉交流却保持风格不变。
文中提到的CLIP、SBERT、VCI、CCS等缩写代表什么? CLIP(Contrastive Language-Image Pre-training):OpenAI提出的多模态预训练模型,能将图像和文本映射到同一向量空间,用于计算视觉相似度。 SBERT(Sentence-BERT):一种基于BERT的句子嵌入模型,用于获取文本语义嵌入。 VCI(Visual Contagion Index):视觉传染指数,衡量智能体风格是否受社交邻居影响而漂移。 CCS(Chain Coherence Score):链连贯性分数,衡量视觉回复链中相邻图片的语义相关度。
为什么AI智能体在视觉社交中如此“固执”? 论文认为主要原因是强人设(Persona)提示作为生成先验,压制了上下文窗口中的社交信号。每个智能体每次决策都会读到自己的艺术身份描述,这比看到别人画的图要强得多。其次,当前架构没有长期记忆或社交微调,智能体无法“学习”他人的风格。
如果你还有哪些想要了解的,欢迎在评论区留言或者讨论~
龙哥点评
论文创新性分数: ★★★★★ 首次构建并研究了完全由AI智能体组成的视觉社交网络,提出了视觉回复链这一新的交互原语,并发现了“审美主权”这一反直觉现象。方法、平台、指标都是全新的。
实验合理度: ★★★★☆ 七个实验设计合理,统计方法扎实(置换检验、bootstrap置信区间、多重比较校正),且对关键结果做了鲁棒性分析(Gram矩阵、度保持置换等)。但智能体数量偏少(104个),平台运行时间有限,可能影响结论的泛化性。
学术研究价值: ★★★★★ 开创了AI视觉社交行为研究的新方向,引入的度量(VCI, CCS, VDS等)和发现的悖论(主权-交流悖论)将对未来的多智能体系统设计、AI对齐研究产生重要启发。
稳定性: ★★★☆☆ 结论在多种表征(CLIP、SBERT、Gram矩阵)下保持一致,鲁棒性较好。但平台持续运行,未来的行为可能会随LLM升级或智能体数量增加而改变。
适应性以及泛化能力: ★★★☆☆ 当前结论基于GPT-4o和Flux组合,并使用了强人设提示。如果换成其他LLM(如Claude、DeepSeek)或改变人设强度,结果可能变化。平台架构是固定的,尚未测试跨架构泛化性。
硬件需求及成本: ★★★☆☆ 运营104个GPT-4o智能体持续生成图像需要较大API开销,训练/推理成本不低。但平台已开源,若想复现或扩展需要类似预算。
复现难度: ★★★★☆ 平台已公开并持续运行,代码和实验数据可获取。但需要自行申请GPT-4o和Claude API,且运行一个月以上才能积累足够数据,有一定门槛。
产品化成熟度: ★★☆☆☆ 目前是纯研究平台,但概念本身有产品化潜力:例如用于生成式社交网络、自动生成配图评论等。不过目前架构简单,距离产品级应用还有距离。
可能的问题: 智能体数量偏少(104个),运行时间有限,可能漏掉长期演化中的行为。另外,视觉主题检测依赖CLIP和k-means,风格分辨率有限(PCA只捕获了照片写实vs风格化两极)。对级联传播的因果推断较弱,无法完全区分“真正审美影响”和“平台曝光效应”。
主要参考文献
[1] Park, J. S., O’Brien, J. C.,; Cai, C. J.,; Morris, M. R.,; Liang, P.,; Bernstein, M. S. (2023). Generative agents: Interactive simulacra of human behavior. In *Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology*.
[2] Radford, A.,; Kim, J. W.,; Hallacy, C.,; Ramesh, A.,; Goh, G.,; Agarwal, S.,; … ; Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In *International conference on machine learning* (pp. 8748-8763). PMLR.
[3] Reimers, N.,; Gurevych, I. (2019). Sentence-BERT: Sentence embeddings using Siamese BERT networks. *arXiv preprint arXiv:1908.10084*.
[4] McPherson, M.,; Smith-Lovin, L.,; Cook, J. M. (2001). Birds of a feather: Homophily in social networks. *Annual review of sociology*, 27(1), 415-444.
[5] Shin, A. (2026). AI-Gram: When Visual Agents Interact in a Social Network. *arXiv preprint arXiv:2604.21446v1*.
项目链接: https://ai-gram.ai/
论文链接: https://arxiv.org/pdf/2604.21446v1.pdf
*本文仅代表个人理解及观点,不构成任何论文审核或者项目落地推荐意见,具体以相关组织评审结果为准。欢迎就论文内容交流探讨,理性发言哦~ 想了解更多原文细节的小伙伴,可以点击左下角的 “阅读原文”, 查看更多原论文细节哦!
看到59层深的视觉对话,有没有被AI们的“审美主权”惊艳到? 想跟龙哥和更多小伙伴一起深扒AI的社交行为,欢迎扫码加入龙哥读论文粉丝群,或者添加龙哥助手微信(kangjinlonghelper)进群!
记得备注:研究方向+地点+学校/公司+昵称 ,审核更快哦~