是AI还是人类?人机对话的“身份知情”对互动体验的影响

是AI还是人类?人机对话的“身份知情”对互动体验的影响 | 论文选介

摘要：随着大型语言模型的进步，人工智能聊天机器人现已得到广泛应用，能够提供近乎人类的交互体验。本研究探讨了人工智能在沟通中的情感和心理影响，特别是当其与拟人化虚拟形象结合使用时，以及在用户知晓或不知晓交互对象身份的情况下，基于人工智能的沟通与人类互动相比有何差异。共有42名女性参与者被随机分配至知情组（知晓自己是在与AI还是真人对话）或不知情组（不知晓对话对象的身份）。参与者在讨论最近一次假期经历时，与一个虚拟化身进行互动，该化身传达的信息由AI或真人生成。在不知情组中，参与者无法正确识别自己与AI还是真人进行了互动。而在知情组中，与真人互动相比，与AI互动导致积极情绪的提升幅度更大、社会临场感更强，且参与者对化身的情感与意图归因更强烈。在不知情组中，AI互动与人类互动在情感或心理反应上未观察到显著差异。无论是否知情，人类互动中生成的信息都比AI生成的更积极。此外，无论是人工智能还是人类实验者发送的消息，其积极程度都高于参与者发送的消息。这些发现有助于深入了解用户对与人工智能或人类操控的虚拟化身进行互动的感知，并能为人工智能系统的设计提供参考，从而提升用户满意度和参与度。

研究背景

虚拟化身已在游戏、教育、临床等诸多场景中得到广泛应用，既可由人类操控，也可由AI自主驱动。在纯文本交互场景下，用户往往难以准确区分对话对象是AI还是人类；若AI的表现足以使人无法辨别其真实身份，则可认为其通过了图灵测试。

现有研究显示，用户是否知晓交互对象为人类或AI，可能会对其情绪体验、信任程度及社交感知产生影响，但相关结论尚未形成一致共识。例如，Ho等人的研究表明，身份知晓与否并不会显著影响情绪结果；而Jain等人则发现，这一信息会改变用户对对话回复的偏好。此外，为聊天机器人赋予更高拟人化程度（如搭载虚拟化身）虽有可能提升用户体验，但也可能触发“恐怖谷效应”。有研究发现，相较于与具备复杂动画形象的化身交互，用户在与纯文本聊天机器人合作时，所体验到的负面情绪反而更少。

社会存在感，即感知自身与虚拟化身共处的心理感受，会影响用户的亲近感，并对人际融洽度、自我表露程度及情绪反应起到调节作用。同时，将类人心理状态赋予虚拟化身（即心灵归因）也可能产生消极影响——若用户将智能代理视作拥有独立意图的自主存在，反而会加剧不适感与恐怖感。另一方面，提升AI运行机制的透明度，能够增强用户的控制感，进而有助于建立信任。

当前相关研究多以文本聊天机器人为对象，针对三维动态虚拟化身的实证探讨仍较为匮乏。鉴于此，本研究引入动态虚拟化身，旨在探究用户是否知晓交互对象为人类或AI，会如何影响其情绪反应、社会存在感、喜爱程度、心灵归因，以及对话内容的情感基调。

研究设计

本研究共招募42名女性参与者，采用随机分配方式将其划分为知情组与不知情组，每组各21人。其中知情组平均年龄为25.9岁，不知情组平均年龄为24.05岁。采用2（知晓：知情vs.不知情）×2（交互伙伴：人类vs.AI）混合设计。

每位参与者均需完成两轮以假期为主题的闲聊对话，分别与AI和人类各进行一次，话题围绕寒假与暑假展开。实验顺序采用完全随机化设计，四分之一的参与者先与AI讨论暑假，再与人类讨论寒假；四分之一先与AI讨论寒假，再与人类讨论暑假；四分之一先与人类讨论暑假，再与AI讨论寒假；剩余四分之一先与人类讨论寒假，再与AI讨论暑假。实验过程中，知情组在每轮对话开始前会被告知当前交互伙伴的身份，不知情组则不提供相关信息，每轮对话时长控制在15至20分钟。

情绪状态采用正负性情绪量表进行评估，该量表包含20个题项，其中积极情绪与消极情绪各10题，采用五点计分方式，在对话前后分别施测。每轮对话结束后，参与者需完成社会存在感、喜爱度与同情度的评定，同时对虚拟化身的自我概念进行评价，包括情绪归因、意图归因与认知归因三个维度，均采用七点量表计分。实验全部结束后，测量参与者对AI的信任程度，并要求其判断两轮对话中哪一位伙伴为AI。

研究使用Unity与ReadyPlayerMe构建虚拟化身，保持外观与性别设定一致，通过添加眼球转动动画与细微的呼吸动作降低恐怖谷效应，同时维持中性面部表情以强化卡通化形象。AI回复由ChatGPT-4o生成，并通过指令约束其回复风格，避免过度热情与谄媚表达。人类回复由一名实验者负责输入，遵循与AI一致的表达规范。化身通过唇形同步与语音合成技术实现发声。

对话文本采用VADER工具开展情感分析，提取复合情感得分以及积极、中性、消极情感占比。统计分析主要运用二乘二与二乘二乘二方差分析，同时采用基于韦尔奇-萨特思韦特近似法的韦尔奇双样本t检验进行组间比较。

研究结果

在不知情组中，21名参与者中有10人无法正确识别AI与人类，准确率不高于随机水平，说明AI生成的回复在本次设置中具有类人水平。在知情组中，仅有3人无法区分。情感分析显示，无论知晓与否，人类交互中的文本比AI交互中的更积极（交互主效应显著，F(1,40)=9.80，p<.01，ηp²=0.20），且AI/实验者发送的文本比参与者发送的更积极（主效应显著，F(1,40)=6.96，p<.05，ηp²=0.15）、更中性（F(1,40)=19.73，p<.01，ηp²=0.33）、更少消极（F(1,40)=30.85，p<.01，ηp²=0.44）。在情绪情感方面，知情组与人类交互时积极情感显著增加（差值0.81），与AI交互时积极情感下降（差值-2.14），交互效应接近显著（F(1,40)=3.13，p=.084，ηp²=0.07）；不知情组无显著差异。消极情感在两组中均无显著变化。社会存在感方面，交互效应显著（F(1,40)=7.22，p<.05，ηp²=0.15），知情组与人类交互时（60.4）显著高于与AI交互时（50.7），且知情组在与人类交互时显著高于不知情组（47.9）。喜爱度/同情度仅见趋势性交互效应（p=.081）。在心灵归因方面，情绪归因的交互效应显著（F(1,40)=12.99，p<.01，ηp²=0.25），知情组在人类条件下（17.2）显著高于AI条件（10.9），也显著高于不知情组的人类条件（10.3）；意图归因的交互效应显著（F(1,40)=15.55，p<.01，ηp²=0.28），知情组在人类条件下（15.6）显著高于AI条件（11.9），也显著高于不知情组的人类条件（12.6）；认知归因方面，知情组（16.9和15.3）高于不知情组（14.0和14.1），主效应接近显著（p=.059）。两组在对AI的信任度上无显著差异。

结论与讨论

结论

知晓身份的主效应：研究表明，当用户知晓交互伙伴身份时，与人类交互相比与AI交互，会带来更积极的情绪、更高的社会存在感以及更强的情绪和意图归因；而当用户不知晓身份时，AI与人类交互在这些指标上无显著差异。

情感分析的独立作用：情感分析显示，无论知晓与否，人类交互中的文本比AI交互中的更积极，且AI/实验者发送的文本比参与者发送的更积极、更中性、更少消极。然而，这一差异并未在不知情组中引发主观体验的差异。

用户偏见而非客观质量：研究者指出，知情组中观察到的差异可能更多源于用户对AI与人类的先验偏见或preconceptions，而非交互本身的客观质量。这些结果强调了先前信念在人机交互用户感知中的影响。

与已有研究的比较：与Ho等人（2018）发现知晓不影响情绪结果不同，本研究中虚拟化身引入的更高拟人化可能解释了差异效应，表明明确身份线索可以覆盖表面级别的拟人化特征。与Jain等人（2024）比较，本研究的不知情组未出现偏好AI回复的现象，研究者认为这可能源于话题差异：Jain等人使用高度敏感的心理健康话题，而本研究使用情感效价较低的假期话题，说明话题的效价和唤醒度可能调节知晓的效果。

恐怖谷效应与化身设计：本研究未发现恐怖谷效应，消极情感在交互后反而下降。研究者认为，这得益于化身的刻意设计：使用与真实人类有明显区别的类人女性形象，添加眼动动画和微妙呼吸动作，保持面部表情中性以强化卡通般外观，在熟悉感和人工感之间取得平衡。研究者同时引用Stein和Ohler（2017）指出，虽然将类人心理状态归因于化身可能增加恐怖感，但本研究通过保持化身的明显人工性，成功避免了这一负面效应。

透明度的重要性：透明度（告知用户交互对象身份）对社会存在感和心灵归因有显著影响。研究者指出，仅仅是知晓和关于沟通伙伴身份的透明度就能提高社会存在感，这强调了透明度的重要性（Jain等人，2024）。

讨论

本研究存在一定局限性：仅采用女性参与者与女性虚拟化身，限制了结果普适性；人类回复由单一实验者完成，可能受个体差异干扰；化身设计恒定，未考察外观差异的影响；AI回复被约束避免过度友好，限制了其表现多样性；无法完全确保AI与人类回复的客观可比性。

未来研究应探索不同性别组合（包括男性-男性和混合性别）对结果的影响；考察不同化身外观设计的作用；调查AI采用更积极语气是否会对用户体验和对话情感产生不同影响；更详细地研究不同提示词设计和标准化水平对沟通情感及用户体验的影响。

本研究的发现可以增进对用户如何感知和响应人类或AI控制的虚拟化身的理解。这些知识可以为基于VR的AI系统设计提供信息，以提高用户满意度和参与度。当与AI控制的虚拟化身交互时，开发者应专注于将更多类人特质融入AI交互中，以增强情感参与和社会存在感。最重要的是，研究强调了关于化身控制器实体透明度的必要性，这对AI部署中的伦理考量具有重要启示。