AI助手越像人越好吗?


越像人越好吗?









在智能客服、车载助手、教育机器人越来越普及的今天,我们早已习惯了与AI对话。为了让交互更自然、更亲切,设计师们往往倾向于给AI赋予更多“人”的特质。
但从工程心理学视角来看,我们更关心的是:拟人化真的能提升任务绩效吗?语音越像人,体验就越好吗?
今天分享一篇2025年发表在《Ergonomics》上的实证研究探讨:AI助手语音反馈的拟人化程度,如何影响人的任务绩效、情绪与自我效能感。

研究背景


拟人化(Anthropomorphism)是指把人类的情绪、语气、动机、意图赋予非人类对象。在人机交互里,拟人化常被用来提升亲切感、信任感与交互意愿。
但过去研究存在两个明显缺口:多数聚焦外观拟人,对语音反馈拟人的实证研究偏少;大多只对比“有无拟人”,缺少多梯度、可量化的精细比较。
根据社会助长效应(Social Facilitation Effect, SFE),他人的在场(哪怕是虚拟的)通常能提升简单任务的执行效率。
然而,恐怖谷理论(Uncanny Valley)和认知失调理论提出了警告:当一个物体看起来或听起来很像人,但又不完全像人时,会引发使用者的不适感。
所以AI助手语音反馈到底要多像人,才能既提升绩效,又保证体验?

研究方法

1
参与者
30名大学生:13男17女,年龄19-27岁。
2
实验任务
改编自经典的注意力网络测试(ANT),参与者需要在680ms内判断箭头方向。AI在正确判断后随机播放对应等级的语音反馈。

图1 改编后ANT范式示意图

图2 实验流程图
-
自变量:语音反馈的拟人化程度
用Microsoft Azure合成不同拟人程度的语音,再通过IDAQ拟人度量表评分筛选,最终确定6个梯度。
通过语调起伏和话术丰富度精确控制拟人程度,从低到高分为:
-
非语音“哔”声;
-
低拟人:平调+简单指令;
-
中低拟人:轻微语调+基础鼓励;
-
中等拟人:明显语调+常用鼓励;
-
中高拟人:接近人声语调+丰富鼓励;
-
真人语音。
表1 按样本分类的音高变化与内容示例

-
因变量
任务绩效:反应时、正确率。
主观体验:自我效能感(MGSES量表)和情绪(SAM量表测量愉悦度、唤醒度)。
3
研究假设
H1:拟人化程度越高,任务执行效率越高(反应时更短)。
H2:拟人化程度与情绪体验呈U型关系——过低或过高的拟人化体验更好,中等拟人化反而最差。

研究结果

1
任务绩效
高拟人化语言反馈下,参与者反应显著更快。在真人语音反馈下,被试的反应时显著短于低、中拟人化组。
符合社会助长效应。高度拟人化的语音激活了大脑的奖赏机制,让人反应更快。
2
情绪体验与自我效能感
-
中等拟人:自我效能感和愉悦度最低;
-
低拟人:明确是机器,预期低,无落差;
-
高拟人:像人沟通,信任高、效能高。
中等拟人化触发认知失调和恐怖谷效应,像人但不够像,语调别扭、情感不到位,引发不适,效能显著下跌。



图3 不同拟人化程度的语音反馈下参与者的
反应时、愉悦度与自我效能感

场景化设计建议

-
时间敏感型任务→用高拟人语音
-
应急指挥、医疗急救、交易决策、驾驶提醒;
-
反应更快、动机更强、体验更好。
-
高认知负荷任务→用低拟人语音
-
编程、数据分析、复杂决策;
-
减少情绪干扰,保持专注、高效。
-
教育 / 康复 / 陪伴→高低搭配,避开中等
-
基础指令:低拟人,清晰直接;
-
鼓励支持:高拟人,提升信心与愉悦;
-
避免中等拟人,打击自我效能、体验割裂、易产生不适感。

局限性

-
实验室环境,生态效度有待真实场景验证;
-
仅使用正向反馈,未涉及负反馈;
-
未单独拆分语调与话术内容的独立影响。

AI语音反馈的拟人化,不是越高越好,也不是越低越稳。高拟人化能提升反应速度,中等拟人化最影响体验,低拟人化稳定但缺少温度。
未来的智能语言反馈设计,应该让AI要么像工具一样高效,要么像朋友一样温暖,别让用户卡在“恐怖谷”里。
你更希望你的AI助手像一个靠谱的同事,还是一个温暖的朋友?

Yang, S., Huang, Y., Huang, X., Zhang, J., Meng, Z., & Yang, J. (2025). Impact of anthropomorphism in AI assistants’ verbal feedback on task performance and emotional experience. Ergonomics, 1-14. Advance online publication. https://doi.org/10.1080/00140139.2025.2497072
ZJUpsy@陈婷供稿
END

夜雨聆风