📖 文献来源:Liu, Y., Wang, L., Yang, S., & Wang, Y. (2025). Artificial intelligence-powered digital streamers in online retail: Empirical insights and design strategies from experiments. Information Systems Research.
AI数字人主播已经在天猫、抖音大规模铺开,品牌方省去了人工成本,实现7×24小时不间断播出。但问题是:现在这些数字人,真的能像真人主播一样带货吗?如果不行,哪些设计改进最有效?本研究通过两个实地实验,用真实交易数据给出了有力的实证答案。
现实场景
你打开某个品牌的淘宝直播间,屏幕上出现一个卡通风格的虚拟形象,用合成的机械音介绍产品,偶尔弹出一个预设的问答。你看了十秒,关掉了。另一个直播间,一个真人主播正在和弹幕互动、发红包、抽奖,你不知不觉停留了几分钟,然后下单了。两种体验为什么差距这么大?研究者用一家天猫商户的真实销售数据,把这个问题拆开来看了个清楚。
研究发现
发现一:当前低拟真度数字人主播,对销量没有显著提升效果
准实验(925款产品数据)发现,搭载低拟真设计(卡通外形+合成语音+有限互动)的数字人主播,与无直播的控制组相比,产品销量差异不显著;而同期真人主播的销量提升效应高度显著。
🗺 社媒映射:大量品牌方引入的"基础款数字人"可能只是在自我安慰——它不如真人,甚至未必比什么都不做更好。花了钱,却几乎没有多卖出一件产品。
⚙ 机制:低拟真数字人缺乏社交临场感,无法激活消费者的社会响应,购买决策链就此断裂。
发现二:行为拟真远比外形拟真更有效,顺序是互动 > 声音 > 脚本 > 外形
7种实验条件(以低拟真数字人为基准)的销售效果排序如下:
🗺 社媒映射:很多品牌把预算砸在数字人"颜值升级"上,但数据表明这对销量效果最弱。真正能追平真人效果的,是让数字人"能聊",而不是"好看"。
⚙ 机制:互动类功能激活的是消费者实时社会响应,让观众感知到"有人在回应我",这一社交信号远比外观更能驱动购买。
发现三:实时评论数是连接设计特征与销量的中介——互动越真实,弹幕越多,销量越高
将实时评论数作为中介变量检验后,外形、声音、抽奖、问答均显著提升弹幕互动,而互动量又与销量直接正相关。"设计改进→社会响应→购买"是一条完整的因果链。
🗺 社媒映射:弹幕不只是热闹的装饰,它是直播间的"社交心跳"——数字人越能引发互动,直播间的"人气感"越强,旁观者越容易被带动下单。这正是抖音、快手算法放大的逻辑。
⚙ 机制:社会响应理论预测,人类对具有社会线索的技术会像对真人一样做出反应;弹幕量是这一响应的客观代理指标。
发现四:仅优化播报脚本对销量无效——有剧本的台词不等于有温度的交流
研究二中,将脚本替换为专业真人主播播报风格,对销售量和销售额的提升均不显著。这与其他四项改进的显著效果形成鲜明对比。
🗺 社媒映射:很多内容团队花大力气打磨AI直播脚本,精心设计话术——但如果底层是机器合成声音、没有实时互动,再好的文案也无法产生共鸣。台词只是内容,连接才是核心。
⚙ 机制:脚本改进属于"单向信息输出",无法提升双向社交临场感;双向互动(问答、抽奖)才能激活"社会回应",形成真实的关系感知。
核心机制分析
『社会响应梯度机制』
表面现象是数字人"越像人越卖货";深一层是"人类感知社会线索后,像回应真人一样回应技术";而真正的底层机制,是社会临场感沿"拟真度阶梯"递进激活消费者购买意愿的过程。
本研究的核心理论来源是 Nass 和 Moon(2000)的社会响应理论(Social Response Theory)。该理论认为,人类是"天生的社会化生物"——只要一个技术系统表现出足够的社会线索(语音、互动、回应),人们会不自觉地按照对待真人的方式与之互动,产生信任、参与和情感卷入。这并非理性决策,而是一种自动化的"社会脚本激活"。
研究者将设计特征划分为形态拟真(Form Realism)与行为拟真(Behavioral Realism)两大维度。实验揭示,两者对社会响应的贡献并不对称:行为线索的激活效果远强于外观线索。在行为拟真内部,依据媒介丰富度理论,实时双向互动(问答、抽奖)提供的信息通道宽度远大于单向声音输出,因此传递更丰富的社会存在信号,激发更强的消费者响应。
更关键的是,增强型实时Q&A(T5)唯一实现了与真人主播的销售效果无统计显著差异——这意味着,当"社交连接感"达到某个阈值时,消费者对"真人 vs. AI"的本质区分就不再决定其购买行为。
💡 通俗解释:就像你在客服聊天时,如果对方能秒回、能理解你的问题、能给个性化答案,你往往不会在意它是不是机器人——你在意的是"有人在回应我"这件事本身。数字人直播带货的逻辑完全一样。消费者购买的不是"真实的人",而是"真实的连接感"。
『设计优先级倒置效应』
企业实际投入中,外形升级(3D建模、面部精细化)往往优先于互动功能开发;但实验数据显示,效果贡献的顺序恰好相反。这背后是一个经典的"可见性偏误"——外形改进是可见、可拍、可展示的,容易被决策者感知为"做了什么";而互动功能的开发(实时Q&A对接、知识库搭建、抽奖机制集成)则是隐藏在技术层的能力建设,看起来不够"华丽"。
结果是,企业在最有价值的地方投入不足,在最容易展示但效果有限的地方过度投入。这一现象与行为决策中的显著性偏误(Salience Bias)高度吻合:决策者倾向于优化那些看得见、摸得着的维度,而忽视那些不够显眼但更具实质影响的维度。
💡 核心启示:数字人投资决策应以"哪个维度对销量贡献最大"为导向,而非"哪个维度最容易向老板展示成果"。两者往往相反。
对运营者的启示
① 不要用"基础款数字人"替代不直播:当前低拟真数字人既不能带来真人的销售效果,也不一定优于无直播状态。如果预算有限,宁可聚焦几场高质量人工直播,也不要用大量低质量数字人刷存在感。
② 优先投资实时互动能力,而非外形升级:开发或采购能够支持实时Q&A的AI问答系统,是ROI最高的数字人设计投入。在此之前,抽奖/红包功能的接入也可带来显著销量提升(+17%销量,+70%销售额)。
③ 人声比脚本更重要:如果只能在"优化脚本"和"升级人声"之间选一项,选人声。机器合成音是消费者感知社会距离的主要来源之一,自然人声可在不升级外形的情况下显著提升信任感。
④ 多功能组合可能产生协同效应:Q&A+实时抽奖+人声三者叠加,理论上可以产生超过各自独立效果之和的协同提升。可在小范围测试后逐步铺开。
⑤ 把实时弹幕量作为数字人直播效果的核心KPI:弹幕量是社会响应强度的直接代理指标,也是预测销量的有效前置变量。在效果评估体系中,弹幕量权重应不低于观看人数。
对研究者的启示
理论启发:本研究将社会响应理论、媒介丰富度理论和拟人化设计框架整合应用于AI直播带货场景,建立了"拟真设计特征→社会临场感→购买行为"的完整因果链。尤其值得关注的是,行为拟真与形态拟真效果不对称,挑战了现有"外观拟人化提升信任和购买"的主流研究假设,提示形态拟真的研究结论可能无法直接迁移至销售绩效领域。
研究机会:
问题1:当AI问答能力足够强大,以至于消费者无法区分其与真人时,数字人主播和真人主播在信任建立过程上是否存在本质差异,还是仅仅是"能力达标"后的消费者无差异反应?
问题2:本研究发现脚本优化对销量无显著影响,但在特定产品类别(如高卷入度、高风险决策品类)中,叙事内容质量是否会重新成为关键因素?
问题3:多个数字人设计特征的组合效应(如外形+互动+人声同时升级)是否存在"临界点",一旦超过该临界点数字人便可在全面维度上与人类主播等效?
方法启发:本研究"准实验+随机实地实验"的双阶段设计是IS领域的范本。未来研究可进一步引入消费者层面的个体追踪数据(会员卡ID),区分新顾客与回购顾客对数字人设计特征的差异响应,以及测量长期品牌忠诚度效应。
AI数字人主播带货的关键不是"长得像人",而是"表现得像人"——特别是能实时回应、真正与观众互动,才是追平真人直播效果的那把钥匙。
夜雨聆风