乐于分享
好东西不私藏

电商AI助手:用户嘴上说想要,实际却依赖什么?——一项多方法研究揭秘功能需求错配

电商AI助手:用户嘴上说想要,实际却依赖什么?——一项多方法研究揭秘功能需求错配

英文标题:Say-one-thing-and-mean-another consumers? A multi-method study of functional demand mismatch in e-commerce AI assistants
作者:Shuai Chen, Yang Zhao
期刊:Journal of Retailing and Consumer Services, 2026, Vol. 89, 104561
DOI10.1016/j.jretconser.2025.104561


📌 一句话摘要

电商AI助手的功能开发往往是“技术驱动”而非“用户需求驱动”。研究发现:用户主观偏好的功能(如智能定价)与客观依赖的功能(如24小时自动回复)存在显著错配。平台应区分“基础型功能”与“成长型功能”,采取双轨策略。


🧠 研究背景:AI助手遍地开花,但真的懂用户吗?

淘宝的“AI购物助手”、京东的“京言”、亚马逊的“Rufus”……各大电商平台纷纷集成大语言模型(LLM)和自然语言处理(NLP)技术,试图用AI重塑购物体验。

然而,这些AI功能真的是用户想要的吗?

目前,AI助手功能的开发仍以“技术驱动”为主——工程师有什么技术就上什么功能,而忽略了用户的真实需求。用户往往自己也说不清想要什么,导致供需错配。

问题:用户“主观偏好”与“客观需求”之间,到底存在怎样的结构性差异?


🎯 研究目标

本研究提出一个多源数据融合框架,结合:

  • BERTopic主题建模(分析海量用户评论,提取客观需求)

  • 语义嵌入映射(将用户话题与AI功能对齐)

  • MaxDiff偏好实验(测量用户主观偏好)

最终揭示AI助手功能的供需错配,并为平台提供功能优先级排序依据。


📚 理论基础

🔹 Andersen行为模型

用户需求可分为两类:

  • 主观需求:用户自己认为需要的功能

  • 客观需求:基于外部数据(如行为、评论)推断出的真实依赖

两者往往不一致——这正是本研究的切入点。

🔹 BERTopic

一种结合预训练语言模型与聚类的无监督主题建模技术,流程包括:文本编码 → UMAP降维 → HDBSCAN聚类 → c-TF-IDF提取关键词。

🔹 MaxDiff(最大差异 scaling)

一种多属性比较方法:让用户从一组功能中选出最想要最不想要的,从而测量偏好强度。相比李克特量表,MaxDiff能避免“中庸偏向”,区分度更高。


🧪 研究设计与方法(三阶段框架)

阶段一:用户评论挖掘(客观需求)

  • 数据来源:天池平台“RecTmall”数据集,共11,224,814条评论,取前600万条分析

  • 情感分析:使用SnowNLP,提取负面评论(评分<0.5),得到1,718,723条负面评论

  • 分词与高频词统计:Jieba分词 + 四川大学机器智能实验室停用词表

  • 主题建模:BERTopic(UMAP: n_neighbors=10, n_components=5; HDBSCAN: min_cluster_size=100),最终得到50个核心用户话题

📊 高频负面词示例:物流、速度、卖家、客服、态度、色差、价格……


阶段二:AI功能提取与语义映射

  • 专家调查:通过Credamo平台邀请75名电商与HCI领域专家,开放问卷收集AI助手的典型应用场景,最终保留35份有效回复(161条文本)

  • 文本编码:使用预训练模型 paraphrase-multilingual-MiniLM-L12-v2 生成语义向量

  • 聚类:KMeans聚类 + TF-IDF关键词提取,人工标注出8大核心AI功能

编号
功能名称
代表性关键词
1
个性化推荐
推荐、个性化、精准、浏览
2
智能定价
价格、比价、自动生成、售后
3
物流监控
物流、自动化、实时、跟踪
4
24小时自动回复
回复、自动、客服、常见问题
5
客服调度
机器人、人工转接、前台、自动化
6
情感化交互
语音、情绪、互动、压力
7
多模态搜索
搜索、图像、内容、快速
8
虚拟试穿
虚拟、试穿、服装、体验
  • 语义映射:计算50个用户话题向量与8个功能向量的余弦相似度,保留 top-3 且 >0.2 的匹配,生成桑基图(Sankey diagram)。

  • 客观重要性(EBI):聚合每个功能的所有匹配相似度,得到嵌入重要性值


阶段三:MaxDiff用户偏好实验(主观偏好)

  • 被试:通过Credamo招募291名活跃电商用户,经质量筛选后保留246份有效问卷(女性68.7%,21-30岁占52.8%)

  • 实验设计:8个功能属性,使用平衡不完全区组设计,每位用户在8个任务中分别选出 “最希望优先开发” 和 “最不希望开发” 的功能

  • 统计模型:多项logit模型(Multinomial Logit),计算每个功能的偏好份额(归一化)

  • 错配计算:Diff = 客观重要性(EBI) − 主观偏好份额
    由于样本量较小,不使用±1σ,而是分别取正、负Diff值的中位数作为阈值,识别显著错配功能。


📊 主要结果

✅ 功能错配分布(Diff值)

下图展示了8个功能的Diff值分布:

  • 正Diff(客观 > 主观):24小时自动回复、客服调度、物流监控

  • 负Diff(主观 > 客观):智能定价、虚拟试穿、多模态搜索

  • 接近零:个性化推荐、情感化交互

🔍 详细结果如图4所示(原文Fig. 4)。


🧭 功能分类:两类截然不同的角色

类型
功能示例
特征
用户感知模式
基础型功能
24小时自动回复、客服调度
客观依赖高,主观偏好低
“低感知,高依赖”——不出问题时被忽略,一旦故障引发大量负面评论
成长型功能
智能定价、虚拟试穿、多模态搜索
主观偏好高,客观实现低
“高期待,低落地”——用户强烈渴望,但平台供给不足

💡 个性化推荐和情感化交互处于中间地带,供需相对匹配。


💡 理论贡献

  1. 整合框架:首次将BERTopic主题建模与MaxDiff偏好实验结合,实现客观需求与主观偏好的量化对比。

  2. 拓展Andersen模型:将“主客观需求二分法”应用于新兴技术(AI助手)场景,揭示错配机制。

  3. 可复用的方法论:为后续人-AI协作、技术接受研究提供了结构化的需求分析工具。


🛠 实践启示(双轨产品策略)

🔧 基础型功能(如24小时回复、客服调度)

  • 策略:防御型(Defensive Strategy)

  • 持续提升算法稳定性与知识覆盖

  • 通过界面设计增强“可见价值”,例如提示“AI已为您节省XX秒”

  • 避免因“隐形效用”导致的负面评价

🚀 成长型功能(如智能定价、虚拟试穿)

  • 策略:进攻型(Offensive Strategy)——MVP先行

  • 优先上线高敏感度功能,小范围试点

  • 建立用户反馈闭环,积累高质量数据

  • 同时关注透明度、公平性与算法可解释性,降低用户焦虑

🌍 更广泛的社会责任

  • 基础型功能需关注老年人、低数字素养群体的可及性

  • 成长型功能需平衡商业效率与社会包容性


⚠️ 研究局限

  1. 客观需求的代理变量为负面评论,可能无法捕捉潜在的新兴需求

  2. MaxDiff测量的是相对偏好,未必完全反映真实行为

  3. 功能分类具有时效性,随技术和市场变化可能调整

  4. 未使用传统信效度检验(如Cronbach’s α),但通过多方法三角验证(评论挖掘+专家评估+MaxDiff)增强稳健性

  5. 数据来源仅淘宝平台,未来需跨平台、跨文化验证


📌 总结一句话

用户对AI助手的“嘴上说想要”和“实际离不开”往往是两回事。平台需要区分基础型功能(默默支撑但易被忽视)和成长型功能(用户渴望但尚未实现),采取双轨策略,才能真正实现以用户为中心的AI创新。


📚 参考文献(部分)

  • Chen, S., Zhao, Y. (2026). Say-one-thing-and-mean-another consumers? Journal of Retailing and Consumer Services, 89, 104561.

  • Grootendorst, M. (2022). BERTopic: Neural topic modeling with a class-based TF-IDF procedure. arXiv.

  • Cohen, S. (2003). Maximum difference scaling. Sawtooth Software Research Paper.


英文文献阅读全流程:从文献如何“搜”到怎么“管”再到“读”的一站式攻略

END

点击关注,发送 “AI Consumer” 即可获取全文PDF