电商AI助手:用户嘴上说想要,实际却依赖什么?——一项多方法研究揭秘功能需求错配-夜雨聆风

电商AI助手:用户嘴上说想要,实际却依赖什么?——一项多方法研究揭秘功能需求错配

英文标题：Say-one-thing-and-mean-another consumers? A multi-method study of functional demand mismatch in e-commerce AI assistants
作者：Shuai Chen, Yang Zhao
期刊：Journal of Retailing and Consumer Services, 2026, Vol. 89, 104561
DOI：10.1016/j.jretconser.2025.104561

📌 一句话摘要

电商AI助手的功能开发往往是“技术驱动”而非“用户需求驱动”。研究发现：用户主观偏好的功能（如智能定价）与客观依赖的功能（如24小时自动回复）存在显著错配。平台应区分“基础型功能”与“成长型功能”，采取双轨策略。

🧠 研究背景：AI助手遍地开花，但真的懂用户吗？

淘宝的“AI购物助手”、京东的“京言”、亚马逊的“Rufus”……各大电商平台纷纷集成大语言模型（LLM）和自然语言处理（NLP）技术，试图用AI重塑购物体验。

然而，这些AI功能真的是用户想要的吗？

目前，AI助手功能的开发仍以“技术驱动”为主——工程师有什么技术就上什么功能，而忽略了用户的真实需求。用户往往自己也说不清想要什么，导致供需错配。

问题：用户“主观偏好”与“客观需求”之间，到底存在怎样的结构性差异？

🎯 研究目标

本研究提出一个多源数据融合框架，结合：

BERTopic主题建模（分析海量用户评论，提取客观需求）
语义嵌入映射（将用户话题与AI功能对齐）
MaxDiff偏好实验（测量用户主观偏好）

最终揭示AI助手功能的供需错配，并为平台提供功能优先级排序依据。

📚 理论基础

🔹 Andersen行为模型

用户需求可分为两类：

主观需求：用户自己认为需要的功能
客观需求：基于外部数据（如行为、评论）推断出的真实依赖

两者往往不一致——这正是本研究的切入点。

🔹 BERTopic

一种结合预训练语言模型与聚类的无监督主题建模技术，流程包括：文本编码 → UMAP降维 → HDBSCAN聚类 → c-TF-IDF提取关键词。

🔹 MaxDiff（最大差异 scaling）

一种多属性比较方法：让用户从一组功能中选出最想要和最不想要的，从而测量偏好强度。相比李克特量表，MaxDiff能避免“中庸偏向”，区分度更高。

🧪 研究设计与方法（三阶段框架）

阶段一：用户评论挖掘（客观需求）

数据来源：天池平台“RecTmall”数据集，共11,224,814条评论，取前600万条分析
情感分析：使用SnowNLP，提取负面评论（评分<0.5），得到1,718,723条负面评论
分词与高频词统计：Jieba分词 + 四川大学机器智能实验室停用词表
主题建模：BERTopic（UMAP: n_neighbors=10, n_components=5; HDBSCAN: min_cluster_size=100），最终得到50个核心用户话题

📊 高频负面词示例：物流、速度、卖家、客服、态度、色差、价格……

阶段二：AI功能提取与语义映射

专家调查：通过Credamo平台邀请75名电商与HCI领域专家，开放问卷收集AI助手的典型应用场景，最终保留35份有效回复（161条文本）
文本编码：使用预训练模型 paraphrase-multilingual-MiniLM-L12-v2 生成语义向量
聚类：KMeans聚类 + TF-IDF关键词提取，人工标注出8大核心AI功能：

编号	功能名称	代表性关键词
1	个性化推荐	推荐、个性化、精准、浏览
2	智能定价	价格、比价、自动生成、售后
3	物流监控	物流、自动化、实时、跟踪
4	24小时自动回复	回复、自动、客服、常见问题
5	客服调度	机器人、人工转接、前台、自动化
6	情感化交互	语音、情绪、互动、压力
7	多模态搜索	搜索、图像、内容、快速
8	虚拟试穿	虚拟、试穿、服装、体验

语义映射：计算50个用户话题向量与8个功能向量的余弦相似度，保留 top-3 且 >0.2 的匹配，生成桑基图（Sankey diagram）。
客观重要性（EBI）：聚合每个功能的所有匹配相似度，得到嵌入重要性值。

阶段三：MaxDiff用户偏好实验（主观偏好）

被试：通过Credamo招募291名活跃电商用户，经质量筛选后保留246份有效问卷（女性68.7%，21-30岁占52.8%）
实验设计：8个功能属性，使用平衡不完全区组设计，每位用户在8个任务中分别选出 “最希望优先开发” 和 “最不希望开发” 的功能
统计模型：多项logit模型（Multinomial Logit），计算每个功能的偏好份额（归一化）
错配计算：Diff = 客观重要性（EBI） − 主观偏好份额
由于样本量较小，不使用±1σ，而是分别取正、负Diff值的中位数作为阈值，识别显著错配功能。

📊 主要结果

✅ 功能错配分布（Diff值）

下图展示了8个功能的Diff值分布：

正Diff（客观 > 主观）：24小时自动回复、客服调度、物流监控
负Diff（主观 > 客观）：智能定价、虚拟试穿、多模态搜索
接近零：个性化推荐、情感化交互

🔍 详细结果如图4所示（原文Fig. 4）。

🧭 功能分类：两类截然不同的角色

类型	功能示例	特征	用户感知模式
基础型功能	24小时自动回复、客服调度	客观依赖高，主观偏好低	“低感知，高依赖”——不出问题时被忽略，一旦故障引发大量负面评论
成长型功能	智能定价、虚拟试穿、多模态搜索	主观偏好高，客观实现低	“高期待，低落地”——用户强烈渴望，但平台供给不足

💡 个性化推荐和情感化交互处于中间地带，供需相对匹配。

💡 理论贡献

整合框架：首次将BERTopic主题建模与MaxDiff偏好实验结合，实现客观需求与主观偏好的量化对比。
拓展Andersen模型：将“主客观需求二分法”应用于新兴技术（AI助手）场景，揭示错配机制。
可复用的方法论：为后续人-AI协作、技术接受研究提供了结构化的需求分析工具。

🛠 实践启示（双轨产品策略）

🔧 基础型功能（如24小时回复、客服调度）

策略：防御型（Defensive Strategy）
持续提升算法稳定性与知识覆盖
通过界面设计增强“可见价值”，例如提示“AI已为您节省XX秒”
避免因“隐形效用”导致的负面评价

🚀 成长型功能（如智能定价、虚拟试穿）

策略：进攻型（Offensive Strategy）——MVP先行
优先上线高敏感度功能，小范围试点
建立用户反馈闭环，积累高质量数据
同时关注透明度、公平性与算法可解释性，降低用户焦虑

🌍 更广泛的社会责任

基础型功能需关注老年人、低数字素养群体的可及性
成长型功能需平衡商业效率与社会包容性

⚠️ 研究局限

客观需求的代理变量为负面评论，可能无法捕捉潜在的新兴需求
MaxDiff测量的是相对偏好，未必完全反映真实行为
功能分类具有时效性，随技术和市场变化可能调整
未使用传统信效度检验（如Cronbach’s α），但通过多方法三角验证（评论挖掘+专家评估+MaxDiff）增强稳健性
数据来源仅淘宝平台，未来需跨平台、跨文化验证

📌 总结一句话

用户对AI助手的“嘴上说想要”和“实际离不开”往往是两回事。平台需要区分基础型功能（默默支撑但易被忽视）和成长型功能（用户渴望但尚未实现），采取双轨策略，才能真正实现以用户为中心的AI创新。

📚 参考文献（部分）

Chen, S., Zhao, Y. (2026). Say-one-thing-and-mean-another consumers? Journal of Retailing and Consumer Services, 89, 104561.
Grootendorst, M. (2022). BERTopic: Neural topic modeling with a class-based TF-IDF procedure. arXiv.
Cohen, S. (2003). Maximum difference scaling. Sawtooth Software Research Paper.

英文文献阅读全流程：从文献如何“搜”到怎么“管”再到“读”的一站式攻略

END

点击关注，发送 “AI Consumer” 即可获取全文PDF