AI 越普及,高质量真人数据越值钱:合成数据如何重塑市场研究

：

2026年，合成数据正在成为市场研究行业最受关注的话题之一。大模型可以生成成千上万个“虚拟消费者”，替品牌方完成概念测试、问卷模拟、产品反馈甚至广告评估。于是，一个问题被反复提出：如果AI已经能模拟消费者回答，真实消费者还有必要吗？

未来市场研究的关键，不是“选AI还是选人”，而是建立一套更清晰的判断机制：什么时候用AI加速探索，什么时候必须用真人数据锚定结论。

本文以行业观察者视角，拆解Qualtrics公开发布的《2026全球市场调研趋势报告》(基于3000余名研究者、覆盖17个国家)与2026年3月Qualtrics X4大会公布的合成Panel产品，并引入 2024年7月Shumailov等人在《自然》发表的"模型崩溃"(Model Collapse)研究作为理论基础，从行业趋势、方法边界和企业实践三个层面，讨论合成数据正在如何重塑市场研究行业。

行业临界点：AI 正在从"辅助工具"变成"基础设施"

Qualtrics对3000余名全球研究者的调查给出了一个信号数据：95%的研究者已经在日常使用或正在试用AI工具。这个数字的意义不是"AI普及了"，而是"AI已经不再构成差异化"。

真正的分化发生在"用什么AI"上。通用AI工具和聊天机器人的采用率从2025年的75%下降到如今的67%，而嵌入专业研究平台的AI工具和功能从62%上升到66%。这一趋势表明，市场研究行业正在从"探索期"进入"工具链专业化阶段"。通用模型的"通才"价值在收窄，具备研究方法学沉淀、样本管理能力与合规框架的专业平台正在成为主流。

与分化同步发生的是组织内部的"认知温差"。

• 83%的管理者认为AI让团队更高效，持相同观点的一线研究者仅65%。

（图片来源：Market Research Trends Report 2026）

这不是沟通问题，而是组织上下层对AI转型速度的感知出现了系统性偏差。

企业管理层往往更容易看到AI带来的效率提升，而一线研究者更清楚AI输出背后的不确定性：样本是否真实、回答是否稳定、结论是否可解释、偏差是否被放大。这种认知差异如果不能被管理好，会直接影响研究采购、项目设计和最终决策质量。

因此，企业真正需要的不是简单地“上AI”，而是建立一套更成熟的AI研究治理机制。

合成数据的真实定位：加速器，不是替代品

Qualtrics在2026年X4发布的synthetic panels，是观察合成调研数据商业定位的一个典型公开案例。按Qualtrics官方口径，该产品用于加速早期概念、信息和产品决策测试，可在数小时内产出方向性结果，成本约为真人Panel的一半；其专用模型在一项公开测试中，匹配真人回答的准确度约为通用LLM的12倍。Gabb案例显示，其将合成Panel与真人Panel并行使用，获得98%更快的洞察速度和约50%的成本下降，并认为合成数据适合作为早期“雷达”，但高风险决策仍需真人Panel验证。

（图片来源：Gabb官网）

在概念测试、广告初筛、产品命名、包装方向、权益组合等早期研究场景中，合成数据的优势非常明显：速度快、成本低、可并行测试大量假设，并且可以在短时间内模拟不同类型消费者的初步反应。

这类能力尤其适合解决一个长期困扰企业的问题：研究周期太慢，跟不上业务迭代。

很多企业并不是不想做消费者研究，而是等不起完整研究流程。一个新品概念可能只有一周窗口，一个营销创意可能第二天就要决定是否上线，一个权益方案可能需要在多个部门会议前先形成判断。传统研究流程在这些场景下很容易显得“正确但太慢”。

合成数据的价值，正是在这里出现的。

它可以帮助企业在真人调研之前，先快速完成假设探索：哪些方向明显不成立，哪些表达容易引发误解，哪些人群可能存在分歧，哪些问题值得进一步追问。

但这并不意味着合成数据可以替代真人数据。

更准确的说法是：合成数据负责加速探索，真人数据负责锚定真实。

数字100自身的实践也验证了这一逻辑。数字100 智瞰InsightAI 平台搭载的Persona AI数字人验证功能，设计出发点就不是"替代真人"，而是"帮助企业在对话真人之前，把问题问得更准"。

在某股份制银行信用卡权益优化项目中，团队将深访提纲和历史座谈会笔录作为种子语料输入Persona AI，48小时内生成了5位不同客群（高净值/公职/学生/待业/家庭）的数字分身，并对其进行了多轮追问和方案测试——从"1800元年费值不值"到"接送机和视频会员你选哪个"。合成数据在两天之内完成了传统调研需要8周才能完成的高强度探索，快速收敛出差异化权益组合方向。但项目团队在做出最终权益调整决策前，仍通过数字100自有Panel对核心结论进行了真人校准——合成数据负责加速探索，真人数据担任最终锚定。

合成数据的方法学边界：不是准不准，而是什么时候会失准

合成数据的问题不在"准不准"，而在于你不知道它什么时候开始不准。更重要的问题是：它在什么场景下有效，又会在什么场景下系统性失效？

至少有三个边界，企业在使用前必须看清。

边界1：闭环回流风险。当一个组织连续使用合成数据进行多轮研究，而缺少真实消费者数据校准时，AI的学习对象从"真人数据"逐渐变成"AI生成的上一轮数据"，时间一长，系统就可能不断强化既有假设，削弱对真实分布的表达能力。这不是推测。2024年7月，Shumailov等人在《Nature》发表关于“模型崩溃”的研究，指出模型在递归使用生成数据训练时，可能出现分布退化和尾部信息损失。这项研究并不等同于直接证明所有合成Panel都会失效，但它为市场研究行业提供了一个重要提醒：如果合成数据长期脱离真人数据校准，系统可能会越来越像自己，而不是越来越像现实。

边界2：平均值陷阱。合成数据本质上依赖历史模式和概率预测，因此它更擅长模拟常见人群、主流观点和稳定场景。也就是说，当市场越稳定、消费者行为越可预测时，合成数据通常越容易给出看似合理的结果。但市场研究真正有价值的地方，往往不是确认平均值，而是发现偏离平均值的信号。

新兴亚文化的爆发、边缘用户的异常选择、某个细分人群突然转向、某类内容在小圈层中率先流行，这些变化在早期往往不是“主流数据”，而是微弱、不连续、甚至看起来不合理的信号。合成数据可能会把这些信号平滑掉。

边界3：非线性变化盲区。真实消费者并不总是稳定、一致和理性。——今天支持环保，明天买最便宜的产品；说不看广告，却因为一条短视频下单；可以在访谈中表达理性需求，却在真实购买时被情绪、价格、社交关系或即时场景影响。

这些“不一致”恰恰是市场研究最值得捕捉的部分。合成数据可以模拟已有行为模式，但很难凭空发现尚未被充分记录的新变化。它假设世界具有一定连续性，而市场中的重要机会，常常来自不连续的转向。

真人数据的价值重估：从"通用样本"到"稀缺锚点"

理解了合成数据的优势和边界之后，一个关键信号变得清晰：AI越普及，真正反映现实世界的高质量真人数据反而越稀缺。

未来，真人数据的价值将不再只是“提供样本量”，而是成为AI系统的现实刻度尺。

合成数据可以告诉你：“像这样的人，可能会怎么回答。”真人数据才能告诉你：“真实的人，现在正在怎么想、怎么选、怎么行动。”

这两者的关系不是替代，而是互补。

在新的研究架构中，合成数据适合承担前端探索角色：快速扫描大量假设、模拟多类人群反应、提前发现表达问题、缩小决策范围。真人数据则承担关键锚定角色：验证核心判断、捕捉真实变化、校准模型偏差、支撑高风险决策。

这也是为什么，真正领先的研究平台并不会因为推出合成数据能力就放弃真人Panel。相反，越是重视AI能力的企业，越需要稳定、可靠、可持续的真人数据体系作为底座。

没有真人锚点的合成数据，短期看是效率提升，长期看可能是偏差放大。

数字100洞察：下一代研究体系是“双层架构”

1）战略研判：合成数据与真人数据的关系不是"替代"，是"锚定"。

数字100的判断是：未来三年内，领先企业的消费者研究与品牌洞察体系将经历一次底层重构。不是从"真人调研"迁移到"AI调研"，而是建立一个"合成加速探索 + 真人锚定真相"的双层架构。在这个架构里，合成数据的价值是速度和规模——快速扫描海量假设、淘汰明显不成立的选项、缩小决策范围。真人数据的价值是不可替代——在缩小后的决策空间内，提供不可质疑的信号基础。

数字100自身正在这个方向上推进实践。在"AI重构用户研究范式"的路径图中，数字100构建了"数据采集—洞察建模—测试验证"的AI全链路体系：底层全域数据引擎打通社交、电商、私域、问卷等多源数据，中间层AI语义引擎和深度模型矩阵驱动洞察产出，顶层Persona AI数字人验证和虚拟原型测试完成快速验证。而贯穿始终的，是自有Panel池持续提供的真人锚点——这套架构的逻辑不是"AI替代人"，而是"AI让人更有效率地接近真实"。

2）竞争启示：谁先定义"锚定比"，谁定义行业标准。

市场上正在出现两种极端观点。一种观点认为，既然合成数据更快、更便宜，就应该尽可能替代传统调研。另一种观点则完全拒绝合成数据，坚持只有真人数据才可信。

数字100认为，这两种观点都把工具问题变成了立场问题。

真正的竞争分水岭不是"用不用合成数据"，而是"谁能够系统性地回答：

在这个品类、这个决策场景、这个目标人群、这个风险等级下，合成数据和真人数据的最优组合比例是多少？

这个比例，我们可以称之为“锚定比”。数字100的Persona AI、AI访谈、全域数据引擎和自有Panel体系，本质上都是在为客户构建这种"组合决策"的能力——不是卖一种工具，而是帮客户建立"什么时候用什么工具"的判断力。

3）行动信号：企业如何判断是否应该使用合成数据

企业领导层需要关注的不是行业讨论有多热，而是判断自己的业务是否真的适合引入合成数据。可以先看三个信号。

第一，你的消费者洞察周期是否超过两周——如果是，合成数据可以在假设探索、问题预判和方案初筛环节显著提升效率；第二，你面对的市场是否高度稳定、消费者行为是否相对可预测——如果市场稳定，合成数据更容易发挥作用；如果市场剧烈变化，真人数据校准就必须更频繁；第三，你的品类是否存在高度细分的小众消费者群体——如果是，合成数据的"平均值倾向"可能在系统性忽略你最该抓住的人。

这三个信号不是简单判断“能不能用”，而是帮助企业识别：自己的业务场景更多处在合成数据的优势区间，还是风险区间。

数字100的判断是，未来三年，数据质量的定义将从"准确性"升级为"可锚定性"——一张没有真人刻度尺的AI数据地图，再精美也不可信。