

2026年,合成数据正在成为市场研究行业最受关注的话题之一。大模型可以生成成千上万个“虚拟消费者”,替品牌方完成概念测试、问卷模拟、产品反馈甚至广告评估。于是,一个问题被反复提出:如果AI已经能模拟消费者回答,真实消费者还有必要吗?
未来市场研究的关键,不是“选AI还是选人”,而是建立一套更清晰的判断机制:什么时候用AI加速探索,什么时候必须用真人数据锚定结论。

本文以行业观察者视角,拆解Qualtrics公开发布的《2026全球市场调研趋势报告》(基于3000余名研究者、覆盖17个国家)与2026年3月Qualtrics X4大会公布的合成Panel产品,并引入 2024年7月Shumailov等人在《自然》发表的"模型崩溃"(Model Collapse)研究作为理论基础,从行业趋势、方法边界和企业实践三个层面,讨论合成数据正在如何重塑市场研究行业。
行业临界点:AI 正在从"辅助工具"变成"基础设施"
Qualtrics对3000余名全球研究者的调查给出了一个信号数据:95%的研究者已经在日常使用或正在试用AI工具。这个数字的意义不是"AI普及了",而是"AI已经不再构成差异化"。

真正的分化发生在"用什么AI"上。通用AI工具和聊天机器人的采用率从2025年的75%下降到如今的67%,而嵌入专业研究平台的AI工具和功能从62%上升到66%。这一趋势表明,市场研究行业正在从"探索期"进入"工具链专业化阶段"。通用模型的"通才"价值在收窄,具备研究方法学沉淀、样本管理能力与合规框架的专业平台正在成为主流。
与分化同步发生的是组织内部的"认知温差"。
• 83%的管理者认为AI让团队更高效,持相同观点的一线研究者仅65%。

(图片来源:Market Research Trends Report 2026)
这不是沟通问题,而是组织上下层对AI转型速度的感知出现了系统性偏差。
企业管理层往往更容易看到AI带来的效率提升,而一线研究者更清楚AI输出背后的不确定性:样本是否真实、回答是否稳定、结论是否可解释、偏差是否被放大。这种认知差异如果不能被管理好,会直接影响研究采购、项目设计和最终决策质量。
因此,企业真正需要的不是简单地“上AI”,而是建立一套更成熟的AI研究治理机制。
合成数据的真实定位:加速器,不是替代品
Qualtrics在2026年X4发布的synthetic panels,是观察合成调研数据商业定位的一个典型公开案例。按Qualtrics官方口径,该产品用于加速早期概念、信息和产品决策测试,可在数小时内产出方向性结果,成本约为真人Panel的一半;其专用模型在一项公开测试中,匹配真人回答的准确度约为通用LLM的12倍。Gabb案例显示,其将合成Panel与真人Panel并行使用,获得98%更快的洞察速度和约50%的成本下降,并认为合成数据适合作为早期“雷达”,但高风险决策仍需真人Panel验证。

(图片来源:Gabb官网)
在概念测试、广告初筛、产品命名、包装方向、权益组合等早期研究场景中,合成数据的优势非常明显:速度快、成本低、可并行测试大量假设,并且可以在短时间内模拟不同类型消费者的初步反应。
这类能力尤其适合解决一个长期困扰企业的问题:研究周期太慢,跟不上业务迭代。
很多企业并不是不想做消费者研究,而是等不起完整研究流程。一个新品概念可能只有一周窗口,一个营销创意可能第二天就要决定是否上线,一个权益方案可能需要在多个部门会议前先形成判断。传统研究流程在这些场景下很容易显得“正确但太慢”。
合成数据的价值,正是在这里出现的。
它可以帮助企业在真人调研之前,先快速完成假设探索:哪些方向明显不成立,哪些表达容易引发误解,哪些人群可能存在分歧,哪些问题值得进一步追问。
但这并不意味着合成数据可以替代真人数据。
更准确的说法是:合成数据负责加速探索,真人数据负责锚定真实。
数字100自身的实践也验证了这一逻辑。数字100 智瞰InsightAI 平台搭载的Persona AI数字人验证功能,设计出发点就不是"替代真人",而是"帮助企业在对话真人之前,把问题问得更准"。

在某股份制银行信用卡权益优化项目中,团队将深访提纲和历史座谈会笔录作为种子语料输入Persona AI,48小时内生成了5位不同客群(高净值/公职/学生/待业/家庭)的数字分身,并对其进行了多轮追问和方案测试——从"1800元年费值不值"到"接送机和视频会员你选哪个"。合成数据在两天之内完成了传统调研需要8周才能完成的高强度探索,快速收敛出差异化权益组合方向。但项目团队在做出最终权益调整决策前,仍通过数字100自有Panel对核心结论进行了真人校准——合成数据负责加速探索,真人数据担任最终锚定。
合成数据的方法学边界:不是准不准,而是什么时候会失准
合成数据的问题不在"准不准",而在于你不知道它什么时候开始不准。更重要的问题是:它在什么场景下有效,又会在什么场景下系统性失效?
至少有三个边界,企业在使用前必须看清。

边界1:闭环回流风险。当一个组织连续使用合成数据进行多轮研究,而缺少真实消费者数据校准时,AI的学习对象从"真人数据"逐渐变成"AI生成的上一轮数据",时间一长,系统就可能不断强化既有假设,削弱对真实分布的表达能力。这不是推测。2024年7月,Shumailov等人在《Nature》发表关于“模型崩溃”的研究,指出模型在递归使用生成数据训练时,可能出现分布退化和尾部信息损失。这项研究并不等同于直接证明所有合成Panel都会失效,但它为市场研究行业提供了一个重要提醒:如果合成数据长期脱离真人数据校准,系统可能会越来越像自己,而不是越来越像现实。
边界2:平均值陷阱。合成数据本质上依赖历史模式和概率预测,因此它更擅长模拟常见人群、主流观点和稳定场景。也就是说,当市场越稳定、消费者行为越可预测时,合成数据通常越容易给出看似合理的结果。但市场研究真正有价值的地方,往往不是确认平均值,而是发现偏离平均值的信号。
新兴亚文化的爆发、边缘用户的异常选择、某个细分人群突然转向、某类内容在小圈层中率先流行,这些变化在早期往往不是“主流数据”,而是微弱、不连续、甚至看起来不合理的信号。合成数据可能会把这些信号平滑掉。
边界3:非线性变化盲区。真实消费者并不总是稳定、一致和理性。——今天支持环保,明天买最便宜的产品;说不看广告,却因为一条短视频下单;可以在访谈中表达理性需求,却在真实购买时被情绪、价格、社交关系或即时场景影响。
这些“不一致”恰恰是市场研究最值得捕捉的部分。合成数据可以模拟已有行为模式,但很难凭空发现尚未被充分记录的新变化。它假设世界具有一定连续性,而市场中的重要机会,常常来自不连续的转向。
真人数据的价值重估:从"通用样本"到"稀缺锚点"
理解了合成数据的优势和边界之后,一个关键信号变得清晰:AI越普及,真正反映现实世界的高质量真人数据反而越稀缺。
未来,真人数据的价值将不再只是“提供样本量”,而是成为AI系统的现实刻度尺。
合成数据可以告诉你:“像这样的人,可能会怎么回答。”真人数据才能告诉你:“真实的人,现在正在怎么想、怎么选、怎么行动。”
这两者的关系不是替代,而是互补。

在新的研究架构中,合成数据适合承担前端探索角色:快速扫描大量假设、模拟多类人群反应、提前发现表达问题、缩小决策范围。真人数据则承担关键锚定角色:验证核心判断、捕捉真实变化、校准模型偏差、支撑高风险决策。
这也是为什么,真正领先的研究平台并不会因为推出合成数据能力就放弃真人Panel。相反,越是重视AI能力的企业,越需要稳定、可靠、可持续的真人数据体系作为底座。
没有真人锚点的合成数据,短期看是效率提升,长期看可能是偏差放大。
数字100洞察:下一代研究体系是“双层架构”

1)战略研判:合成数据与真人数据的关系不是"替代",是"锚定"。
数字100的判断是:未来三年内,领先企业的消费者研究与品牌洞察体系将经历一次底层重构。不是从"真人调研"迁移到"AI调研",而是建立一个"合成加速探索 + 真人锚定真相"的双层架构。在这个架构里,合成数据的价值是速度和规模——快速扫描海量假设、淘汰明显不成立的选项、缩小决策范围。真人数据的价值是不可替代——在缩小后的决策空间内,提供不可质疑的信号基础。
数字100自身正在这个方向上推进实践。在"AI重构用户研究范式"的路径图中,数字100构建了"数据采集—洞察建模—测试验证"的AI全链路体系:底层全域数据引擎打通社交、电商、私域、问卷等多源数据,中间层AI语义引擎和深度模型矩阵驱动洞察产出,顶层Persona AI数字人验证和虚拟原型测试完成快速验证。而贯穿始终的,是自有Panel池持续提供的真人锚点——这套架构的逻辑不是"AI替代人",而是"AI让人更有效率地接近真实"。
2)竞争启示:谁先定义"锚定比",谁定义行业标准。
市场上正在出现两种极端观点。一种观点认为,既然合成数据更快、更便宜,就应该尽可能替代传统调研。另一种观点则完全拒绝合成数据,坚持只有真人数据才可信。
数字100认为,这两种观点都把工具问题变成了立场问题。
真正的竞争分水岭不是"用不用合成数据",而是"谁能够系统性地回答:
在这个品类、这个决策场景、这个目标人群、这个风险等级下,合成数据和真人数据的最优组合比例是多少?

这个比例,我们可以称之为“锚定比”。数字100的Persona AI、AI访谈、全域数据引擎和自有Panel体系,本质上都是在为客户构建这种"组合决策"的能力——不是卖一种工具,而是帮客户建立"什么时候用什么工具"的判断力。
3)行动信号:企业如何判断是否应该使用合成数据
企业领导层需要关注的不是行业讨论有多热,而是判断自己的业务是否真的适合引入合成数据。可以先看三个信号。
第一,你的消费者洞察周期是否超过两周——如果是,合成数据可以在假设探索、问题预判和方案初筛环节显著提升效率;第二,你面对的市场是否高度稳定、消费者行为是否相对可预测——如果市场稳定,合成数据更容易发挥作用;如果市场剧烈变化,真人数据校准就必须更频繁;第三,你的品类是否存在高度细分的小众消费者群体——如果是,合成数据的"平均值倾向"可能在系统性忽略你最该抓住的人。
这三个信号不是简单判断“能不能用”,而是帮助企业识别:自己的业务场景更多处在合成数据的优势区间,还是风险区间。
数字100的判断是,未来三年,数据质量的定义将从"准确性"升级为"可锚定性"——一张没有真人刻度尺的AI数据地图,再精美也不可信。
合成数据会成为市场研究的重要基础设施,但它不会终结真人数据的价值。恰恰相反,AI越普及,真正高质量、可验证、可追溯的真人数据越重要。
合成数据是加速器。
但加速器的方向,必须由真实世界来校准。
数字100·领先的全域数据洞察与智能决策伙伴
—— 用数据锚定真相,让每一次AI加速都不偏航。

ABOUT Insight LAB
—
Insight LAB是数字100 DATA100全新推出的特别策划栏目。本栏目旨在洞察和研究海内外时下最流行和最值得关注的消费趋势、新兴的消费平台或技术、品牌在用户体验领域的探索等等。欢迎持续关注本栏目!未来我们还会带来更多有趣和有价值的内容。

关于数字100
作为全域数据洞察与智能决策服务商,自2006年成立以来,数字100致力于运用数据智能技术构建用户体验反馈数据的采集、洞察和分析的在线服务平台,并结合国内外数以亿计的公域消费者的触达能力,为大型企业和机构提供从需求挖掘、新产品测试、品牌研究到用户分析的一站式数字化洞察分析服务。



夜雨聆风