引言
6月的第一周,AI × 心理测量领域有几条信息值得放在一起看。
两条线在同时推进。一条是"技术能做什么"——Nature Medicine的RCT用双盲设计证明AI在CBT治疗中确实可以做得比人更好,OpenAI的记忆系统从架构层面让"跨时间的心理状态追踪"成为可能,WWDC 2026预告的AI健康功能可能重新定义消费级心理评估的数据入口。另一条是"规则允不允许做"——中国GB/T 45253-2025已实施近18个月却少有人知,EU AI Act的高风险义务距生效不到两个月,而中国《AI拟人化交互服务管理暂行办法》的7月15日生效日更近在咫尺。
有趣的是,这两条线之间的断裂正在变得明显。技术面跑到了证明"AI可以做心理治疗而且比人做得好"的阶段,制度面却在同一个时间节点说"你做的这个东西到底算不算医疗器械、需要过什么审、谁来验证"——这些问题目前没有任何一个产品给出过完整答案。这一周,适合把技术进展和制度约束放在同一个画框里看。
01 | Nature Medicine RCT:AI首次在CBT核心技能上超越持证治疗师
- 信息类型:
学术研究 / 随机对照试验 - 研究领域:
临床心理学 / 认知行为治疗 / AI心理治疗 - 信息来源:
Nature Medicine, 2026年3月;Limbic(英国AI心理健康公司) - 发布时间:
2026年3月12日
这是本周最值得拉出来深度解剖的一项研究——虽然发表于3月,但它的方法学意义和行业影响在这周随着更多评论和解读的出现才真正展开。
Limbic公司发表了一项随机双盲研究,核心设计是:将AI代理(基于OpenAI、Anthropic、Google和Meta的多个主流模型,叠加Limbic自研的"Limbic Layer"临床推理系统)与持证人类治疗师在CBT治疗对话中进行盲法比较。评审者不知道哪段对话来自AI、哪段来自人类,仅根据CBT技能质量标准打分。结果具有里程碑意义:AI代理在CBT核心技能的整体表现上超过了持证治疗师。
这之所以重要,不是因为"AI又赢了一次"——这周以前,业内对AI心理治疗的主流叙事是"AI可以辅助、可以补充、可以作为低强度选择,但无法替代人类治疗师的临床专业判断"。而这篇发表在Nature Medicine(不是某个AI会议预印本,而是临床医学领域最顶级的同行评审期刊)上的双盲RCT,直接把这个叙事的边界推到了一个新位置。
Limbic Layer做了什么? 这是这篇论文在技术方法上最有意思的部分。它不是训练了一个端到端的CBT治疗模型,而是在通用大模型之上构建了一层"临床推理系统"——这个系统负责治疗结构的维持(如议程设定、家庭作业回顾)、治疗技术的选择(如苏格拉底式提问、认知重构)和治疗进程的管理(如避免"太早给建议"这个新手治疗师的经典错误)。本质上,Limbic Layer扮演的是一个"治疗督导"的角色——它不替代大模型的共情和语言能力,而是给这些能力加上临床约束。
核心发现:
AI代理在CBT核心技能评分上整体超过持证人类治疗师——这不是统计显著性边缘上的微弱优势,而是方向性上的清晰超越 关键的差异化因素不是"模型本身有多强",而是Limbic Layer提供的结构化临床推理——这意味着大模型的文本能力+CBT的临床结构化,比任何单独一方都更有效 研究采用双盲评审设计(评审者不知道对话来源),这在AI心理治疗研究的方法学标准上树立了一个新标杆——此前大量研究使用的是非盲、方便样本或实验室数据
对心理测量实践的影响:
这篇论文对心理测量的冲击不在治疗层面,而在评估层面。它提出了一个根本性的方法论问题:当AI的治疗表现需要通过"人类评审者"来评估时,这个评估本身的信度和效度怎么保证? Nature Medicine这篇用的是标准化的CBT技能评分工具,这本身就是一个心理测量学问题——评分工具的评分者间信度、评分维度的建构效度、不同CBT取向之间的评分等价性。如果AI心理治疗要成为一个循证方向,它需要的不仅是一个"AI能不能做到"的RCT,更需要一套"用什么标准来评判AI做得好不好"的心理测量学框架。这一点,目前整个领域几乎完全空白。
02 | TherapyGym:用CTRS自动评估AI治疗忠实度,把心理治疗AI从"黑箱"推入"可审计"时代
- 信息类型:
学术研究 / 评估框架 - 研究领域:
心理治疗忠实度 / 临床评估 / AI评估 - 信息来源:
arXiv: 2603.18008, 2026年3月 - 发布时间:
2026年3月20日
如果01条说的是"AI能不能做好CBT",TherapyGym回答的是一个同样关键但更容易被忽视的问题:"怎么验证AI确实在做CBT,而不是在陪聊"。
TherapyGym提出了一套自动化评估框架,使用认知治疗评定量表(Cognitive Therapy Rating Scale, CTRS)作为评分金标准,在多轮治疗对话中自动评估AI代理对CBT技术的忠实度(fidelity)。这不是简单的"治疗质量好不好"的模糊判断,而是逐条对应CTRS的11个评分项——包括议程设定、反馈质量、理解力、人际效能、合作、苏格拉底式提问、引导发现、聚焦关键认知、行为改变策略、家庭作业设定等维度——来判定AI的治疗对话在多大程度上符合CBT的技术规范。
框架的核心设计是"对抗性评估":模型的治疗忠实度不仅在与标准患者的对话中测试,还在"对抗性患者"(刻意偏离CBT适用范围的场景,如危机情境、人格障碍、复杂共病)中测试。这种设计直接回应了此前LLM心理评估研究中的一个核心批评——模型在"好天气"中的表现不能代表其在"坏天气"中的稳健性。
核心发现:
CTRS的11维度自动化评分流水线,使AI治疗忠实度评估从"请一个督导坐在旁边听"变成了"跑一个脚本",规模化评估的可行性被根本改变 对抗性测试揭示了当前AI治疗模型的一个关键弱点:当患者情境偏离"典型抑郁/焦虑"的CBT适配范围时,忠实度急剧下降——模型倾向于回到"通用共情模式"而非维持CBT技术结构 心理治疗忠实度测量本身的方法论问题被系统性地暴露出来:CTRS的评分者间信度在不同研究中波动巨大,自动评分能否比人类评分者更一致是一个需要进一步验证的问题
对心理测量实践的影响:
TherapyGym的价值超出了心理治疗AI本身。它示范了一种将心理测量学评估工具(CTRS)自动化、标准化和规模化的技术路径。这条路径的可迁移性很强——精神科诊断访谈的结构化评估工具(如SCID)、动机访谈的忠实度编码(MITI)、乃至任何有操作化评分手册的临床行为评估,理论上都可以用同样的框架做自动化。对心理测量从业者来说,这意味着一个新的专业角色正在浮现:"AI评估工具的评估者"——你不仅要会用量表,还要能判断AI对量表的自动化应用是否正确。
03 | AIGENIE:首个AI驱动量表开发的开源R包上线,把"AI写量表题目"从论文变成了可复现的工具
- 信息类型:
工具发布 / 开源软件 - 研究领域:
量表开发 / 自动题目生成 / 网络心理测量学 - 信息来源:
arXiv: 2603.28643; Hudson Golino团队(University of Virginia); R-universe (2026年5月24日上线) - 发布时间:
2026年5月
前面几期周报反复讨论过"AI生成的量表题目行不行"——Stanton的系统综述说了"能,但需要人在回路",Oeljeklaus等人的AI vs 专家量表比较指出了测量不变性的短板。但这些讨论有一个共同的痛点:它们停留在论文里,没有一个可用的工具让研究者自己试。
AIGENIE改变了这个状况。 这是首个将AI驱动量表开发全流程封装为R包的开源工具,由弗吉尼亚大学的Hudson Golino团队开发,5月24日正式上线R-universe。AIGENIE的全称是Automatic Item Generation with Network-Integrated Evaluation——从名字就能看出它的两个核心组件:自动题目生成(利用LLM生成量表条目)和网络心理测量学评估(利用心理测量网络模型评估条目质量)。
技术上的亮点在于"生成-筛选"的闭环设计。传统做法是让LLM一次性生成大批量题目然后人工筛选;AIGENIE的做法是:生成→用网络心理测量学指标(如bridge centrality、community detection等)做初筛→根据筛选结果反馈给LLM调整生成策略→再生成→再筛选。这个闭环把"人在回路"变成了"模型在回路"——人类只需要在最开始定义构念和最终做判断,中间的生成-筛选-迭代全部自动化。
R包内置了多个开源LLM的接口(通过ollama等本地部署方案),也支持调用商业API。对研究者而言,这意味着从"让ChatGPT帮我写50道题然后我自己挑"到"跑一个R脚本自动迭代生成并输出心理测量学筛选结果"的质变。
核心发现:
网络心理测量学指标(特别是bridge centrality)在筛选AI生成题目中表现出与人工筛选高度一致的结果——这是一个方法论上的重要验证 迭代反馈机制显著提升了生成题目的心理测量学质量:初代生成和经过3轮反馈的题目,在语义相关性、区分度指标上有系统性差异 开源+可复现的设计使不同研究团队可以在相同框架下比较AI量表开发的效果——这对解决此前LLM量表研究中"评估标准不一致"的问题有直接帮助
对心理测量实践的影响:
AIGENIE的出现意味着"AI辅助量表开发"从一个论文里的方法论讨论变成了一个可以上手实操的工作流。对国内心理测量研究者而言,这个R包的价值尤其大——你可以用自己的领域数据、自己的构念定义、自己的本地LLM来跑量表开发流程,而不再依赖于某个特定商业模型的输出质量。但是,AIGENIE目前对中文LLM的支持尚不明确,中文量表开发场景的适配性需要验证。另外,工具本身不替代心理测量学的专业判断——网络筛选指标可以帮助你识别"这个题目在这个维度网络里位置不对",但不能告诉你"这个构念的理论定义应该包含哪些维度"。
04 | GB/T 45253-2025《互联网心理服务 心理测评服务通用规范》:一部已实施一年多但被行业系统性地忽视的国家标准
- 信息类型:
政策法规 / 国家标准 - 信息来源:
国家标准化管理委员会;全国服务标准化技术委员会(TC264);2025年2月28日发布并实施 - 时间:
2025年2月28日发布并实施
GB/T 45253-2025这个标准,从编号到发布日期都说明它已经生效一年多了,但从行业讨论的热度来看,它几乎是"不存在"的。在AI心理测评产品铺天盖地的当下,这部明确规定了互联网心理测评服务全流程要求的国家标准,反而被绕过去了。
标准的核心框架是5个维度:服务提供者资质、测评工具信效度、服务流程规范、数据安全、知情同意。 这几条听上去像是任何一个心理测评产品"应该做到"的基本要求,但实际上,如果你拿这个标准去逐条对应当前市面上的AI心理测评产品,大部分连第5.4条(测评工具需满足信度和效度要求,具体见规范性附录A)都过不了。
关键条款对AI测评的直接冲击:
第一条:测评工具的信效度要求(附录A)。 标准没有写"AI生成的心理评估结果可以豁免信效度验证"——它写的是所有测评工具,不论传统还是AI驱动,都需满足信效度要求。问题在于,AI测评工具(特别是基于LLM的开放式评估、多模态无感测评、对话式评估)的传统信效度验证方法(如重测信度、内部一致性、校标关联效度)在很多情况下根本不适用——当你每次生成的"测评"都不一样时,重测信度的基础假设就不成立了。这意味着AI测评工具需要建立一套全新的信效度验证范式,但目前没有任何产品在做这件事。
第二条:知情同意原则(第4.4条)。 "需提前向用户充分告知服务内容、数据使用规则、风险等信息,获得用户明确同意后再开展服务。"这一点对"无感测评"类产品构成直接挑战——如果你的产品卖点是"学生不知道自己在被测评",那么在标准框架下,这种设计本身就与知情同意原则存在结构性冲突。
第三条:结果保存与管理(第6.8条)。 标准要求"按照要求妥善保存用户测评结果,明确保存期限与销毁规则"。AI驱动的测评结果有一个特殊的法律属性问题:LLM生成的评估文本算不算"测评结果"?如果是,它的保存期限和销毁规则是什么?如果一个AI生成的心理评估报告被引用到学生的档案里,这个结果的"有效期"是多长?
为什么值得关注:
这部标准之所以被行业忽视,一个可能的原因是它属于"推荐性国家标准"(GB/T,非强制性的GB),而且在AI心理测评爆发的这几年恰好处于"前AI时代"的标准框架中——它制定的时候,LLM心理评估还不是一个热门方向。但推荐性不代表没有法律效力——如果发生争议(比如一个AI心理测评工具的错误评估导致了实际伤害),这部标准将成为判断"服务提供者是否履行了合理的专业注意义务"的重要参考依据。
对心理测量从业者的启示:
如果你在开发或采购AI心理测评产品,GB/T 45253-2025是你需要逐条核查的基线文件——不是因为它管得严,而是因为它几乎是目前中国唯一一部对"互联网心理测评"提出系统性要求的国家标准 测评工具的信效度问题在AI语境下需要被重新定义——这不是一个"做不做得到"的问题,而是一个"用什么方法来证明它做到了"的方法论问题。心理测量学在这个问题上的缺席,是当前AI测评行业最大的风险敞口之一
05 | OpenAI Dreaming V3记忆系统上线:纵向心理追踪有了新技术底座,但也带来了新隐私问题
- 信息类型:
产品发布 / 技术更新 - 应用场景:
AI心理健康 / 纵向评估 / 隐私安全 - 信息来源:
OpenAI Release Notes, 2026年6月4日 - 时间:
2026年6月4日
6月4日,OpenAI推出了代号"Dreaming V3"的ChatGPT记忆系统重大升级。官方描述是"更强大的可扩展记忆系统,能更好地保持上下文新鲜度、跟踪偏好、随时间保持信息时效性",Plus/Pro用户的记忆容量翻倍。
从心理测量学角度看,这次升级的真正意义不在于"它能记住更多对话",而在于它创造了一种新的数据采集范式:连续的、非结构化的、由AI主动维护的个人信息档案。 想象一个场景:一个抑郁患者在六个月内不定期地与ChatGPT谈论自己的情绪波动、睡眠质量、社交退缩——Dreaming V3不会把这些对话当作独立session处理,而是会构建一个跨时间的、不断更新的"用户状态模型"。这个模型包含的不是标准化的PHQ-9分数,而是一种更细腻但完全无结构的"AI形成性评估"。
这带来了三个全新的心理测量学问题:
第一,跨时间一致性问题。 Dreaming V3的记忆更新机制是如何决定"保留什么、遗忘什么"的?如果记忆系统倾向于保留负面信息(因为负面信息在情绪支持类对话中更"显著"),那么它构建的用户画像可能存在系统性的负性偏向——这是一种新的测量偏差来源,之前的心理测量学文献完全没有讨论过。
第二,评估效度问题。 ChatGPT不是心理测评工具,但当一个用户的情绪模式被持续记录在它的记忆中,当用户问"你觉得我最近状态怎么样",它的回答在实践层面就是一个非正式的"心理评估"。这个评估的效度是多少?它基于什么"常模"?它有没有考虑用户的文化背景、性别、年龄等因素对语言表达的影响?
第三,知情同意的沉默侵蚀。 OpenAI在设置中提供了记忆管理功能,用户理论上可以查看和删除记忆。但问题是:(1)多数用户不知道自己生成了多少条记忆;(2)这些记忆的内容可能会出现在用户并未明确请求心理评估的对话中;(3)当这些记忆被用于推断用户的心理状态时,没有单独的知情同意流程。
为什么值得关注:
Dreaming V3不是为心理测量设计的,但它的技术架构天然适配纵向心理评估——更好的长时记忆、更强的上下文关联、更大的记忆容量。这意味着,AI辅助心理评估正在从"单次session的快照评估"进入"跨时间累积的档案式评估",而后者对效度验证、知情同意和隐私保护的要求,比前者高了不止一个数量级。上期周报谈了ChatGPT的Trusted Contact——AI从评估到干预的这一步。Dreaming V3走的是同一条路的不同入口:通过增强记忆让AI能"更了解你",但更了解你等于更准确的评估吗?还是等于更精致的偏见?
对心理测量从业者的启示:
纵向AI评估的记忆偏差问题是心理测量学可以做出独特贡献的领域——信号检测论、测量不变性、回归均值效应等经典概念可以直接移植到这个新场景 如果你在临床或研究中使用ChatGPT进行任何形式的心理状态追踪,需要意识到记忆系统本身的运作逻辑可能成为混淆变量 隐私保护不仅是合规问题——当AI记忆中包含可推断心理状态的数据时,这个数据的法律属性(个人信息?敏感个人信息?医疗数据?)目前在中国和欧盟的法律框架下都没有被明确界定
06 | WWDC 2026明日开幕:Apple Intelligence的AI健康功能能否成为心理测量学的新数据源?
- 信息类型:
行业前瞻 / 技术趋势 - 应用场景:
消费级健康 / 心理健康 / 数字表型 - 信息来源:
Apple WWDC 2026(6月9-13日,Apple Park) - 时间:
2026年6月9日-13日
严格来说,WWDC 2026还没开——6月9日才正式开幕。但这一周整个科技圈的讨论已经围绕它展开,而从心理测量学的角度看,有几条值得在开幕前就拉出来分析。
已知信息是:iOS 27被描述为"AI原生操作系统"的分水岭,Siri将迎来15年来最大规模重构(独立App形态、深度融入生成式AI、第三方AI模型平台化开放),而Apple Intelligence的核心升级方向之一就是健康与福祉(Health & Wellness)。结合此前Nature Medicine在2026年1月发表的智能设备预测21种认知与心理健康结果的实证研究、以及Apple过去几年在Apple Watch上的健康传感器布局(心率变异性HRV、睡眠阶段、血氧、皮肤温度),一个清晰的图景正在浮现:Apple即将把iPhone和Apple Watch变成全球最大规模的被动心理生理数据采集平台。
这对心理测量学的影响是双向的。机会面: 如果iOS 27确实开放了健康相关API(尤其是与AI模型对接的接口),心理测量研究者将前所未有地获得大规模、纵向、多模态的真实世界数据——手机使用模式、睡眠、运动、社交频率、心率变异性等。这些数据可以用来验证、校准和补充现有的心理评估工具,特别是在数字表型(digital phenotyping)方向。风险面: 如果Apple把这些数据用于生成任何形式的"心理状态推断"或"情绪福祉评估"(哪怕只是Apple Watch上的一个"压力趋势"图表),它就进入了一个从"数据采集"到"心理推断"的灰色地带——而且这个地带的边界正是EU AI Act Article 5(1)(f)和中国的《AI拟人化交互暂行办法》同时在收紧的方向。
为什么值得关注:
Apple进入AI健康领域的方式,和Google I/O上"健康全线缺席"的策略构成了鲜明对比。Google在合规压力下选择了退缩,Apple则选择了一个更微妙的位置:它可能不会直接声称在做"心理健康评估",但它提供的"压力趋势""心率变异性分析""睡眠质量评分"等健康洞察,在心理测量学意义上和情绪福祉评分几乎属于同一个概念家族——只是换了一个健康领域的话术包装。如果这个策略成功,它可能为整个行业开辟一条绕过"心理评估"敏感标签但实质上在做心理推断的合规路径。
对心理测量从业者的启示:
WWDC 2026值得关注的不是某个具体功能,而是Apple对"健康"和"心理"之间的边界的定义方式——这个定义将影响未来几年消费级心理健康产品的设计和监管边界 如果iOS 27开放了健康数据API,心理测量研究者应该尽快评估这些数据能否纳入现有的数字表型研究框架——数据源的质量(采样频率、传感器精度、开放程度)将直接影响下游研究的有效性 Apple的健康数据+LLM的组合(如果出现),本质上是一个"多模态数字表型"系统,它的信效度验证需要心理测量学的参与——但目前这个角色的存在感仍然为零
07 | 合规日历:7月15日→8月2日的双重节点,AI心理测评产品的"合规护照"窗口在收窄
- 信息类型:
监管前瞻 / 合规时间线 - 信息来源:
中国《AI拟人化互动服务管理暂行办法》(2026年7月15日生效);EU AI Act高风险条款(2026年8月2日生效);GLACIS EU AI Act合规指南(2026年6月) - 生效时间:
2026年7月15日(中国)、2026年8月2日(EU)
前几期周报分别用大篇幅讨论过这两套监管框架的内容细节,这一周不再重复条文,而是聚焦在当前时间节点上的合规形势变化。
三个值得注意的新动向:
第一,中国的《暂行办法》距生效只剩38天,但行业内的合规准备进度几乎不可见。 这项法规不是空泛的伦理声明——它有具体的禁止事项(禁止诱导情感依赖和成瘾、禁止为未成年人提供虚拟亲密关系服务)、有具体的操作要求(强制2小时连续使用提醒、便捷退出机制、紧急干预机制)、有具体的处罚条款(一般违规1-10万、涉及生命健康的10-20万)。任何涉及"AI陪你聊天""AI心理陪伴""AI情绪支持"的产品,都在监管覆盖范围内。但到目前为止,这些产品的公开信息中没有出现任何关于合规准备的主动披露。
第二,EU AI Act的高风险义务距生效还有55天,而6月新出的合规指南(如GLACIS 6月版)揭示了一个关键细节: 高风险AI的合规义务不是从8月2日开始逐步推进,而是从8月2日开始直接生效——不存在过渡期。这意味着,如果你的AI测评产品被划入Annex III的心理评估类别,8月1日和8月2日之间不是"可以慢慢来"的区别,而是"合法"和"违法"的区别。
第三,"双重合规"的成本正在被量化。 一个同时面向中国和欧盟市场的AI心理测评产品,需要同时满足中国侧的产品设计约束(防沉迷、防依赖、隐私同意的中国标准)和欧盟侧的风险管理约束(风险管理体系、第三方合格评定、技术文档、人类监督、准确性鲁棒性验证)。这两个框架的要求不是叠加关系,而是叠加后产生新的交叉要求——比如"人类监督机制"(EU要求)怎么和"禁止诱导依赖"(中国要求)在同一个产品设计中协调。一个产品如果只做了单边合规,在另一边市场上仍然可能违法。
为什么值得关注:
不是因为这38天和55天的倒计时本身紧张——而是因为,如果你是一家AI心理测评公司,你现在面临的不只是一个合规问题,而是一个"先合规还是先做效度验证"的两难。合规需要投入法律团队、技术团队和外部审计资源。效度验证需要投入心理学专业力量和真实人群数据采集。这两件事需要的资源、能力和时间线完全不同,而且对一个初创公司来说几乎不可能同时高质量完成。结果很可能是:大多数产品会选择先做合规(因为不做可能不能卖),而把效度验证继续搁置(因为不做还能卖)。
合规要点:
如果你的产品面向中国市场且涉及"AI与用户的情感性互动"(包括心理陪伴、情绪支持、AI心理咨询),需要在7月15日前确认是否落入"持续性情感交互服务"的监管范围 如果你的产品面向欧盟市场且涉及"心理状态推断、人格特征评估或心理健康评估",需要在8月2日前启动Annex III的高风险AI分类自评 GB/T 45253-2025虽然不直接等同于合规要求,但如果产品宣传涉及"互联网心理测评",它代表了司法和行政判定"合理注意义务"的重要参考标准
本周趋势判断
- AI心理治疗从"辅助工具"到"替代可能"的转向被Nature Medicine的RCT正式开启了
Limbic的研究论的是一个具体问题——"AI能不能比人更好地做CBT"——但它打开的是一扇更大的门:如果AI能在一种心理治疗技术上超越人,为什么不能在更多技术上?如果能在盲法评审中超越人,为什么不能在真实临床环境中?这些问题不是对"替代"的恐惧,而是对"如何验证替代是否安全有效"的呼唤。而验证这件事,正如TherapyGym展示的——不只是"好不好"的主观判断,而是需要标准化的忠实度测量框架。 - "纵向AI心理评估"正在从技术能力变成架构默认——但它的效度验证仍在真空
OpenAI的Dreaming V3、Apple Watch的持续健康监测、以及越来越普遍的"AI记住你的情绪模式"——这些不是设计为心理评估的,但它们产生的结果在实践中就是评估。当一个AI说"你最近压力比较大"的时候,它在功能上和"你的PSS-10分数升高了"没有本质区别。区别在于,后者经过了心理测量学验证,前者不知道是基于什么逻辑得出来的。这个差距在纵向场景中被进一步放大,因为连续评估的累积效应——错误评估的叠加——会放大单次评估的误差。 - 48天后的7月15日和70天后的8月2日,将重新定义AI心理测评的合法边界——不是在"应该做什么"的层面上,而是在"还能做什么"的层面上
前几期周报的趋势判断多聚焦于"技术趋势"和"研究趋势",这一周的趋势判断需要增加一个维度:制度趋势。两个监管生效日的接近,加上GB/T 45253-2025的存在,意味着中国和欧盟的AI心理测评监管框架到今年8月将基本成型。这意味着,AI心理测量行业正在进入一个"合规则期"——在这个时期,合规成本将开始筛选参与者。那些既没有做效度验证也没有做合规准备的AI测评产品,面对的不是"优化"的问题,而是"能否继续存在"的问题。
结语
这一周的信息有点"两头亮、中间暗"——Nature Medicine的RCT和OpenAI的记忆升级代表了技术侧的两个新高度,GB/T 45253和双重合规倒计时代表了制度侧的收紧信号。而中间那条线——从"技术能做到"到"制度允许做"之间的"心理测量学验证"——仍然暗着。
这不是一个新问题。前几期周报反复说过:验证链是断的。但这周的不同之处在于,技术侧的证据质量在升级——Nature Medicine的RCT不再是"AI在某个小样本任务上F1还不错"这种实验室级别的证据,而是双盲、RCT、顶刊发表、涉及真实临床功能。当技术证据的质量提升到这个水平,缺席的验证就变得比以前更扎眼:你能证明AI可以比治疗师更好地做CBT,但你没法证明对AI治疗对话的自动化评估(CTRS自动评分)的信度比人类评分者更高——这个问题在TherapyGym的对抗性测试中已经被暗示了。
制度面同理。GB/T 45253-2025要求"测评工具需满足信度和效度要求",但没有说"对于每次输出结果都不同的大语言模型心理评估,怎么验证它的信度"。这个怎么做的空白,既是心理测量学的机会,也是行业的风险——因为如果在空白被填上之前,一个AI测评产品出了事故,到时候需要的不只是一个"怎么验证"的方法论,而是一个"为什么不提前验证"的追责逻辑。
WWDC 2026后天就开。可能带来新数据源,也可能带来新的监管难题。下期周报拭目以待。
夜雨聆风