

编者按
当大模型浪潮席卷各行各业,效率与创新常被奉为最高准则。可一旦AI走进最脆弱的人心,什么该“为”,什么该“不为”?这不再只是技术题,更是一道价值选择题。
腾讯SSV技术生态团队在心理咨询领域的探索,给出了一个值得思考的答案。他们拒绝了“AI直接接听热线”的请求,放弃了“AI自动筛查风险并升级紧急流程”的方案——尽管技术上可行,但AI尚无法分辨沉默背后的绝望与犹豫,一旦误判,代价可能是一个人的生命。他们选择了一条更慢、更稳的路:把AI嵌入热线后台,帮接线员自动生成工单摘要,辅助质检评分,为文字坐席提供备选回复。不替代人,只增强人。
让大模型理解“人心”远比想象中困难。一个耐心的沉默,AI可能判为“回应不及时”;一次适时的追问,却需要反复调优才能习得。团队为此压缩评估维度、联合北师大打磨“情商”,让模型先倾听、后建议。
在技术生态团队成员看来,向善不是一句口号,而是在每一个“技术可行但风险难测”的岔路口,选择敬畏生命、守住边界。真正的科技向善,从来不是跑得最快,而是走得更稳、更有人情味。

近年来,青少年心理问题持续攀升。焦虑、抑郁的风险加剧,大部分青少年更倾向于匿名的线上或电话求助。接听人力不足,却是这个行业的困境。高峰时,一名热线志愿者单个夜班要处理15到20通来电。线路那头,还有更多的求助者在等待。
心理咨询是人与人的交流,有人可以滔滔不绝地倾诉,有人沉默不言需要引导,一个语气中的迟疑、一次长时间的沉默,都可能暗含截然不同的心理状态。这个领域的特殊之处在于,它面对的是人心最脆弱的一角,极度依赖“人”的专业经验、临场判断、共情能力。
过去一年多,腾讯SSV技术生态团队一直在心理咨询领域探索AI落地的场景。他们拒绝了很多看起来高效的方案,放弃了一些在技术上可行的功能,却也找到了一条稳扎稳打的路径。

2024年夏天,腾讯SSV技术生态团队开始系统性扫描这个行业,从高校公益组织、专业研究机构,到一线医院和心理热线中心。他们很快发现:心理咨询、危机干预、康复照料,每个环节都需要大量专业人力,而资源紧张几乎是全行业的共同状态。
其中,最突出的瓶颈集中在连接求助者与咨询服务的“热线入口”。中国科学院心理研究所发布的相关报告显示,青少年群体的焦虑、抑郁风险水平持续攀升。多数青少年更倾向于选择匿名、即时的线上或电话求助渠道,而非线下咨询。
需求快速上涨的另一面,是接线能力的长期不足。据媒体不完全统计,不少热线的平均接通率徘徊在30%—40%之间,高峰时段甚至低于25%。
“能不能做个AI直接收听电话的功能,这样可以帮我们分流,提升接线效率。”腾讯SSV技术生态部门心理项目负责人王彦陶提到,这是他们在调研时常听到的需求。从技术角度看,这并不困难。语音识别和对话系统的能力已经比较成熟,银行、电商的客服都在用类似的解决方案。但王彦陶他们拒绝了这个需求。
还有机构希望做一个AI陪伴的智能体,通过咨询者与AI交流的内容来筛查风险,当识别到高危自残等倾向后,甚至能自动升级到外部紧急流程。这个看似高效的方案,他们也选择不做。
因为在真实场景中,心理危机的低风险和高风险很难有清晰的边界。相关心理研究提到,部分青少年在出现重度心理危机前,可能并不会直接表达强烈的意念,而是以失眠、学业压力、家庭冲突等“低烈度”的困扰呈现。
人工咨询师经过长期训练和经验积累才能从中识别出危险信号,AI现在还无法准确判断。
设想一下,一个17岁的高中生,可能会因为一次考试前的焦虑失眠打来电话,也可能是因为长期抑郁正处在崩溃边缘。如果AI在接线前就做了分流,把某个看似“低风险”的来电排到队列后面,而这个孩子恰好在那个夜晚最需要被听见——AI判断失误的代价,可能关乎一个人的生命。
这些被拒绝的需求,其实都指向同一个问题:在心理咨询及救助场景,AI应该扮演什么角色?
这个问题在团队内部讨论很多次。腾讯SSV技术生态部门负责人李哲用特斯拉的自动驾驶作类比。自动驾驶的本质是识别障碍物、避免发生碰撞。从封闭场地测试,到不断迭代算法,再到今天只在有限区域中小规模路测,特斯拉花了十年才把自动驾驶推向现实世界。
一个相对确定的物理决策系统都需要这么长的验证周期,AI理解情绪、判断风险、参与重大决策的应用并实现可靠的“自动驾驶”状态,也没法在短时间内做到。
经过一系列调研与讨论,团队最终在“不能做什么”的标准上达成共识——凡是涉及替代专业判断、自动处置、把风险决策交给AI的功能,一律不做。
于是,他们决定现阶段不做直接面向用户的心理咨询产品,重点探索如何安全、有效地将AI嵌入心理咨询热线后台的工作流。

热线中心的日常是忙碌的。接线员戴着耳机,一通接一通地收听电话。有人刚安抚完一位情绪失控的来电者,来不及喝口水,就得立刻低头敲键盘填工单。
一通电话少则十几分钟,多则半小时,挂断后接线员还要复盘来电背景、核心诉求、干预方式、风险等级、后续建议,完成工单填写。流程上规定必须填完才能接下一通电话,现实中却常常陷入两难:认真写,会耽误接线;赶时间写,又难免潦草。
这成为腾讯SSV技术生态团队切入的第一个场景。他们没有重做一套热线系统,而是选择将AI技术以API接口的方式嵌入机构原有的平台——在界面上,形成一个“AI分析”的便捷按钮。
电话结束后,大模型会自动生成结构化摘要,包括来电主题、情绪状态、干预要点等,接线员只需快速核对、微调即可提交。过去需要10到15分钟填写工单,如今压缩到几分钟完成。看起来只是节省了一点时间,但在高峰期,这意味着能多接几通电话。
为了适配真实的工作节奏,技术方案经历了多次调整。最初,团队尝试在通话结束后一次性输出所有分析结果。但在任务并发高峰,这种“全集中式处理”可能导致任务拥塞,需要排队等待。
后来,他们把任务拆成两类:一类是必须立刻完成的“快速任务”,直接关联工单填写;另一类是可以在后台慢慢跑的“深度任务”,用于质检和长期分析。工作流被重新切分后,咨询师能更快进入下一通来电。
“第一个接口版本,光开发就用了三个多月。”王彦陶说。之后每接入一家新机构,还要再花一个月做对接,评估录音音质、确认分析字段、梳理标签体系、跑模拟样本、反复修改格式等。
沿着提升服务效率与质量的思路,团队找到的第二个场景是人工质检。一线接线员中占比很大的是志愿者。
他们有的是心理专业的在读学生,有的是来自教育、社会工作领域的热心人士。管理者面临的问题很现实:如何评估他们的表现?如何在人力有限的情况下提升整体服务质量?
在传统模式下,热线团队通常只能采取抽检的方式进行质控,且抽样比例较低。不是不想多听,而是人力不够。而大模型可以按照既定的标准,如专业性、流程合规性等,对可分析的通话做初步评分。人工质检员再从低分样本中重点复听,寻找潜在的问题,提升质检的覆盖率。
腾讯SSV技术生态团队与热线机构共同制定了评估标准与打分维度,同时结合实际场景中大模型的表现,不断调优,让AI的判断尽可能贴近人工的水平。
这套机制也间接改变了培训方式。过去,新志愿者往往要靠“多听、多接”慢慢积累经验,现在参考AI分析结果,他们获得了针对性强且更全面的反馈——哪里提问过快,哪里跟进不足,哪些关键词可能被忽略。

在这些尝试中,AI并没有取代人,而是将原本隐性的经验变成了可量化的标准,增强了人的能力。其中更难的挑战还在于,让大模型真正理解人心。
王彦陶提及一个合作初期遇到的案例:接线员正在跟一位来电者交谈,对方断断续续地讲述着自己的困境,语速很慢,中间有长时间的停顿。接线员没有急着插话,而是耐心等待对方继续说下去。大模型给这通咨询电话只打了三分,判定为“接线员未能及时回应来访者”。
“什么时候该接话,什么时候该沉默,这背后都是专业判断。”王彦陶说。在心理咨询中,沉默不一定是冷漠,有时恰恰是给对方思考和表达的空间。AI不懂这些微妙之处,只能从表面的对话轮次、回复速度去判断,自然会产生偏差。
在心理咨询机构挖掘落地场景的同时,王彦陶他们还在跟专业的学术机构一同提升大模型的能力。2024年8月,腾讯SSV技术生态团队、腾讯混元大模型团队与北京师范大学心理学部展开深度合作。这次合作的目标很明确:提升模型的“情商”。
北师大的心理学专家们带来了系统化的专业知识。他们帮助团队建立起一套评估模型情商能力的标准体系,包括心理学的问题场景分类、情绪类别划分、干预策略框架。
建立这套标准的过程并不容易。当下,针对大模型语言、推理、编程等这类“智商”的评测基准众多,针对“情商”的评测却寥寥。因为,情商是一种偏主观的能力。
起初,王彦陶和团队希望从多个角度全面评估模型表现,设计了包括对话流畅性、语言自然度、干预及时性等十个维度,结果却无法执行下去。
什么叫“拟人化”、什么算“共情到位”?不同评审员可能有完全不同的理解。十个维度意味着,每个案例要做十次主观判断。评审员之间的尺度难统一,评分结果也就失去了参考价值。
经过几轮讨论,团队把一级维度压缩到五个以内。每个维度的评分标准都尽可能细化、客观化。比如“共情准确性”这个维度,他们会明确列出:是否识别出来访者的核心情绪?是否用恰当的语言回应?这让评审员有具体的检查项可以对照,而不是凭感觉打分。
在严格合规和授权的前提下,团队与学术机构还共同构建了情绪与沟通策略的评测体系,并结合专家共识与脱敏样本,迭代模型在“共情但不越界、引导但不诱导”等能力上的表现。基于这些数据进行训练,在算法、评测与专家共识的约束下,模型逐渐变得更倾向先倾听,再给出适度建议。
正如同样是面对学业压力的倾诉,训练前的模型可能会一次性抛出五六条建议——“你可以制定学习计划、可以找老师沟通、可以尝试放松技巧 .....”在专业咨询师看来,这种回复过于生硬。训练后的模型会先问:“听起来你最近压力很大,能具体说说是哪方面让你感到最困难吗?”
这种引导式交互的能力,恰恰是情商增强的体现。

模型的“情商”提升后,感知最明显的场景是文字坐席。与热线电话不同,文字咨询完全依赖打字交流。很多咨询者是住校的青少年,寝室里有人或者不方便说话时,只能用手机敲字。
咨询师一次服务通常被设定为30分钟。高峰期,咨询师往往要同时跟好几个人聊天。有人打字慢,有人表达断续,半小时里双方只来回了五轮对话,还没展开就要结束了。
腾讯SSV技术生态团队将调优后的模型加入到文字坐席环节。咨询师与受访者交流时,大模型会同步分析交流内容,自动生成备选回复。咨询师可以在此基础上微调,如果都不满意,也可以重写。
“哪怕最后是自己写,备选的回复也已经搭好了框架。”王彦陶说,“这与从零开始和在草稿上改,是完全不同的工作强度。”对咨询师来说,同样30分钟,可以同步回应更多来访者。
过去一年,包括智能质检、工单填写、文字坐席等一系列AI能力,已在多家机构落地并持续迭代,累计调用超10万次,协助了超2000位一线咨询人员。
越是看到效果,团队越保持克制与审慎。毕竟,随着大模型进入后训练阶段,从指令微调、反馈强化学习,再到安全对齐,每一步都会改变模型的行为方式。
当下,行业里有个常被讨论的概念——“对齐税”。简单说,就是为了让模型更安全、更符合价值规范,需要加上一定的约束。这些约束的引入,可能会牺牲模型原本的一部分能力。
最近,OpenAI创始人Sam Altman也公开提到,他们为了强化Agent和编程能力,牺牲了一部分模型原本更自然的文字表达能力,使得模型的写作水平下降了。
每一次参数的配比调整,某种程度上也是在做价值排序:是要更强的工具性,还是更细腻的交流能力?是追求性能极限,还是优先风险控制?如何选择,本身也是技术价值观的体现。
这些权衡并非一劳永逸。因为真实世界里的AI不是一次性交付的产品,而是持续迭代的系统。它不断吸收新数据、进入新场景,也不断改变其对人的影响方式。
此外,不少组织的数字化基础相对薄弱。团队曾去到一些机构推广AI知识库,发现对方还在用十年前的电脑系统,连安装软件都困难。咨询记录堆在厚厚的纸档里,没有结构化数据,更谈不上大模型的应用。这件事很难一蹴而就。
腾讯SSV技术生态团队因此选择了一条更加稳扎稳打的路径:先与头部的心理机构打磨功能,让AI在真实场景中产生安全有效的作用;接着,再逐步扩展,帮基础薄弱的组织完成数据整理和系统搭建,让AI能力覆盖更多有需要的机构。
当AI走进心理咨询这个关乎人心的领域,每一次“拒绝”都是对边界的坚守,每一次迭代都是对责任的强化。AI向善并非一句口号,而是每一个具体选择的累积。这条路注定不会有捷径,没有一蹴而就的完美方案,只能在真实场景中持续验证和打磨。
文:绛枫
夜雨聆风