有所为,有所不为:当AI走进最脆弱的人心

编者按

当大模型浪潮席卷各行各业，效率与创新常被奉为最高准则。可一旦AI走进最脆弱的人心，什么该“为”，什么该“不为”？这不再只是技术题，更是一道价值选择题。

腾讯SSV技术生态团队在心理咨询领域的探索，给出了一个值得思考的答案。他们拒绝了“AI直接接听热线”的请求，放弃了“AI自动筛查风险并升级紧急流程”的方案——尽管技术上可行，但AI尚无法分辨沉默背后的绝望与犹豫，一旦误判，代价可能是一个人的生命。他们选择了一条更慢、更稳的路：把AI嵌入热线后台，帮接线员自动生成工单摘要，辅助质检评分，为文字坐席提供备选回复。不替代人，只增强人。

让大模型理解“人心”远比想象中困难。一个耐心的沉默，AI可能判为“回应不及时”；一次适时的追问，却需要反复调优才能习得。团队为此压缩评估维度、联合北师大打磨“情商”，让模型先倾听、后建议。

在技术生态团队成员看来，向善不是一句口号，而是在每一个“技术可行但风险难测”的岔路口，选择敬畏生命、守住边界。真正的科技向善，从来不是跑得最快，而是走得更稳、更有人情味。

近年来，青少年心理问题持续攀升。焦虑、抑郁的风险加剧，大部分青少年更倾向于匿名的线上或电话求助。接听人力不足，却是这个行业的困境。高峰时，一名热线志愿者单个夜班要处理15到20通来电。线路那头，还有更多的求助者在等待。

心理咨询是人与人的交流，有人可以滔滔不绝地倾诉，有人沉默不言需要引导，一个语气中的迟疑、一次长时间的沉默，都可能暗含截然不同的心理状态。这个领域的特殊之处在于，它面对的是人心最脆弱的一角，极度依赖“人”的专业经验、临场判断、共情能力。

过去一年多，腾讯SSV技术生态团队一直在心理咨询领域探索AI落地的场景。他们拒绝了很多看起来高效的方案，放弃了一些在技术上可行的功能，却也找到了一条稳扎稳打的路径。

2024年夏天，腾讯SSV技术生态团队开始系统性扫描这个行业，从高校公益组织、专业研究机构，到一线医院和心理热线中心。他们很快发现：心理咨询、危机干预、康复照料，每个环节都需要大量专业人力，而资源紧张几乎是全行业的共同状态。

其中，最突出的瓶颈集中在连接求助者与咨询服务的“热线入口”。中国科学院心理研究所发布的相关报告显示，青少年群体的焦虑、抑郁风险水平持续攀升。多数青少年更倾向于选择匿名、即时的线上或电话求助渠道，而非线下咨询。

需求快速上涨的另一面，是接线能力的长期不足。据媒体不完全统计，不少热线的平均接通率徘徊在30%—40%之间，高峰时段甚至低于25%。

“能不能做个AI直接收听电话的功能，这样可以帮我们分流，提升接线效率。”腾讯SSV技术生态部门心理项目负责人王彦陶提到，这是他们在调研时常听到的需求。从技术角度看，这并不困难。语音识别和对话系统的能力已经比较成熟，银行、电商的客服都在用类似的解决方案。但王彦陶他们拒绝了这个需求。

还有机构希望做一个AI陪伴的智能体，通过咨询者与AI交流的内容来筛查风险，当识别到高危自残等倾向后，甚至能自动升级到外部紧急流程。这个看似高效的方案，他们也选择不做。

因为在真实场景中，心理危机的低风险和高风险很难有清晰的边界。相关心理研究提到，部分青少年在出现重度心理危机前，可能并不会直接表达强烈的意念，而是以失眠、学业压力、家庭冲突等“低烈度”的困扰呈现。

人工咨询师经过长期训练和经验积累才能从中识别出危险信号，AI现在还无法准确判断。

设想一下，一个17岁的高中生，可能会因为一次考试前的焦虑失眠打来电话，也可能是因为长期抑郁正处在崩溃边缘。如果AI在接线前就做了分流，把某个看似“低风险”的来电排到队列后面，而这个孩子恰好在那个夜晚最需要被听见——AI判断失误的代价，可能关乎一个人的生命。

这些被拒绝的需求，其实都指向同一个问题：在心理咨询及救助场景，AI应该扮演什么角色？

这个问题在团队内部讨论很多次。腾讯SSV技术生态部门负责人李哲用特斯拉的自动驾驶作类比。自动驾驶的本质是识别障碍物、避免发生碰撞。从封闭场地测试，到不断迭代算法，再到今天只在有限区域中小规模路测，特斯拉花了十年才把自动驾驶推向现实世界。

一个相对确定的物理决策系统都需要这么长的验证周期，AI理解情绪、判断风险、参与重大决策的应用并实现可靠的“自动驾驶”状态，也没法在短时间内做到。

经过一系列调研与讨论，团队最终在“不能做什么”的标准上达成共识——凡是涉及替代专业判断、自动处置、把风险决策交给AI的功能，一律不做。

于是，他们决定现阶段不做直接面向用户的心理咨询产品，重点探索如何安全、有效地将AI嵌入心理咨询热线后台的工作流。

热线中心的日常是忙碌的。接线员戴着耳机，一通接一通地收听电话。有人刚安抚完一位情绪失控的来电者，来不及喝口水，就得立刻低头敲键盘填工单。

一通电话少则十几分钟，多则半小时，挂断后接线员还要复盘来电背景、核心诉求、干预方式、风险等级、后续建议，完成工单填写。流程上规定必须填完才能接下一通电话，现实中却常常陷入两难：认真写，会耽误接线；赶时间写，又难免潦草。

这成为腾讯SSV技术生态团队切入的第一个场景。他们没有重做一套热线系统，而是选择将AI技术以API接口的方式嵌入机构原有的平台——在界面上，形成一个“AI分析”的便捷按钮。

电话结束后，大模型会自动生成结构化摘要，包括来电主题、情绪状态、干预要点等，接线员只需快速核对、微调即可提交。过去需要10到15分钟填写工单，如今压缩到几分钟完成。看起来只是节省了一点时间，但在高峰期，这意味着能多接几通电话。

为了适配真实的工作节奏，技术方案经历了多次调整。最初，团队尝试在通话结束后一次性输出所有分析结果。但在任务并发高峰，这种“全集中式处理”可能导致任务拥塞，需要排队等待。

后来，他们把任务拆成两类：一类是必须立刻完成的“快速任务”，直接关联工单填写；另一类是可以在后台慢慢跑的“深度任务”，用于质检和长期分析。工作流被重新切分后，咨询师能更快进入下一通来电。

“第一个接口版本，光开发就用了三个多月。”王彦陶说。之后每接入一家新机构，还要再花一个月做对接，评估录音音质、确认分析字段、梳理标签体系、跑模拟样本、反复修改格式等。

沿着提升服务效率与质量的思路，团队找到的第二个场景是人工质检。一线接线员中占比很大的是志愿者。

他们有的是心理专业的在读学生，有的是来自教育、社会工作领域的热心人士。管理者面临的问题很现实：如何评估他们的表现？如何在人力有限的情况下提升整体服务质量？

在传统模式下，热线团队通常只能采取抽检的方式进行质控，且抽样比例较低。不是不想多听，而是人力不够。而大模型可以按照既定的标准，如专业性、流程合规性等，对可分析的通话做初步评分。人工质检员再从低分样本中重点复听，寻找潜在的问题，提升质检的覆盖率。

腾讯SSV技术生态团队与热线机构共同制定了评估标准与打分维度，同时结合实际场景中大模型的表现，不断调优，让AI的判断尽可能贴近人工的水平。

这套机制也间接改变了培训方式。过去，新志愿者往往要靠“多听、多接”慢慢积累经验，现在参考AI分析结果，他们获得了针对性强且更全面的反馈——哪里提问过快，哪里跟进不足，哪些关键词可能被忽略。

在这些尝试中，AI并没有取代人，而是将原本隐性的经验变成了可量化的标准，增强了人的能力。其中更难的挑战还在于，让大模型真正理解人心。

王彦陶提及一个合作初期遇到的案例：接线员正在跟一位来电者交谈，对方断断续续地讲述着自己的困境，语速很慢，中间有长时间的停顿。接线员没有急着插话，而是耐心等待对方继续说下去。大模型给这通咨询电话只打了三分，判定为“接线员未能及时回应来访者”。

“什么时候该接话，什么时候该沉默，这背后都是专业判断。”王彦陶说。在心理咨询中，沉默不一定是冷漠，有时恰恰是给对方思考和表达的空间。AI不懂这些微妙之处，只能从表面的对话轮次、回复速度去判断，自然会产生偏差。

在心理咨询机构挖掘落地场景的同时，王彦陶他们还在跟专业的学术机构一同提升大模型的能力。2024年8月，腾讯SSV技术生态团队、腾讯混元大模型团队与北京师范大学心理学部展开深度合作。这次合作的目标很明确：提升模型的“情商”。

北师大的心理学专家们带来了系统化的专业知识。他们帮助团队建立起一套评估模型情商能力的标准体系，包括心理学的问题场景分类、情绪类别划分、干预策略框架。

建立这套标准的过程并不容易。当下，针对大模型语言、推理、编程等这类“智商”的评测基准众多，针对“情商”的评测却寥寥。因为，情商是一种偏主观的能力。

起初，王彦陶和团队希望从多个角度全面评估模型表现，设计了包括对话流畅性、语言自然度、干预及时性等十个维度，结果却无法执行下去。

什么叫“拟人化”、什么算“共情到位”？不同评审员可能有完全不同的理解。十个维度意味着，每个案例要做十次主观判断。评审员之间的尺度难统一，评分结果也就失去了参考价值。

经过几轮讨论，团队把一级维度压缩到五个以内。每个维度的评分标准都尽可能细化、客观化。比如“共情准确性”这个维度，他们会明确列出：是否识别出来访者的核心情绪？是否用恰当的语言回应？这让评审员有具体的检查项可以对照，而不是凭感觉打分。

在严格合规和授权的前提下，团队与学术机构还共同构建了情绪与沟通策略的评测体系，并结合专家共识与脱敏样本，迭代模型在“共情但不越界、引导但不诱导”等能力上的表现。基于这些数据进行训练，在算法、评测与专家共识的约束下，模型逐渐变得更倾向先倾听，再给出适度建议。

正如同样是面对学业压力的倾诉，训练前的模型可能会一次性抛出五六条建议——“你可以制定学习计划、可以找老师沟通、可以尝试放松技巧 .....”在专业咨询师看来，这种回复过于生硬。训练后的模型会先问：“听起来你最近压力很大，能具体说说是哪方面让你感到最困难吗？”

这种引导式交互的能力，恰恰是情商增强的体现。

模型的“情商”提升后，感知最明显的场景是文字坐席。与热线电话不同，文字咨询完全依赖打字交流。很多咨询者是住校的青少年，寝室里有人或者不方便说话时，只能用手机敲字。

咨询师一次服务通常被设定为30分钟。高峰期，咨询师往往要同时跟好几个人聊天。有人打字慢，有人表达断续，半小时里双方只来回了五轮对话，还没展开就要结束了。

腾讯SSV技术生态团队将调优后的模型加入到文字坐席环节。咨询师与受访者交流时，大模型会同步分析交流内容，自动生成备选回复。咨询师可以在此基础上微调，如果都不满意，也可以重写。

“哪怕最后是自己写，备选的回复也已经搭好了框架。”王彦陶说，“这与从零开始和在草稿上改，是完全不同的工作强度。”对咨询师来说，同样30分钟，可以同步回应更多来访者。

过去一年，包括智能质检、工单填写、文字坐席等一系列AI能力，已在多家机构落地并持续迭代，累计调用超10万次，协助了超2000位一线咨询人员。

越是看到效果，团队越保持克制与审慎。毕竟，随着大模型进入后训练阶段，从指令微调、反馈强化学习，再到安全对齐，每一步都会改变模型的行为方式。

当下，行业里有个常被讨论的概念——“对齐税”。简单说，就是为了让模型更安全、更符合价值规范，需要加上一定的约束。这些约束的引入，可能会牺牲模型原本的一部分能力。

最近，OpenAI创始人Sam Altman也公开提到，他们为了强化Agent和编程能力，牺牲了一部分模型原本更自然的文字表达能力，使得模型的写作水平下降了。

每一次参数的配比调整，某种程度上也是在做价值排序：是要更强的工具性，还是更细腻的交流能力？是追求性能极限，还是优先风险控制？如何选择，本身也是技术价值观的体现。

这些权衡并非一劳永逸。因为真实世界里的AI不是一次性交付的产品，而是持续迭代的系统。它不断吸收新数据、进入新场景，也不断改变其对人的影响方式。

此外，不少组织的数字化基础相对薄弱。团队曾去到一些机构推广AI知识库，发现对方还在用十年前的电脑系统，连安装软件都困难。咨询记录堆在厚厚的纸档里，没有结构化数据，更谈不上大模型的应用。这件事很难一蹴而就。

腾讯SSV技术生态团队因此选择了一条更加稳扎稳打的路径：先与头部的心理机构打磨功能，让AI在真实场景中产生安全有效的作用；接着，再逐步扩展，帮基础薄弱的组织完成数据整理和系统搭建，让AI能力覆盖更多有需要的机构。

当AI走进心理咨询这个关乎人心的领域，每一次“拒绝”都是对边界的坚守，每一次迭代都是对责任的强化。AI向善并非一句口号，而是每一个具体选择的累积。这条路注定不会有捷径，没有一蹴而就的完美方案，只能在真实场景中持续验证和打磨。

文：绛枫