法律组织AI落地之二:人员素养五级评估

这是"法务AI落地实战"系列的第二篇，第一篇法务部及律所AI落地五大技术路径选择在此。

前言：

接上篇，工具选好了，预算批了，一把手也坚定表示你放心大胆地干，你喜上眉梢觉得这个改革没有不成功的道理。但风风火火搞了一阵子，你悲伤地发现，团队成员打开AI依然是问一句"帮我审下这个合同"，得到一堆泛泛的输出，然后转头对你说"AI也就这样"，顺便告诉同事们还是古法审核手感绝佳，AI都是泡沫，根本没必要学习。

为什么会这样？许多改革都高度集中于技术路径选择、产品开发以及迭代，唯独忽略了最重要的因素：人员AI素养。即便有了好的工具好的氛围，也不代表着每个人都愿意用且善用。所以这一篇专门讲人的问题，把这两年在企业内训中观察到的法律人AI使用水平做了一个五级分层，各位可以直接对号入座，看看自己和团队目前在哪一层，目标应该到哪一层。

一、法律人AI素养五级

为了让分层具体一点，我们先设想一个统一的测试场景：现在给你一份从没见过的采购服务合同，你代表甲方，3分钟内完成初步审查并给出结论，所有人面对同一份合同的时候，处理方式会非常不同。

L1：不用AI

知道AI存在，工作中完全不出现，理由通常是合规限制、数据安全、领导没要求。这些理由有真的，也有纯粹是借口，面对测试场景，L1的人会直接打开Word开始读，3分钟读不完，最后凭印象说几句套话，或者直接说"时间不够没看完"。

L2：把AI当问答机

打开某个AI对话框，复制几段合同进去，问一句"这里有什么风险"，AI给了答案就直接念出来，没有固定方法，每次都从零开始，prompt是临时想的，问题颗粒度很粗，AI说什么就信什么，基本不做二次判断。这个级别是目前法律行业的绝对主力，根据我多次培训的观察，大概80%以上的法律人停在这一层。他们知道AI能用，也愿意用，但使用方式跟在百度搜索框里打字没有太大区别。

L3：有自己的工作流

这一层的人面对合同时，会调出自己预先准备好的东西，可能是一段存好的prompt模板、一份审查清单、一套针对不同合同类型的处理套路，处理节奏明显有章法，3分钟内能跑完一轮基础审查，结论有结构、有重点。

L3和L2的核心区别在于"可复用"。L2每次都在重新发明轮子，L3已经把轮子造好了，拿出来就能跑，产出稳定，效率比L2高出几倍，而且同样的方法明天还能用，下个月还能用，但L3也有天花板，这套东西只服务于自己，换一个人来用不起来。

L4：能做产品

L4的人面对测试场景，可能根本不会手动"审"合同，他会说"我有一个专门处理这类合同的工具，现在跑一下给大家看"，屏幕上展示的是一个已经被做成产品的东西——可能是一个skill、一个GPTs、一个内部小工具，合同丢进去，结构化输出直接出来。

L4和L3的区别在于产出对象变了。L3的产出服务自己的工作，L4的产出是一个别人也能调用的东西，判断标准是他做的东西，一个陌生人拿过去能不能直接用起来，能，就是L4。

L5：能做组织级AI系统设计

这一层考虑的是完整的系统，谁用、什么场景下用、和现有流程怎么衔接、合规边界在哪、效果怎么度量、出问题怎么回滚、人员怎么培训、不同岗位的AI能力怎么分层匹配。

L5的人在测试场景里，现场操作可能看起来和L3、L4差不多，区别出现在最后的结论环节。他讲的不只是"这份合同有什么问题"，还包括"这类合同在我们公司应该走什么流程，这个3分钟的审查在整个链条里属于哪个环节，后面还需要谁介入、什么时候介入"，你能听到"流程""分工""边界"这些词，而不只是"风险""条款"。

这一层的人目前非常少，基本上就是由法律工程师/法律AI产品经理这类专职人员，法律工程师这个职业在国内不超过50个人，基本集中在大厂，要求同时理解AI技术、法务实务工作和组织运作，三项能力。但可以预见的是，这个角色会成为中大型法务部门的标配，可能全职也可能兼职，可能内聘也可能找顾问。

我自己刚开始转型的时候，也是两眼一抹黑，既没有参考，又没有同行，但是所幸随着越来越多的企业意识到组织级AI建设的重要性，这一年也陆陆续续认识了越来越多的同行，见识到了越来越多成功的案例。

二、为什么多数人卡在L2

说实话，L1到L2的跨越很容易，打开工具用起来就行；L4到L5需要时间和阅历，着急也没用。比较值得关注的是L2到L3这一步，因为绝大多数法律人就卡在这里，觉得自己已经在"用AI"了，没意识到使用方式几乎没有产出增量，详细原因如下：

其一，对AI能力边界没有校准，也就是所谓的taste还没有养成。不知道AI能做到什么程度，所以要么期待过高（"帮我审完这份合同"然后对着一堆泛泛的输出失望），要么期待过低（只拿来翻译、总结，复杂任务想都不想）。

其二，不会拆任务，有的人做律师很强但没办法做一个好带教。法律工作天然是模糊的，比如"审一份合同"这五个字背后有几十个子任务，但L2的人会把这五个字原封不动地丢给AI，然后觉得AI给的结果不好用；L3的人之所以效率高，是因为他早就把"审合同"拆成了审主体资质、审付款条件、审违约责任、审管辖条款……每个子任务单独跑一轮，结果拼起来就是一份完整的审查意见。

其三，没有积累的习惯，对如何使用系统完成固化任务是迷茫的。L2的人每次用完AI就关掉，下次再用又从头开始。L3的人会把这次用得好的prompt存下来，把踩过的坑记下来，逐渐形成一套越来越顺手的个人方法库，差距就是这样一点一点拉开的。

好消息是，L2到L3的跨越并不需要技术背景，经过系统的方法指导和实操训练之后，大多数法律人能在一个月内稳定提升到L3水平，工作效率的变化非常明显。很多工程师都和我吐槽过，一个人的AI素养和他学文学理、年纪大小根本没有关系，有的人天赋很强不学也知道如何处理，而有的人真的怎么教都教不会而且特别抗拒，人和人的差距可比模型之间的差距大多了。一般在每次培训中也都能发现一些天然有产品感的人，稍加引导就能往L4方向走，这类人往往是组织里将来的AI骨干，就看你能不能发现这样的金苗子。

三、AI素养分级的技术对照

讲完人的分层，再补一个技术视角，大家都能感知到，AI应用是有编排级别的，越高级别越费工夫，越需要沉淀专业经验，效果也越稳定。以此为对照，大家可以看看自己目前在用哪一级的编排方式：

第一级：对话

不做任何编排，每次打开临时使用。大多数人审合同的方式就是这一级——把合同丢进去，说"请帮我审查这份合同"，模型输出一张风险表，结束。

第二级：Prompt工程

通过对提示词的精准编排，实现固定的输入输出格式。比如你存了一段500字的审查指令，每次审合同时调出来，指定模型按照什么结构、什么标准、什么格式输出，结果的稳定性和质量立刻上一个台阶。

第三级：Skill工程

把提示词和工具调用打包成一套渐进式的上下文，实现标准化的工作流作业。比如一个合同审查skill，会自动分步骤审查不同条款模块，调用检索工具核验法规依据，最终输出带批注的Word文档。

第四级：Agent工程

在Skill基础上配置专属的对话界面、数据库连接、触发器等，形成一个独立运作的Agent。比如一个合同审查Agent，业务部门直接把合同丢进去，不需要法务手动操作就能跑出初步审查结果。

第五级：应用级工程

完整的前端、后端、数据层、API，做出一整套系统。比如一个包含合同台账、审查引擎、风险看板、审批流程的法务AI平台。

AI编排和人员AI素养的对应关系也非常直观，L2的人只会用第一级对话，L3的人能驾驭Prompt工程甚至Skill工程，L4的人能做Agent，L5的人在设计应用级系统。提升AI素养，在技术层面就是一步一步爬这个台阶，没有什么玄妙的东西，就是扎实地慢慢来。

四、组织如何运用这套判断标准

第一，把L3设为组织的基准线。L3意味着每个人都有自己的方法库、能稳定产出、不依赖运气，一个团队里大部分人到L3，AI就真正融进了日常工作，工具的钱才算没白花。低于这条线，买什么工具都是摆设，领导层看到的只有采购账单，看不到效率变化。

第二，确保组织里至少有一个L4以上的人。这个人负责把团队里零散的个人经验沉淀成可复用的产品，比如playbook、skill、内部工具，让L3的人跑得更快，让新人起步不用从零摸索。如果内部没有这样的人，去别的部门借一个，或者找外部顾问也行，缺了就没人把方法变成体系，就算方法论你都懂了，始终需要一个人长期地运营和执行。

结尾

在这个时代会用AI不算是什么高深的技能，大家也不用担心学不会，最终AI会像电脑和手机一样，只要你能识字就能用，但是每个人最后什么水平依然会保持差距。

好比现在法律人对Word的操作水平，有的人只会用保存修改批注的基础功能，有的人会用邮件合并、批量修改、插件辅助等高级功能。那你说这对职业生涯是决定性的吗？肯定不是，但善用工具，能让你集中注意力到需要判断的部分，dirty work少了，工作就相对没有那么痛苦和煎熬。

从现在开始认真评估自己团队的AI素养水平，比再买一个新AI工具有用得多。