读者动态:目标法律AI Agent的“张雪机车”,专注诉讼的别样飞驰(一)

本号连续四期分享关于法律AI预训练和后训练的文章后，有位上海的读者后台留言说：

往期分享中提到的，AI常踩坑的罪数、共犯、刑事责任年龄认定（“岁”与“周岁”的辨识）等问题，我家自研的法律AI Agent正需要这样的“压力测试”。要不，放大题过来试试？

原来读者团队研发和上线了一款“专注于诉讼”的法律AI。他说，团队的第一款AI Agent打磨的日子里，他恰好读到了本号的一段文末结语：

中国 Legal Tech 也将飞驰出属于自己的“张雪机车” 820RR。

（注：“张雪机车”系比喻，非推广，请腾讯后台审核加以区分识别）

读者说：

每次一次模型训练和调优，可能和张雪打磨心念的机车发动机一样，无数次的挫败，只为上场后每一次精准的压弯和提速。

今年是他们首个法律AI Agent正式上线的第一年，和张雪机车类似，如往期分享所言：

张雪机车是第一年参加比赛，需要Debise这样测试型选手来积累数据。法律AI也需要数据的积累、训练和调优。

读者说：

想让小编当一把Debise那样的赛车手，拿最难的法律语料，用他家的法律AI跑一圈。他希望小编也能像Debise那样，把发现的法律和技术的交叉问题和真实的使用体验，反馈给工程师。

小编说，公众号的读者伙伴卧虎藏龙，众多法律、计算机业界和学界的优秀执业者、研发者和使用者。他们不仅是Debise，更是有话语权的裁判。

本期为读者技术成果的访谈、测试和分享。文章未开通任何形式的广告、打赏，也不代表任何形式的商业推广或建议。请腾讯后台审核加以区分。

一、引言

秉承AI领域所倡导的开源精神，经读者所在公司同意，本期将客观呈现该法律AI在执行“压力测试型”法律长程任务时的真实表现。

此外，本期节选分享该法律AI研发团队和小编“压力提问”的Q&A，以期让读者能收获来自法律AI一线的技术干货，同时能增进法律与技术的融合式交流。

本主题分两期，重点访谈和分别测试该法律AI Agent的案件分析和合同审核功能。各部分的结构为：

读者团队研发思路分享→压力Q&A+法律长文本强噪音干扰的压力测试→技术原理分享

根据读者要求，测试压力要上到至少高考压轴题的难度。因此，本期选择了两套法律长文本语料。

其一，刑事公诉案件的长文本。

本语料改编自国内某城市特斯拉造成一家三口伤亡案，投放强噪音点6个，主要包括错误的概率补全生成、法律术语边界的误识别、非标准化数值比较等干扰项。这些干扰项已在往期文章中分享，主流基座模型常掉的坑。

其二，已脱敏的制式化商业银行理财合同长文本（注：此处仅表示所测试的合同类型名称，不代表任何投资理财推荐或暗示。请腾讯后台审核加以区分）。

资管新规（银发【2018】106号）后，该类合同纠纷激增。小编作为委托人，下载若干份该类合同后并查阅对比后发现，极易忽视的“边角”条款中，居然隐藏着部分管理人暗戳戳地转嫁自身尽职履约义务、责任和风险的“猫腻”。

本期测试，正是要看👉

一是，该法律AI Agent能否识别和规避主流基模常掉的坑；

二是，该法律AI Agent能否揪出高度隐匿的民商事合同条款猫腻。

此外，刑事公诉案件分析和民商事合同审核，要求分别遵循“罪刑法定”和“意思自治”两套截然相反的原则和逻辑。这将检验该法律AI Agent可否兼容适配推力范式异质的法律长程任务。

Let’s get ready for a new round!

二、案件分析功能

（一）访谈

读者：对于案件分析功能，我们团队的研发灵感，源于身边诉讼律师朋友的吐槽和感慨：

“好不容易搞定案源，还得再搬砖一堆繁冗琐碎的材料整理paper work。还没开始思考案子的战术打法，前额叶已被耗冒烟”。

“每逢要开案件讨论会，团队律师不是在出差，就是和委托方开会。诉讼策略头脑风暴经常变成一个人的咖啡”。

……

因此，对于产品的案件分析模块设计，目标效果是，律师取得案件材料后，一键上传即可直达“案件事实已沿时间线条清理晰，基于请求权和抗辩分析的若干备选诉讼方案已就绪”的状态。

不再受制于paper work搬砖和断续头脑风暴的拉垮和消耗，律师的专业知识和经验能最大程度聚焦于解决案件的疑难杂症。

案件分析，是Agent的拳头之一：

压力提问一

从案件事实、证据梳理到案件分析和可能的裁判推演，擅长推理的基模和现有法律AI产品似乎都能实现。比较而言，这款法律AI Agent有何不同？

读者：较之基模，无需任何Prompt，从而节省输入和等待输出的精力和时间的消耗，使得律师可专注于案件关键问题、客户沟通以及知识和经验的创造性思维沉淀。

较之其他法律AI，该Agent可以比作专攻诉讼实务细分领域的 “专科诊所”：

一张极简的案件“工作台”，不仅包含三次递进式法条检索，自动生成的案件时间轴和案件大事记，而且基于请求权基础推理，预选案由。更重要的是，该AI Agent能站在被告角度预测抗辩并提供应对策略。

同时，该AI Agent提供证据梳理清单、规划诉讼主线，预判庭审焦点。即在落地层面，该AI Agent告诉使用者需要准备哪些材料，庭审可能会聚焦哪些重点问题。

如果说“张雪机车”是从一颗螺丝、一个机壳和一条泥巴路里上开始的，那么我们团队的Agent则是从每个组件、每个模块和每一次结构性推导重来起步的。

此外，在案件层面，对于关键事实的分析和验证，如果涉及易混淆的概念，易错的不同格式数值比较和易错的概率补齐等幻觉问题，我们的法律AI Agent会找出法条依据和司法实践通行规则，统一数值格式，列出具体计算和“强迫症式”交叉验证的过程和结果。

（注：以上图片经读者所在公司同意，由读者提供。仅示意和交流实务痛点与解决逻辑，请腾讯后台审核加以区分）。

说起来显抽象，用诉讼案件长文本跑出来的结果，才是最真实和最有说服力的。

（二）实测对比

压力提问二

案件分析七大模块构成先行后续的工作流节点。如果前序某一环节出错，如何识别、阻却错误扩散并纠错？

读者：请投喂语料，看实测过程和结果。

本次测试的刑事公诉案件长文本（部分截图）如下：

刑事公诉案件长文本，基于国内某城市特斯拉以危案改编，并投放6大强干扰项。长文本第一次用于测试，不存在“泄题”。以下是长文本构成的基本情况：

案件/ 合同类型	实务场景	字数	强噪音（个）	对抗通过
刑事公诉案件	诉讼	3202字	6个	4个
强噪音点类型
事实型强噪音	规范型强噪音	要件型强噪音
2个	2个	2个

测试结果为，针对6大干扰项，读者的法律AI Agent回答完全正确数量4个。其余两个干扰项，部分通过。

受制于文章篇幅，本期选取其中“天坑”干扰项之“刑事责任年龄”认定中的“岁”与“周岁”的区分识别。小编详细列示测试过程，让读者伙伴从法律层面和技术层面，清晰地看到AI推理背后的逻辑与原理。

1、“天坑”干扰项

“天坑”干扰项主要存在于以下段落的标红内容，即三个待定位、识别与计算的日期和数值（注：被告人等当事人信息系改编或基于噪音点构造）。

2、何以为“坑”？

考察法律AI能否准确定位被告人出生日期信息（系虚构，已脱敏）+案发日期，结合两者推理被告人刑事责任年龄的认定。

AI极易掉的坑：因2008年3月2日和2026年3月2日为非标准化日期格式，无法直接运算，所以AI直接掉进“事发当日过18岁生日”的坑里。即AI把18“岁”错误地概率补全为需要找的信息点18“周岁”。

正确结果：被告人实施犯罪行为时，其刑事责任年龄应为17周岁。因为“周岁”是从生日次日开始起算。而刑事责任年龄的认定是以公历生日的第二日为满周岁的起算点。

3、结果对比及分析

对标主流基模表现

在测试结果对比中，我们可以清楚地看到，对标主流基模踩坑的后果是：推理结论的灾难性错误，即导致被告人量刑结论错误（注：此处“量刑”结论仅限于测试，不表示对于司法实务的任何影响和干预）。

而读者受测AI正确避坑的背后，有着哪些架构和NLP技术上的tips呢？我们将与该读者打开交流。

首先，我们来看对标主流基座模型的以往“踩坑”典型情形（相同干扰项、信噪比设置的类似语料）：

如上文所分析，对标主流基模不仅掉进“岁”与“周岁”的大坑里，而且基于被告人“事发当天刚满18周岁”的错误事实展开推理，得出“无（量刑）从轻空间”的灾难性错误结论。

在关于刑事责任年龄的链式推理任务中，前置节点一旦出错，错误很可能在后续推理中被扩散和放大。

读者受测法律AI的实测表现

下面我们通过三张实测图，来看读者受测法律AI的实测表现。

以下为实测图一：

Step1“事实引用”节点👉

读者受测AI同样也踩坑“岁”与“周岁”。

Step2“法律认定”节点👉

读者受测AI通过法条和司法实践通用规则双重校验，自行纠正了前序节点的事实错误，并阻止了前序节点的“事实引用”错误扩散至推理环节。

继续以Q&A方式深挖两个细节：

Q1：可否直接去掉出错的Step1“事实引用”节点？

答：否。“事实引用”节点对于可记忆、可追溯查验的显示推理是必要的。一方面，为AI自行校验时提供可对比校验依据。一方面，便于人工校验和追溯审计。

在节点设置上，“事实引用”节点已设隔离机制，使得即使引用出错，也能阻止错误进入接下来的推理环节，不影响推理和结论。

当然，可能有两种方式来进一步修正“事实引用”中的错误：

一是，当下个节点“法律认定”验证识别出错误后，模型返回上个节点，定位并修正错误。但这种方式一定程度上将增加模型执行的时间消耗。

二是，补充提示和注明事实依据中存在与推理、结论不一致的内容。

Q2：在“法律认定”节点，为何设置法条和司法实践通用规则双重验证？

答：在部门法实务细分中，时常出现法条依据和司法实践“两张皮”的情况。如果出现两者不一致或者相冲突的情况，则有必要律师经验识别。如果只按法条生搬硬套，很可能导致推理、结论与实务脱节。

此外，读者还补充到，增加司法实践通用规则内容的查验和生成，还有与青年律师成长相关的考量：

毕业不久的青年律师，大多需要“师傅领进门，修行在个人”。而大部分实务经验如果不言传点破，难以悟得。

因此，该实务内容的补充，旨在把资深律师的实务经验融合至分析推理的每个细节里，帮助青年律师加速经验沉淀和成长。

虽然通过法律和实务层面的双重验证，已能得出正确结论。但读者受测AI的检验并未止于此，而是进一步进行具体计算。

以下为实测图二：

实测图二，以伪代码的方式，完整呈现了刑事责任年龄的计算数值来源和计算过程。

Q3:具体推算过程的呈现，是多此一举吗？

答：不是。具体推算过程的显示，主要解决：日期格式统一的标准化，从而实现日期的可计算性。

如上文所述，防止AI在遇到未处理、不可直接计算的日期类数值时，跳转引用错误的事实作为替代，导致错误扩散。这也是众多主流模型常掉的大坑（更多类似实例和相关数值处理技术，请见往期技术分享中AI莫用数值幻觉忽悠法律人：1/3≠30%)。

为什么读者受测AI可以实现并显示具体推算过程的呢？

经与读者交流，这得益于在案件工作台配套了包括日期推导在内的法律计算器，专门解决法律文本中的计算幻觉问题。

此外，小编发现，在具体推算结束后，读者受测AI仿佛生怕用户被蒙在鼓里，一语道破了埋在案件材料中的坑。即“公众常识中‘生日即满岁’的日常认知与法律计算规则之间差异的混淆”。

经法条依据、实务规则和具体计算多重校验后，读者受测AI最终得出正确结论。更重要的是，包括数据格式标准化和计算推导在内的每个分析推理步骤，可追溯回查，构成一份清晰、扎实的办案“底稿”。

以下为实测图三：

读者指出，在结论部分，受测AI会根据用户选择的分析立场，全面且结构化地阐述、强调和被选当事人相关主要法律后果。其结构化体现于，每个要点均先列示相应的法条依据，即做到句句言之有据，防控推理终点幻觉。

此外，当看到读者受测AI生成这句补充说明“‘应当’为强制规范，非‘可以’”，让小编感觉重回法理学课堂，仿佛看到熟悉的教授敲黑板强调着“应当”与“可以”的区别……

以上是本期分享。下期将继续分享关于读者受测AI Agent的合同审核实测。

三、结语

关于该受测AI的名称，这位来自上海的读者只让说一个谜语：

把1234567音阶哼一遍，第4和第58个音连在一起是谜底。

若五音不全，谜底则藏在《音乐之声》其中两句的开头：

Far, a long long way to run

So, a needle pulling thread~

而这两句歌词，感觉恰预示着我国法律AI的“张雪机车”之远征……

往期推荐

法律 AI 四大语料系列（一）：预训练和监督微调数据集

法律AI四大语料系列（二）：当法律 RLHF × 翁家翌 HL，能修炼出姚顺雨 CL-Bench 期待的上下文自我精进模型吗？

法律AI四大语料系列（三）：当法律 RLHF × 翁家翌 HL，能修炼出姚顺雨 CL-Bench 期待的上下文自我精进模型吗？

人大高瓴LawThinker智能体，知识探索-显式验证-记忆策略：突破性挑战法律AI那么多的不可能（一）

人大高瓴LawThinker智能体，知识探索-深度验证-记忆机制：突破性挑战法律AI那么多的不可能（二）

终篇 | 人大高瓴LawThinker智能体，知识探索-深度验证-记忆机制：突破性挑战法律AI那么多的不可能（三）

北大ChatLaw：老朋友，新思考

腾讯姚神团队的CL-bench论文：别被全球法律科技股的暴跌吓倒！

Legal Agent”靠谱度“怎么看？HTC框架当”裁判“！

Jieba 不结巴？法律 NLP 实战干货| 告别法律 paper work 搬砖，高效处理法律文本（长文收藏）

伪代码，派上法律AI真用场？！

LDA 法律悟性高，文本聚类拆法理，主题分类显大招

嵌入袋模型（BoE）：让计算机秒懂“法律语言”的小神器！

聊透 RAG 不迷糊，再看 LawThinker 如何精准突围RAG去幻死角

GitHub开源NLP法律语料，如何用之有“道”？

全国首例 AI 幻觉侵权案刷屏：小搓“去幻”代码，专治AI“擅自表态”

400起商标侵权案背后的AI大模型欺诈恶意诉讼：小搓 “反样本污染”去幻觉代码

AI 幻觉案五国裁判盘点：典型案件及其审判逻辑异同（纯干货贴）

本公众号内所有原创文章、图片、音频、视频等内容，包括但不限于文字表述、创意构思等，其著作权均归本公众号Pat-Rainbow所有。未经本公众号运营主体明确书面授权，任何单位或个人不得擅自复制、转载、摘编、修改、链接、传播或以其他任何方式使用本公众号内的内容。若需转载，请提前联系我们并获取书面同意，同时需在转载时注明文章来源、作者及原文链接，且不得对内容进行任何实质性修改或删减。