一边是深圳法院把 AI 放进 60 万件案件审理流程。
一边是美国律师因为 ChatGPT 编造判例,被法院制裁。
同样是法律人用 AI,为什么一个变成效率新闻,一个变成职业事故?
差别不在模型。
差别在流程。
2026 年 4 月底,深圳中院在广东省人工智能应用对接大会上介绍,深圳法院人工智能辅助审判系统自 2024 年 6 月上线以来,已经深度赋能超过 60 万件案件审理。公开材料还显示,系统覆盖立案、阅卷、庭审、文书制作四大环节;2025 年深圳法院法官人均结案 744 件,比上一年增加 249 件。
这些数字很容易被理解成一句话:
法院也开始用 AI 审案了。
但我觉得这恰恰是误读。
深圳法院真正值得看的,不是 AI 能不能生成文书,而是法院怎么让 AI 不能乱跑。
最高人民法院官网此前介绍深圳系统时,有一个细节很关键:系统在各环节节点设置审核、确认、决定选项和提示,作为 AI 辅助生成的前置条件;过程可以及时纠偏,全程可以留痕回溯。
换成人话说:
AI 可以跑,但每到关键节点,法官要停下来确认。
这才是司法 AI 最重要的地方。
不是更聪明的模型。
而是更硬的流程。
法律人真正要学的,也不是“法院已经用 AI 了,所以我也要赶紧学提示词”。
真正要学的是:法院和法官怎么把 AI 关进一个有边界、有核验、有留痕、有责任归属的流程里。
这件事,是理解法律 Skill 的一个重要入口。
这里的 Skill,不是单个提示词,而是一套可复用的 AI 工作流规则:有输入、有输出、有验收标准,也有明确的责任边界。
深圳法院的案例,很适合先拆掉一个幻觉。
它不是让 AI 独立审案、独立决定。
它更像一个被嵌入审判程序的数字助理。
立案有立案的节点。
阅卷有阅卷的节点。
庭审有庭审的节点。
文书生成有文书生成的节点。
每个节点都有人的确认、审核和决定。
这和很多法律人日常用 AI 的方式很不一样。
很多人是把一个完整法律工作流压成一句话:
“帮我审一下合同。”
“帮我写一份代理词。”
“帮我总结一下案卷。”
AI 很快会给你结果。
问题是,它跳过了中间过程。
合同审查中,交易背景有没有确认?我方立场是什么?哪些条款是红线?哪些风险只是谈判筹码?哪些意见能直接给客户看?
诉讼案件中,材料有没有齐?事实有没有核?证据在哪一页?争点有没有排错?法律依据是不是现行有效?对方会怎么反驳?
这些中间过程,才是法律工作的价值。
法院的启发不是“用 AI 写更多东西”。
法院的启发是:
先把流程拆开,再决定 AI 能放在哪一步。
AI 可以进流程。
但不能替代流程。
英国 McNall 法官的案例,比新闻标题有意思得多。
2025 年,First-tier Tribunal (Tax Chamber) 的 Tribunal Judge McNall 在 VP Evans v The Commissioners for HMRC 案中披露,他使用司法系统 eJudiciary 环境下的 Microsoft Copilot,主要用于总结当事人提交的文件,并把这些总结作为初稿参考。
如果只看到这里,很容易写成:
英国法官开始用 AI 写判决。
但真正值得看的,是他在判决附记里说明的边界。
他没有把 AI 用于法律研究。
案件是书面审理的程序性事项。
没有听取证据。
不需要判断当事人诚实性或证人可信度。
AI 总结只是初稿。
准确性由法官自己核验。
最后责任仍由法官承担。
这不是一个“法官相信 AI”的故事。
这是一个法官先限制 AI 的故事。
所以,法律 AI 的第一个问题,不是“AI 能不能做”。
而是这件事的风险等级是什么。
一个任务是否适合让 AI 先跑,至少要看四个因素:
第一,错了能不能发现。
第二,发现后能不能修正。
第三,修正前会不会产生外部影响。
第四,最终决定权是否还在人手里。
按照这个标准,文件摘要、格式整理、时间线初提取,风险相对低。
争点归纳、合同风险初筛、案例线索整理,风险居中,必须人工校核。
事实认定、证据采信、法律定性、诉讼策略、和解判断,风险高,不能交给 AI 自己决定。
这也是法律人日常使用 AI 时最容易忽略的地方。
不是所有“AI 能做”的事,都应该让它做。
更不是所有“AI 写得像”的东西,都可以直接交付。
真正专业的 AI 使用,第一步不是提问。
是划线。
法律人谈 AI 风险,最常说的是幻觉。
AI 编造判例。
AI 编造法条。
AI 编造事实。
这些当然危险。
但法官使用 AI 暴露出一个更隐蔽的问题:AI 不一定只是胡说,它也可能把你原来就有的问题包装得更像对的。
Liu & Li 在 Journal of Legal Analysis 发表的论文《How do judges use large language models? Evidence from Shenzhen》,提出了一个很值得警惕的概念:echoes of bias,偏见回声。
他们观察深圳法院的实践,概括出一种典型的人机协作结构:
法官先形成初步判断。
AI 根据法官的初步判断生成裁判理由。
法官再修改 AI 生成的理由,形成最终判决。
这个结构听上去很安全。
因为最终判断还在法官手里。
但论文提醒,这里面有一个机制风险:AI 可能选择性组织材料,生成一套支持初判的理由。如果人的初判本来就有偏差,AI 未必纠正它,反而可能把它写得更完整、更顺滑、更像一套法律论证。
本文出于审慎,把这组研究结论理解为一种流程风险提示,而不是直接等同于所有司法 AI 场景的决定性结论:
AI 最危险的时候,未必是它编得离谱。更危险的是,它顺着你的判断写,写得让你更相信自己。
律师也一样。
你觉得这个合同问题不大,AI 可以给你写出一堆“风险可控”的理由。
你觉得这个案子胜算不错,AI 可以给你写出一套漂亮的胜诉逻辑。
你觉得某个抗辩不用重视,AI 可能就沿着你的提示把它压低。
你以为 AI 提高了效率。
它可能只是提高了你自我确认的效率。
所以,法律 AI 不能只设计“生成”。
还要设计“反证”。
李学尧 2025 年在《政治与法律》发表的《大语言模型应用中的司法偏误与认知干预》,提供了一个很有价值的处方:不要让 AI 单向输出,而要在流程里加入先人后机、反向检索、逆向假设、对立论证、反驳清单和 AI 参与记录。
放到法律工作流里,就是几条很具体的规则:
不要只让 AI 找支持你的案例,也要让它找对你不利的案例。
不要只让 AI 写支持你结论的理由,也要让它写最强反方理由。
不要只让 AI 整理事实,也要让它列出哪些事实证据不足、哪些地方需要核验。
不要只让 AI 输出答案,也要让它输出“不确定在哪里”。
这比“帮我写得更快”重要得多。
一个真正有价值的法律 AI 工具,不应该只会替你顺着写。
它还应该逼你停下来想:如果我错了,错在哪里?
再看美国 Mata v. Avianca。
这个案子大家已经很熟悉:律师用 ChatGPT 写 brief,里面出现多个不存在的案例。被法院质疑后,律师又去问 ChatGPT,ChatGPT 继续确认这些案例是真的。最后,法院制裁了相关律师和事务所。
这个案子最值得记住的,不是“AI 会编案例”。
而是:AI 介入以后,律师的核验义务没有降低。
法院不会接受“是 AI 告诉我的”作为免责理由。
英国 2025 年也有类似警告。英国高院在 Ayinde v Haringey; Al-Haroun v Qatar National Bank [2025] EWHC 1383 (Admin) 中,由 Dame Victoria Sharp P 强调,公开可用的生成式 AI 工具不能可靠承担法律研究,误用 AI 会影响司法公信。
所以,法院真正关心的不是你有没有用 AI。
而是:
你用了什么工具?
用在了哪里?
谁核验过?
哪些引用是真实存在的?
哪些内容只是待核验线索?
出了问题谁负责?
美国部分法院和法官发布的 standing orders,也是在处理这些问题。
有的要求披露使用了什么 AI 工具。
有的要求标明哪些段落由 AI 生成。
有的要求律师认证每一个法律引用和记录引用都已经人工核验。
有的要求所有起草贡献者签字。
有的限制把保密信息上传到公共 AI 平台。
这背后的逻辑很清楚:
不少法院不是只用“禁用”来处理 AI。
法院是把 AI 使用改造成披露、核验和责任归属问题。
这对法律人很重要。
因为很多人现在只关心 AI 能不能写出东西。
但在法律工作里,能写出来只是第一步。
更关键的是:
这句话从哪来?
这个案例查过没有?
这个事实有证据吗?
这个结论是谁确认的?
这份文件如果出问题,谁负责?
没有这些东西,AI 生成得越快,风险也只是跑得越快。
把上面的法院实践和研究放在一起看,可以反推出法律 Skill 的四条硬规则。
再次说明,这里的 Skill,不是一个更长的提示词,而是一个带输入、输出、验收标准和责任边界的工作流封装。
第一,风险分级。
先判断任务风险,再决定 AI 能跑多远。
风险不是只看任务难不难,还要看错误能不能发现、能不能修正、会不会影响外部关系、是否涉及当事人身份或商业秘密、最终决定权是否还在人手里。
第二,流程分段。
不要一键到底。
事实底稿就是事实底稿。
证据索引就是证据索引。
法律检索备忘录就是法律检索备忘录。
每一步都应该有一个中间产物,能被人审,审完再进入下一步。
第三,强制核验。
凡是事实、证据、法条、案例、金额、日期、主体信息,都要标来源。
已经核验的,写清楚权威来源。
来自商业数据库的,标成平台线索。
来自案卷材料的,标成当事人主张或证据内容。
模型推断的,必须单独标出来。
没有核验的,必须标成待核验线索。
第四,审计留痕。
记录哪个模型参与了什么。
记录哪些内容是 AI 生成。
记录哪些地方经过人工修改。
记录谁在什么时候完成核验。
记录哪些问题还没有解决。
这四条合起来,才是法律 Skill 和普通提示词最大的区别。
普通提示词追求输出。
法律 Skill 追求可控的输出。
它不是让 AI 多做事。
它是规定 AI 哪些事不能擅自做。
法律检索是最容易翻车的场景。
因为模型很会编出“像真的一样”的案例。
如果你直接问:
“帮我找几个支持这个观点的案例。”
它可能真的会给你几个。
问题是,这些案例到底存不存在?裁判观点是不是它说的那样?有没有相反案例?有没有新的司法解释?有没有地域差异?
所以,一个法律检索 Skill 不应该设计成“AI 帮你找答案”。
它应该设计成“AI 帮你组织检索过程”。
可以这样拆:
这样设计以后,AI 的角色就变了。
它不是替你下结论。
它是帮你把检索路径铺开,把正反材料列出来,把待核验问题标出来。
最终判断还是你做。
这也是我理解的“从法院流程反推法律 Skill”。
不是照搬法院系统。
法院流程和律师工作当然不是一回事。
但法院实践提供了很强的约束方向:
高风险法律工作里,AI 必须可分段、可核验、可留痕、可追责。
这四件事不解决,AI 写得越好,反而越危险。
法律人现在不缺 AI 工具。
缺的是把 AI 放进工作流的能力。
深圳法院的启发是流程。
McNall 法官的启发是边界。
Liu & Li 的启发是警惕偏见回声。
李学尧六步法的启发是设计反证。
英美法院 AI 命令的启发是披露、核验和责任。
这些材料不能直接推出一套现成产品标准。
但它们足够说明一件事:
法律 AI 的核心不是生成能力,而是控制能力。
从今天开始,法律人可以先做一件很小的事。
选一个低风险任务。
拆出输入和输出。
标出人工确认点。
规定引用核验方式。
留下未核验清单。
把每次错误变成下一版规则。
这比收藏一百个提示词更有用。
因为 AI 时代,法律人的稀缺能力不是让机器替你写。
而是知道什么时候必须让机器停。
不允法典 · 法律 AI 练功房
如果你也想把 AI 接进真实法律工作流
我会把这套方法继续拆成可复用的资料包:案卷转 Markdown、事实梳理、证据定位、合同审查、法律文档脱敏,以及对应的 Claude Code / Codex 模板和人工复核清单。
社群不是新闻群,也不是提示词仓库。它更像一个法律 AI 工作流训练场:每周一个任务,一份材料,一套参考路径,把“收藏教程”变成“真的跑通”。
个人网站:buyunfadian.com
社群介绍:buyunfadian.com/community.html
Lab 资料入口:buyunfadian.com/lab/
• 深圳法院 2026 年 4 月底广东省人工智能应用对接大会相关数据,主要用于说明深圳法院 AI 辅助审判系统的大规模应用。参考深圳新闻网 2026 年 4 月 29 日相关报道:https://www.sznews.com/news/content/2026-04/29/content_32032674.htm • 最高人民法院官网《在深圳,智赋未来》,2024 年 8 月 29 日,主要用于说明深圳系统的流程嵌入、节点确认和留痕设计:https://www.court.gov.cn/zixun/xiangqing/441351.html • VP Evans v The Commissioners for HMRC [2025] UKFTT 1112 (TC),主要用于说明法官对 AI 使用边界、人工核验和责任不转移的披露。判决文本:https://caselaw.nationalarchives.gov.uk/ukftt/tc/2025/1112 • Oxford Institute of Technology and Justice, United Kingdom AI Justice Atlas,主要用于补充英国法院 AI 实践背景:https://www.techandjustice.bsg.ox.ac.uk/research/united-kingdom • Mata v. Avianca, Inc., 22-cv-1461 (S.D.N.Y. June 22, 2023),主要用于说明 AI 生成虚假判例时律师核验义务不降低。制裁令文本:https://law.justia.com/cases/federal/district-courts/new-york/nysdce/1:2022cv01461/575368/54/ • R (Ayinde) v London Borough of Haringey; Al-Haroun v Qatar National Bank [2025] EWHC 1383 (Admin),主要用于说明英国法院对 AI 虚假引用和法律研究风险的警告。判决文本:https://www.judiciary.uk/judgments/ayinde-v-london-borough-of-haringey-and-al-haroun-v-qatar-national-bank/ • John Zhuang Liu & Xueyao Li, “How do judges use large language models? Evidence from Shenzhen”, Journal of Legal Analysis, Vol. 16, Issue 1, 2024, pp. 235-262,online published Jan. 2, 2025, DOI: 10.1093/jla/laae009,主要用于说明“偏见回声”的机制风险:https://academic.oup.com/jla/article/16/1/235/7941565 • 李学尧《大语言模型应用中的司法偏误与认知干预》,《政治与法律》2025 年第 5 期,主要用于说明先人后机、对立论证、反驳清单等认知干预设计。网络转载链接作为辅助参考:https://jyqg.chv.org.cn/sjzk/2635.html • 美国法院 standing orders 部分,为对若干公开法院命令和法官个别命令的概括性整理,文中仅作为制度趋势说明;具体命令在不同法院和法官之间存在差异。代表性例子包括 N.D. Tex. Judge Brantley Starr 的 AI certification order、Judge Evelyn Padin 关于 AI 工具和 AI 生成段落披露的要求、Judge Nina Y. Wang 关于 AI certification 的命令等。 • 文中关于法律 Skill 的设计原则,是基于上述司法 AI 实践和作者法律 AI 工作流实践作出的产品化推论,不构成法律意见。
夜雨聆风