AI 时代,为什么 Markdown 比 Word 和 PDF 越来越重要?
AI 时代,为什么 Markdown 比 Word 和 PDF 越来越重要?
过去,法律行业处理文件,核心格式几乎只有两种:
Word 用来起草、修改、留痕;
PDF 用来签字、归档、提交。
这套工作流在人类阅读时代非常合理。律师看 Word,客户看 PDF,法院、移民局、政府系统也大多接收 PDF。
但 AI 进入法律工作后,情况变了。
文件不再只是给人看的,也要给模型读。于是一个过去主要被程序员使用的格式——Markdown,开始变得越来越重要。
它不漂亮,不像 Word 那样能复杂排版,也不像 PDF 那样能固定页面外观。但在 AI 时代,Markdown 有一个极其关键的优势:
它足够干净,足够结构化,足够容易被机器理解。

一、PDF 的问题:它是“打印格式”,不是“思考格式”
PDF 的优势,是最大程度保留页面外观。
签名、盖章、页码、表格、扫描件、分页、页眉页脚,都可以稳定呈现。这也是为什么法律行业离不开 PDF。
但从 AI 的角度看,PDF 并不是理想输入。
因为 PDF 内部并不一定保存“逻辑结构”,它更多保存的是“页面坐标”。标题、正文、脚注、页码、表格内容,可能只是散落在页面不同位置的文字块。
人类一眼能看懂:这是标题,那是正文,这是表格第一列,那是页脚。
模型却要先猜:
-
哪些内容是正文? -
哪些是页眉页脚? -
表格应该按什么顺序读? -
两栏文字是否被打乱? -
扫描件 OCR 有没有漏字? -
分页是否切断了完整语句?
对普通文章来说,这可能只是摘要不够准;但对法律工作来说,这很危险。
因为法律文件最怕的不是“差不多”,而是日期、金额、人名、条款、证据来源出现微小偏差。
二、Word 的问题:适合人类协作,但不一定适合 AI 直接分析
Word 仍然非常重要。
合同红线、petition letter、RFE response、客户修改意见、律师批注,很多场景都离不开 Word。
尤其是 tracked changes 和 comments,在法律协作中非常实用。
但 Word 文件内部很复杂。一个 .docx 本质上是一个压缩包,里面有大量 XML:样式、字体、段落属性、批注、修订记录、关系文件等等。
这些内容对 Word 软件很有用,但对 AI 来说,很多都是噪音。
模型真正需要的是:
-
文本内容; -
标题层级; -
条款结构; -
表格关系; -
引用来源; -
修改前后差异。
如果把一个格式复杂、批注很多、表格嵌套严重的 Word 文件直接交给 AI,模型可能会把大量注意力浪费在解析格式上,而不是理解法律问题本身。
所以,Word 不是不好。
更准确地说:
Word 适合人类编辑和协作,Markdown 更适合 AI 读取和推理。

三、Markdown 为什么适合 AI?
Markdown 的核心优势是纯文本。
打开一个 Markdown 文件,里面几乎没有隐藏格式。标题、列表、引用、表格,都用简单符号表达。
例如:
## 资金来源说明
- 2024年3月1日,申请人收到工资收入人民币 100,000 元;
- 2024年3月5日,该笔资金转入招商银行账户;
- 2024年3月10日,申请人购汇并汇出至美国账户。
这段内容对人类可读,对 AI 也非常清楚。
Markdown 对 AI 的价值主要体现在三个方面。
1. 减少 token 浪费
PDF 和 Word 解析后,常常夹杂页码、页眉页脚、换行噪音、坐标信息或格式残留。
Markdown 更干净,同样一份材料,占用的上下文更少。
在长文档场景下,这非常重要。比如一套 EB-5 资金来源材料,银行流水、税单、合同、换汇记录、转账凭证加起来可能几百页。上下文越宝贵,格式越不能浪费。
2. 保留逻辑层级
法律文件不是普通散文。
它依赖层级:事实背景、法律依据、证据列表、资金路径、结论、附件索引。
Markdown 用 #、##、### 表示标题层级,天然适合表达法律文书结构。
AI 看到 Markdown,更容易知道:这是一级问题,这是二级论点,这是证据说明,这是结论。
3. 方便自动化处理
Markdown 可以被程序轻松切分、搜索、比对、版本管理。
比如:
-
按章节拆分长文档; -
自动抽取所有日期和金额; -
自动生成 exhibit index; -
对比中英文翻译是否遗漏; -
把同一客户的多份材料汇总成时间线; -
最后再转换成 Word、PDF 或网页。
这就是 AI 工作流和传统文档工作流的区别。
传统文档追求“看起来像最终版本”。
AI 工作流追求“结构清楚,便于理解和处理”。
四、法律行业真正需要的是“三层格式”
AI 时代,不是 Markdown 取代 Word 和 PDF。
更合理的方式,是三种格式各司其职。
PDF:证据层和提交层
PDF 适合固定证据形态。
扫描件、签名件、政府回执、银行流水、税务文件、法院文件,最终仍然应该以 PDF 保存和提交。
PDF 的价值在于稳定、正式、可归档。
Word:协作层和修改层
Word 适合律师、助理、客户之间协作。
起草 petition letter、修改合同、保留修订痕迹、插入批注,Word 仍然是主力工具。
Word 的价值在于编辑、协作、留痕。
Markdown:AI 工作层和知识层
Markdown 适合让 AI 阅读、分析、整理、总结、质检。
它可以作为 PDF 和 Word 之间的中间层,也可以作为律所内部知识库的基础格式。
Markdown 的价值在于结构化、可自动化、可复用。
一句话:
PDF 给机构看,Word 给人协作改,Markdown 给 AI 高效读。

五、对法律行业的具体影响
Markdown 变重要,不只是写作工具变化,而是会影响法律服务的生产方式。
1. 法律文书会从“排版优先”转向“结构优先”
过去写文书,很多人先考虑格式好不好看。
AI 时代,应当先考虑结构是否清楚:事实、证据、法律依据、分析、结论是否分层明确。
结构越清楚,AI 越容易辅助审查;结构越混乱,模型越容易误解。
2. 律所知识库会更依赖纯文本
很多律所内部有大量模板、memo、案例摘要、RFE response、petition samples。
如果这些资料只是散落在 Word 和 PDF 里,AI 很难高效检索和复用。
如果把关键知识沉淀成 Markdown,建立结构化知识库,AI 就能更准确地调用模板、比较案例、生成初稿。
3. 质检会变得更自动化
法律工作里,很多错误不是法律判断错误,而是信息一致性错误:
-
姓名拼写前后不一致; -
出生日期不一致; -
金额加总不一致; -
银行流水和 petition 描述不一致; -
翻译件漏翻一页; -
exhibit 编号引用错误。
这些问题非常适合 AI 检查,但前提是材料必须被整理成清楚的结构。
Markdown 可以成为 AI 质检的理想中间格式。
4. 长文档分析会更可靠
在移民、诉讼、并购、合规等领域,材料经常非常长。
直接把几百页 PDF 丢给 AI,看似方便,实际容易丢细节。
更稳妥的方式是:先 OCR 和解析,再转成 Markdown,按章节和证据类型分块,让 AI 分批分析,最后汇总。
这会比“直接上传一个大 PDF”更可靠。
六、一个更适合法律 AI 的工作流
未来比较理想的法律 AI 工作流,可能是这样的:
-
原始文件仍然保存为 PDF 或 Word; -
扫描件先 OCR; -
PDF/Word 被解析成 Markdown; -
AI 在 Markdown 层做摘要、核对、翻译、起草、质检; -
人类律师审阅关键判断; -
最终再输出 Word 或 PDF。
也就是说,Markdown 不是最终文件,而是 AI 参与法律工作的“操作台”。
这就像厨房里的案板。
客户最后看到的是菜,不是案板;但没有干净的案板,整个流程就会混乱。
结语
Word 和 PDF 不会消失。
法律行业仍然会长期依赖 Word 的协作能力,也会长期依赖 PDF 的正式性和稳定性。
但 AI 时代,Markdown 会越来越重要,因为它解决的是另一个问题:
如何让机器准确理解法律文本。
当 AI 开始参与起草、审查、翻译、摘要、质检和知识检索时,文档格式本身就会影响 AI 的表现。
未来优秀的法律工作流,不只是“用更强的模型”,还要“给模型更清楚的材料”。
而 Markdown 的价值,正是在这里。
它不是为了取代 Word 和 PDF。
它是 AI 时代连接人类法律工作与机器理解能力的中间层。

夜雨聆风