一、工具简介
这个小工具底层用到的是 pandoc。
如果平时经常在 Markdown、Word、HTML、PDF 这些格式之间来回转换,应该会听过它。简单理解,pandoc 就是一个很强的文档转换工具。本文我们用它在word和markdown之间转换。
由于直接让AI改word格式还是不太方便(至少国产模型还没有足够能力),于是采用的是把一个 .docx 文件里的内容提取出来,转成相对干净的 Markdown;再把 Markdown 按照指定 Word 模板重新生成 .docx。
二、word转markdown
第一步,是把普通 Word 转成 Markdown。
一开始pandoc会根据格式识别标题,但是显然我们这里要做的就是格式的规范化,因此识别基础肯定不太准确,于是在它转出的 Markdown 基础上,加一层中文材料结构识别。
比如:
一、二、三、四、 识别为一级标题;
(一)(二)(三) 识别为下一级标题;
三、markdown转word
第二步,是把整理好的 Markdown 再转回 Word。
pandoc 支持指定一个 Word 参考模板,也就是 reference-doc。
我把已经调好的公文模板作为参考文档,让 pandoc 在生成新 .docx 时,使用模板里的标题、正文、页边距、页脚等样式。
这样做的好处是:
内容结构来自 Markdown;
格式规则来自 Word 模板;
最终输出还是熟悉的 .docx 文件。
四、看看效果


夜雨聆风