
你有没有这种感觉:辛辛苦苦写了几十页PDF,发到网上,结果石沉大海。
更扎心的是——现在AI搜索(比如Perplexity、Google SGE)越来越火,你的内容却从来没被它们引用过。
我有个朋友做行业报告,PDF排版精美,数据扎实,但投到网上后,连AI都不搭理他。他问我:是不是AI歧视PDF?

不是歧视,是结构问题。
传统PDF对大模型来说,就像一本没有目录、没有索引、没有章节标记的乱码书。AI爬虫读起来费劲,自然就不愿意推荐。
这其实是个机会。
如果你能提前让文档“AI友好”,就等于在生成式搜索引擎里插了一面旗——你的内容会被优先抓取、解析、引用。
今天聊一个工具:Papermill Press。它不是写PDF的软件,而是一种标记语言,专门让文档变成AI能“一口吃掉”的结构。
先看一个趋势。
2024年下半年开始,Google SGE(Search Generative Experience)和Perplexity的流量占比明显上升。很多内容创作者发现,自己的文章被AI摘要引用后,点击率反而更高——因为AI会给出一个精准的摘要,用户看完觉得靠谱,就点进去看全文。
但这里有个前提:你的内容必须能被AI理解。
AI理解文档的方式,和我们人类不一样。
人类看PDF,会看排版、字体、图表、颜色。AI看PDF,只看结构:标题层级、段落边界、列表、表格、代码块、引用。
如果你的PDF没有这些结构标记,AI就只能把它当成一张大图片或者一堆连续的文字流——信息密度再高,它也提取不出来。
这就是为什么很多优质内容在AI搜索里“隐身”。
Papermill Press做的就是一件事:让你用简单的标记语法,给PDF加上AI能读懂的“骨架”。
它不是替代Markdown或LaTeX,而是专门针对AI索引场景设计的轻量级方案。
为什么重要:内容可见性的分水岭
现在是一个分水岭。
一方面,传统搜索引擎(百度、Google)的流量在缓慢下降,AI搜索的流量在上升。
另一方面,AI搜索的推荐机制和传统SEO完全不同。传统SEO靠关键词密度、外链、域名权重。AI搜索靠内容结构、语义清晰度、可解析性。
简单说:你的文档越结构化,AI越愿意引用你。
这就意味着,如果你还在用老办法写PDF(比如Word转PDF、设计软件导出PDF),你正在错过一波免费流量。
Papermill Press这类工具的价值就在这里:它让你在不牺牲排版质量的前提下,让文档对AI更“友好”。
影响人群:谁最该关注这件事
• 个人知识创作者:写电子书、行业报告、白皮书的人。你的内容质量不差,但AI不认,等于白写。 • 小团队产品经理:做产品文档、API文档、用户手册。AI搜索可能会成为用户发现你产品的新入口。 • 自由职业者/咨询顾问:写提案、案例研究、方法论文档。AI引用你的内容,等于免费背书。 • 内容运营:管理公众号、知乎、博客的PDF版本。让PDF也能被AI推荐,多一个流量来源。
不适合谁?
如果你只是写内部文档、不需要被搜索引擎索引,那暂时不用折腾。
如果你已经有成熟的Markdown→HTML→PDF工作流,Papermill Press可以作为补充,但不必完全迁移。
机会与风险矩阵
我的判断:机会大于风险。因为核心不是Papermill Press这个工具,而是“结构化文档”这个思路。即使这个工具消失,思路依然有效。
普通人该做什么:三步改造你的PDF
第一步:理解AI友好的文档结构
AI喜欢的文档结构,和人类喜欢的大同小异:
• 清晰的标题层级(H1、H2、H3) • 段落不要太长(每段3-5句) • 列表用有序或无序标记 • 表格要有表头 • 代码块要标明语言 • 关键术语加粗或单独成段
这些在Papermill Press里都有对应的标记。
第二步:用Papermill Press改造旧文档
假设你有一份现成的PDF,可以这样做:
1. 用工具(比如Pandoc)把PDF转成Markdown 2. 在Markdown里加上Papermill Press的标记(比如用 :::包裹重要段落,用[!note]标记提示信息)3. 再用Papermill Press编译回PDF
整个过程大概需要30分钟到1小时,取决于文档长度。
第三步:新建文档时直接用标记语法
如果你写新文档,直接用Papermill Press语法写。它和Markdown很像,但多了几个专门为AI索引设计的标记:
• [!summary]:给AI看的摘要,不会显示在PDF里,但会被爬虫识别• [!keywords]:关键词列表,AI会优先索引• ::: {.callout}:重要提示块,AI会提升权重
这样写出来的PDF,既有人类看的排版,又有AI读的元数据。
行动判断表(可带走)
不要过度解读什么
Papermill Press不是银弹。它不会让你的PDF一夜之间被所有AI引用。AI搜索的推荐机制还有很多其他因素:内容质量、时效性、权威性。
但它是一个低成本、高回报的尝试。
如果你已经在写内容,花30分钟让文档结构更清晰,怎么算都不亏。
先做小流程,不要盲目追热点。
本文提到的Papermill Press来自Hacker News讨论(https://news.ycombinator.com/item?id=42712345),适合对技术细节感兴趣的读者进一步了解。
夜雨聆风