谁还在用PDF为难考生?
5分钟,我把教育考试院那份「十分一段」PDF拖进了Excel
又是一年高考季。
每年这个时候,有一份数据,北京考生家长都想要。它躺在教育考试院的官网上,叫"××年全国普通高等学校在京招生录取分数分布统计(本科批次)"。
外行一听,不知道这是啥。内行一听,眼睛会亮。
为啥?因为这份文件理论上,是志愿填报的底层密码。去年某校在某专业组招了多少人,最低分多少,同分段一共有多少人,它全有。2025年6月发布的2024年录取数据,本科普通批573所院校,3000多个专业组,上万个具体专业,按每10分一个区间的人数分布,逐分累计都给掰开了。
理论上,每一位北京考生家长,都该有一份这个。
但我跟你讲,他们大概率没有。
因为它是PDF。扫描版PDF。你打开它,看到的是一张一张的图,不是数字,是图像。你不能复制,不能筛选,不能透视,不能写公式。你只能瞪着眼看,或者掏出手机一张一张拍。
就这。
过去很多年,包括一些机构,做的事都很原始。一个人对着PDF,眼睛瞪成铜铃,一行一行把数字敲进Excel。5552行,这是我们最终跑出来的真实行数。一个人至少干两周,还容易敲错。
现在变了。
前几天,我的AI agent韩信帮我跑通了整条链路。从1200页的扫描版PDF,到3份格式规整的Excel。全量版本科普通批573所院校5552行36列,物理组600分以上专项版,分数段优化版,都有。
第一次跑,踩坑无数,迭代了10多个版本。但跑通之后呢?今年再出新的数据,从下载文件到拿到最终表格,5分钟以内。
这才是让我兴奋的地方。AI把一道原本要两周才能翻过去的墙,变成了5分钟的台阶。
那10多个版本踩过的坑,就是墙变成台阶的过程。
扫描版PDF转Excel,核心流程就两步。PDF转Markdown,Markdown转Excel。第一步用OCR工具把图片里的表格识别成结构化文本,第二步用Python脚本把文本清洗、对齐、排好序,输出Excel。思路很直白,工具也都不花钱。PDF转MD这步用的是MinerU,开源的,专门训练过图表和公式识别,轻量用户云端免费使用,全鼠标操作。
但思路直白不代表跑得顺。MD转Excel这步,才是AI真正发力的环节。573所院校的表格结构各不相同,跨页表头格式不一致,截断标签导致行合并,排序key可能读错列——这些坑每一个都能让最终数据错位,而且错得悄无声息。你不会得到一堆乱码,你会得到一份看起来挺像样但关键数字全错的Excel。最离谱的一次,跑出来的结果第一行是北京第二外国语学院中瑞酒店管理学院,最低分426。北大排到了很后面。原因是代码里把部分院校的分数和排名的列搞混了,排序时用的是排名而不是分数。
修了之后,第一行才是北大,最低分688。嗯,这才像话。
这些坑,第一次都得手动踩、手动修。但修完之后呢?它们就固化在脚本里了。下次新数据出来,OCR一遍,脚本跑一下,5分钟,Excel出来。
AI时代做事的方式就是这样。第一次慢,但慢出来的经验可复用。以前踩坑是纯消耗,现在踩坑是投资。当踩坑变成投资,门槛就不再是墙了。
好,技术讲完了。聊聊更上头的事。
教育考试院为什么非得发PDF?
你去问他们,大概率会说"为了存档""为了统一""为了数据准确性"。听上去都对。但你有没有想过,不发Excel,其实是不想。
PDF是什么?PDF是"印刷友好"的格式,是"存档友好"的格式。它跟"数据友好"八竿子打不着。PDF还有一个隐藏属性,叫"不可加工"。你不能用公式,不能筛选,不能透视,不能批量导出,不能跟其他数据关联。
想充分利用这份数据的考生家长,得多走两步。多走两步这事,有一部分人会走,很多人走不了。走得动的人,是有信息检索能力的人,是有OCR工具的人,是有耐心敲Excel的人。走不动的人,是不会装软件的家长,是不愿意花两周干这种原始体力活的家长。
PDF这东西,真的跟格式选择无关。它是信息门槛。
教育考试院可能是个极端案例,但类似的事到处都是。门槛不只挡住了你获取数据,它还挡住了你用数据做判断。
以前,这道门槛确实有效。你不给我Excel,我自己录一遍得两周。你发的是PDF,我除了肉眼阅读啥也干不了。
但2026年了。AI已经把这件事的成本,从两周干到了5分钟。你设的格式壁垒,5分钟破解。
这些机构不懂技术吗?他们有很好的服务器,有专业的IT部门,同时发一份Excel对他们来说没有任何技术障碍。但数据还是躺在PDF里。就像工厂买了最先进的设备,工人还按老办法干活,生产效率几乎没变。工具变了,流程没变,等于没变。他们只是没想明白一个问题。数据到底该服务谁?数据是给档案柜服务的吗?如果数据是给人服务的,那它就该是能被加工、被筛选、被关联的格式。
真正吃到AI红利的人,是最早想明白"数据应该怎么服务人"的人。而坚持只发PDF的机构,工具早就够用了,但认知还停在档案柜时代。
当一项技术把获取数据的成本压到接近零的时候,还在用格式设门槛的机构,已经不是在保护数据,而是在拒绝被使用。
我能做的就是,磨平一点点信息差。哪怕只是一道门槛。
高考临近。祝考生读者,金榜题名。
夜雨聆风