对 PDF 的战争正在升温,这种文件格式能否在 AI 革命中存活?| 经济学人
1. 导读
你每天打开的PDF文件,正在成为AI时代的一个“技术钉子户”。1993年问世时,它曾被斥为“最蠢的主意”,如今却以超过2.5万亿份的数量充斥数字世界的每个角落。但正是这种无处不在的格式,却让最先进的大语言模型屡屡犯晕——读乱多栏排版、误解页眉页脚,甚至因此一本正经地胡说八道。更糟的是,它还是网络攻击的温床,五分之一的钓鱼邮件借助PDF附件传播。如今,硅谷野心家们正试图用AI原生的新格式“杀死”这位32岁的数字文档霸主。本文带你审视这场关于阅读、数据与信息底层规则的隐秘战争。
Feb 24th 2026|2 min read

2. 单词预习
-
portable /ˈpɔːrtəbl/ adj. 便携的,可移植的 -
twiddle /ˈtwɪdl/ v. 无所事事地摆弄;twiddle one’s thumbs 闲等,无聊地等待 -
dial-up /ˈdaɪəl ʌp/ adj. 拨号的(指早期网络连接方式) -
render /ˈrendər/ v. (计算机)渲染,显示 -
triumph /ˈtraɪəmf/ v. 取得胜利,成功 -
ether /ˈiːθər/ n. (比喻)虚空,网络空间 -
fiddly /ˈfɪdli/ adj. 繁琐的,需要精细操作的 -
relinquish /rɪˈlɪŋkwɪʃ/ v. 放弃,移交(控制权) -
malware /ˈmælweər/ n. 恶意软件 -
utilise /ˈjuːtəlaɪz/ v. 利用,使用 -
underpin /ˌʌndəˈpɪn/ v. 支撑,构成…的基础 -
bamboozle /bæmˈbuːzl/ v. 迷惑,使困惑 -
parse /pɑːrs/ v. 解析,分析(文本或数据) -
hallucinate /həˈluːsɪneɪt/ v. (AI)产生幻觉,生成错误信息 -
disrupter /dɪsˈrʌptər/ n. 颠覆者,破坏性创新者 -
megalomaniac /ˌmeɡələˈmeɪniæk/ adj. 野心极度膨胀的,狂妄的 -
displace /dɪsˈpleɪs/ v. 取代,替代 -
contend /kənˈtend/ v. 主张,声称 -
ingest /ɪnˈdʒest/ v. (计算机)导入,摄取(数据) -
reign /reɪn/ n. 统治地位,主导地位
3. 原文与中文翻译、注释
Business | Attachment issues商业版块|附件的烦恼
The war against PDFs is heating up对 PDF 的战争正在升温
Will the file type survive the AI revolution?这种文件格式能否在 AI 革命中存活?
【注释】
When Adobe introduced the portable document format (PDF) in 1993, a consultant from Gartner called it “the dumbest idea I’ve ever heard in my life”. Users would have to twiddle their thumbs waiting for the megabyte-sized files to download over their dial-up internet, then wait again for their PCs to render them. The software-maker’s board wanted to kill the project. But the PDF triumphed, particularly after the Internal Revenue Service, America’s tax authority, began to use it for digital tax forms. Today more than 2.5trn PDFs float in the ether. But will the format survive the ai revolution?
1993 年,Adobe 推出可移植文档格式(PDF)之际,高德纳咨询公司的一位顾问直言不讳地斥之为”我这辈子听过的最蠢的主意”。用户要对着屏幕干等,才能通过拨号网络下载动辄数兆字节的文件,然后再等电脑慢悠悠地将其渲染出来。Adobe 董事会甚至想直接叫停这个项目。但 PDF 最终胜出,尤其是在美国税务局(IRS)开始将其用于数字报税表格之后,格局便彻底奠定。如今,超过 2.5 万亿份 PDF 漂浮在数字世界的以太之中。然而,这种格式能否在 AI 革命的浪潮中存活下来?
【注释】
-
twiddle one’s thumbs /ˈtwɪd.əl/ 短语 字面意思是”转大拇指”,引申为无所事事地干等、虚度时光。
-
dial-up internet /ˈdaɪ.əl ʌp/ 名词短语 拨号上网。1990年代的主流上网方式,通过电话线传输数据,速度极慢(通常仅56Kbps),下载一个几兆字节的文件往往需要数分钟。
-
render /ˈren.dər/ v. 此处为技术语境,指电脑将文件数据转化为可视画面的过程。
-
float in the ether /ˈiː.θər/ 习语 ether原指古人认为充满宇宙的”以太”物质,此处借用为”数字虚空/网络空间”的诗意说法。形容海量数字文件散布于互联网各处,无处不在。
PDFs still have drawbacks. They are a pain to view on a smartphone. Copying data from them is fiddly. Software tools that read screens for blind people struggle with PDFs. The file type, which Adobe relinquished control over in 2008, is also a vehicle for malware: a fifth of email-based cyber-attacks utilise PDF attachments, according to Check Point, a cyber-security firm.
PDF 的痼疾从未消散。它在智能手机上的阅读体验十分糟糕;从中提取数据既繁琐又低效;为盲人朗读屏幕内容的软件工具也难以对付 PDF。这种文件格式于 2008 年被 Adobe 开放后,也沦为了恶意软件的温床:据网络安全公司 Check Point 的数据,五分之一的电子邮件网络攻击都借助了 PDF 附件。
【注释】
-
fiddly /ˈfɪd.li/ adj. (英式英语)繁琐的、费手脚的。需要极度耐心才能完成的。美式英语对应词是 finicky 或 fussy。
-
relinquish /rɪˈlɪŋ.kwɪʃ/ v. 放弃、让渡。比 abandon 更正式,带有”主动交出控制权”的含义。2008年Adobe将PDF标准移交给国际标准化组织(ISO),使其成为任何人都可自由使用的开放标准。
-
vehicle /ˈviː.ɪ.kəl/ n. 此处为比喻义:载体、媒介。本义是交通工具,引申为”承载某事物的媒介”,在英文写作中极为常见。”a vehicle for malware”即”传播恶意软件的载体”。
-
malware /ˈmæl.weər/ n. 恶意软件(malicious software的缩合词)。泛指病毒、木马、勒索软件等一切以破坏或入侵为目的的程序。
Lately another source of criticism has emerged. The large language models (LLMs) underpinning generative AI are often bamboozled by PDFs, reading a page set in several columns from left to right rather than top to bottom, say, or getting confused by headers and footers. Trouble parsing PDFs is one of the reasons AI chatbots occasionally “hallucinate” nonsense.
最近,又多了一重批评之声。支撑生成式 AI 的大型语言模型(LLMs)常常被 PDF 弄得晕头转向——比如,遇到多栏排版的页面,模型会从左到右横着读,而非自上而下逐栏阅读;页眉页脚也常让它们大惑不解。解析 PDF 的困难,正是 AI 聊天机器人偶尔一本正经地”胡说八道”的原因之一。
【注释】
-
underpin /ˌʌn.dəˈpɪn/ v. 支撑、奠定基础。建筑术语,原指在建筑物下方加固地基,引申为”为某事物提供基础支撑”。”underpinning generative AI”即”作为生成式AI底层支撑”。
-
bamboozle /bæmˈbuː.zəl/ v. 把……搞糊涂、迷惑、欺骗。较为口语化,带有一种被耍得团团转的喜剧感。
-
parse /pɑːz/ v. 解析、分析。原为语言学术语,指对句子进行语法分析;在计算机领域引申为程序对文件或代码进行结构化读取和处理的过程。
-
hallucinate /həˈluː.sɪ.neɪt/ v. 此处为AI领域专业术语”幻觉”。指AI模型在缺乏真实依据的情况下,自信地生成错误、捏造或无意义信息的现象。
Enter the disrupters. Startups such as Factify are on a mission to build a new file type that is better suited to the technology. Matan Gavish, its boss, talks of his “megalomaniac” vision of displacing the PDF.
于是,颠覆者登场了。Factify 等初创公司正致力于打造一种更契合 AI 时代的全新文件格式。其创始人马坦·加维什(Matan Gavish)谈及自己”取代 PDF”的宏大愿景时,毫不讳言地称之为一种”野心家式的执念”。
【注释】
-
Enter the disrupters 句式 “Enter + 名词”是文学和新闻写作中的经典句式,源自戏剧舞台提示(如”Enter Hamlet”),意为”某人/某物登场”。
-
disrupter /dɪˈsrʌp.tər/ n. 颠覆者。商业语境中特指以创新方式打破既有行业格局的公司或个人,源自克莱顿·克里斯坦森(Clayton Christensen)提出的”颠覆性创新”(disruptive innovation)理论。
-
megalomaniac /ˌmeɡ.ə.ləʊˈmeɪ.ni.æk/ adj./n. 妄想狂的、野心膨胀的。原为精神病学术语,指患有夸大妄想症的人。此处加了引号,说明是Gavish本人自嘲式的用词,既显示其雄心壮志,也透露出一丝自我调侃。
Yet Duff Johnson, head of the PDF Association, protector of the format, argues that the fault lies not in the file type but in ourselves. He contends that there is no reason developers cannot build bots that are able to use PDFs. The AI assistant embedded in Acrobat, Adobe’s PDF reader, is designed to do precisely that, points out Leonard Rosenthol, the software-maker’s PDF guru. Google, a leader in AI, has also rolled out a tool for developers who use its Gemini models that makes it easier to ingest PDFs. The format’s reign may yet continue. ■
然而,PDF 协会的掌门人、这一格式的守护者达夫·约翰逊(Duff Johnson)却认为,问题的根源不在格式本身,而在于开发者。他坚持认为,没有任何理由阻止开发者打造出能够驾驭 PDF 的 AI 机器人。Adobe PDF 阅读器 Acrobat 内嵌的 AI 助手,正是为此而生,该公司的 PDF 技术负责人莱纳德·罗森托尔(Leonard Rosenthol)如是指出。AI 领域的领头羊谷歌也已面向使用其 Gemini 模型的开发者推出了一款工具,让 PDF 的数据摄取变得更为便捷。或许,PDF 的统治地位远未走到尽头。■
【注释】
-
the fault lies not in the file type but in ourselves 文学典故 化用莎士比亚《裘力斯·凯撒》中的名句:“The fault, dear Brutus, is not in our stars, but in ourselves.”(亲爱的布鲁图斯,错不在命运,而在我们自身。)经济学人擅长将经典文学典故信手拈来,嵌入时事评论,此处用以暗示:PDF无罪,是开发者自己不够努力。
-
guru /ˈɡuː.ruː/ n. 权威、大师。源自梵语,原指印度教或佛教的精神导师,在英语中广泛引申为某领域的顶尖专家或意见领袖。
-
ingest /ɪnˈdʒest/ v. 此处为AI技术术语,指模型”摄取”、读取并处理输入数据的过程。原义为生物学上的”摄入食物”,在AI语境中比喻模型消化数据,是近年来兴起的行业用语。
4. 全文总结
本文揭示了PDF这一诞生于1993年的数字文档格式,在AI时代面临的生存危机。尽管PDF凭借其“不可变性”成为全球超2.5万亿份文档的事实标准,但其对AI模型的“阅读障碍”——无法正确解析多栏排版、混淆页眉页脚——正成为致命缺陷,甚至导致聊天机器人胡言乱语。加之其作为网络攻击载体的安全痼疾,硅谷新贵们正试图以“AI原生格式”取而代之。然而,PDF阵营则以Adobe和谷歌的工具反击,坚称问题在于开发者而非格式本身。这场关乎数字文档底层规则的战争,结局尚未可知。
|外刊精读| 经济学人| 考研英语 | 英语学习 |
每周不定期更新外刊精读,带你精读优质英文素材!
关注不迷路!获取更多精彩内容!
点赞👍、分享🔄 ,再看
你的支持是我们持续创作的动力!
⬇️⬇️⬇️

*本文译自外媒观点,不代表本平台立场*
|外刊精读| 经济学人| 考研英语 | 英语学习 |
每周不定期更新外刊精读,带你精读优质英文素材!
关注不迷路!获取更多精彩内容!
点赞👍、分享🔄 ,再看
你的支持是我们持续创作的动力!
⬇️⬇️⬇️

*本文译自外媒观点,不代表本平台立场*
夜雨聆风
