When Adobe introduced the portable document format (PDF) in 1993, a consultant from Gartner called it “the dumbest idea I’ve ever heard in my life”. Users would have to twiddletheir thumbs waiting for the megabyte-sized files to download over their dial-up internet, then wait again for their PCs to render them. The software-maker’s board wanted to kill the project. But as sharing digital files became essential, the PDF triumphed — particularly after the Internal Revenue Service, America’s tax authority, started using it for its forms. Today more than 2.5trn PDFs float in the ether. But will the format survive the AI revolution?1993年,当Adobe公司推出便携式文档格式(PDF)时,高德纳的一位顾问曾评价其为「我这辈子听过最愚蠢的想法」。在那个拨号上网的年代,用户只能无聊地干等,先花大把时间下载几兆大小的文件,再眼巴巴地等着电脑完成渲染。当时,Adobe的董事会甚至想毙掉这个项目。然而,随着数字化办公成为刚需,PDF最终脱颖而出——在美国国家税务局开始将其用于报税表格后,PDF彻底奠定了胜局。如今,全世界有超过2.5万亿份PDF文档在网络空间里流转。但在人工智能革命的浪潮下,这一格式还能长盛不衰吗?▼ twiddle one’s thumbs(因紧张或无聊)旋弄、摆弄:twiddle的本意是「摆弄(物件)」,所以twiddle one’s thumbs自然就是「摆弄大拇指」或者是「无聊地等待」,从这方面来看,英语国家的人和我们一样,无聊时都爱玩手指;▼ megabyte n. 兆字节:即mega「兆」+byte「字节」,也就是信息存储的单位MB。类似的还有gigabyte「千兆字节」(GB)和terabyte「万亿字节」(TB);▼ dial-up internet n. 拨号上网:早期上网方式,需要用电话线和modem「调制解调器」才能将电脑连上网;▼ triumph vi. 战胜,成功:名词形态是「巨大胜利」,动词形态自然是「取得胜利」,注意动词是不及物用法;▼ the ether n. 以太:「以太」本是19世纪物理学家假想的一种充满宇宙的介质,虽然后来被证伪,但这个词却保留了下来,经常用来指「看不见却无处不在的空间」;在现代科学语境中,in the ether则常指「在网络空间中」,所以这里的more than 2.5 trn PDFs float in the ether就是指「在当今的互联网上,有超过2.5万亿份PDF文件」。PDFs still have drawbacks. They are a pain to view on a smartphone. Copying data from them is fiddly. Software tools that read screens for blind people struggle with PDFs. The file type, which Adobe relinquished control over in 2008, is also a vehicle for malware: a fifth of email-based cyber-attacksutilise PDF attachments, according to Check Point, a cyber-security firm.目前PDF依然存在不少弊端。用手机阅读PDF堪称折磨,从文档中提取数据也十分繁琐。此外,视障人士使用的屏幕阅读工具在处理PDF时也困难重重。由于Adobe已在2008年放弃了对该格式的控制权,PDF也成了恶意软件的温床。网络安全公司Check Point的数据显示,在基于邮件的网络攻击中,有五分之一是利用PDF附件发起的。▼ fiddly adj. 精巧难使用的:fiddle作动词可以指「拉小提琴」,而小提琴并不是容易精通的乐器,由此可以记忆fiddly「精巧但难以使用」的含义:▼ relinquishvt. (犹指不情愿地)放弃:和give up比起来要正式不少,而且relinquish放弃的东西往往是「所有权」和「控制权」,比如文中放弃的就是control「控制权」;▼ malwaren. 恶意软件:即malicious「坏的」+software「软件」的缩合词;▼cyber-attackn. 网络攻击:cyber-是「网络、计算机」的意思(也就是中文常说的「赛博」),所以cyberattack就是「网络攻击」;相关词还有cybersecurity「网络安全」和cyberspace「网络空间」。Lately another source of criticism has emerged. The large language models underpinning generative AI are often bamboozled by PDFs, reading a page set in columns from left to right rather than top to bottom, say, or getting confused by headersand footers. Trouble parsingPDFs is one of the reasons AI chatbots occasionally “hallucinate”, generating nonsense.最近,PDF又遭到了新的诟病。生成式人工智能背后的大语言模型经常会被PDF搞糊涂。例如,面对分栏排版的页面,AI可能会从左往右横着读,而不是从上往下分栏读,或者会被页眉页脚干扰。解析PDF时的不给力,正是AI聊天机器人偶尔产生「幻觉」并胡言乱语的原因之一。▼ large language model 大语言模型:类似ChatGPT、Gemini、DeepSeek这些AI软件的底层都是大语言模型(LLM);▼ underpinvt. 构成(基础):按字面即可理解为是under「在下方」来pin「固定」,也就是「从下方来支撑上面的东西」,也就是「构成基础」;前一个词条提到,大语言模型是各种常见AI软件的基础,这些AI软件又都是generative AI「生成式AI」;▼ generative AI生成式AI:即可以创造新的、原创内容的一种AI,能生成的内容形式包括文本、音频、代码、图片等等;▼ bamboozle vt. 迷惑、哄骗:非正式用词;▼ header n. 页眉▼ footer n. 页尾▼ parse vt. 作语法分析:文中显然不是指「对PDF文件进行语法分析」,可以理解为「AI聊天机器人在解析PDF文件的内容」;▼ hallucinate vi. 产生幻觉:常指因生病或吸毒导致的幻觉(或者幻听、幻视),除了用作不及物动词,hallucinate也可以及物,后面直接连接产生的幻觉:Heathcliff starts hallucinating Cathy’s image everywhere.
希斯克利夫开始到处产生凯茜的幻觉。
Enter the disrupters. Startups such as Factify are on a mission to build a new file type that is better suited to the technology. Matan Gavish, its boss, talks of his “megalomaniac” vision of displacing the PDF.这也给挑战者们带来了机会。诸如Factify之类的初创公司正致力于开发一种更适配AI技术的新型文件格式。其掌门人马坦·加维什直言不讳地表达了他的「宏大野心」:取代PDF。▼ disrupter n. 扰乱者:即disrupt「扰乱」+or「……的人或物」;▼ megalomaniac n. 妄自尊大的人:前缀megalo-「大」来自词根mega-(比如megacity「(人口超一千万的)特大城市」),maniac指的则是「狂人」,所以megalomaniac的字面意思就是「自大狂」。Yet Duff Johnson, head of the PDF Association, protector of the format, argues that the fault lies not in the file type but in ourselves. He contends that there is no reason developers cannot build bots that are able to use PDFs. The AI assistant embedded in Acrobat, Adobe’s PDF reader, is designed to do precisely that, notes Leonard Rosenthol, the software firm’s PDF guru. Google, a leader in AI, has rolled out a tool for developers using its Gemini models that makes it easier to ingest PDFs. The format’s reign is not over yet.不过,PDF协会(该格式的捍卫组织)主席达夫·约翰逊认为,问题不在于格式本身,而在于技术水平。他辩称,开发者完全有能力构建出可以顺畅读取PDF的机器人。Adobe公司的PDF专家伦纳德·罗森塔尔也指出,其阅读器Acrobat中内置的AI助手正是为此而生。作为AI领域的巨头,谷歌也为开发者推出了一款工具,利用其Gemini模型,让解析PDF变得更加轻松。▼ contend vt. 声称、主张:contend作为动词指「提出某种主张」或者「竞争」,相应的名词contention则可以指「争论时的观点」或「争吵」。▼ embed v. 嵌入:作「嵌入」含义时,embed通常用作被动be embedded in something,文中的用法也是类似,即把embedded in Acrobat「嵌入到Acrobat」用作修饰AI assistant「AI助手」的后置定语;▼ gurun. 专家、大师:原指印度教的宗教领袖,在英文里可以衍生指「某行业的专家」,比如fashion guru「时尚专家」;▼ roll out正式推出(新产品):想象一下,有关工厂的视频里往往能看到若干条流水线上整齐地推出一个又一个完工的产品,这个动作就类似roll out「滚动出来」。因此,roll out就有了「推出(新产品)」的含义;▼ ingestvt. 摄入、食入:ingestion「摄入」和digestion「消化」是进食过程的其中两大步骤,构词非常相似。ingestion以词根in-「向内、进入」开头,所以指的就是「食物摄入」的这一步。digestion则以di-「分开」开头,所以描述的是「食物分解」这一步,换言之,就是「消化」。记住了ingestion和digestion这两个名词,再记忆ingest「摄入」和digest「消化」这两个动词也就不是难事了。