乐于分享
好东西不私藏

办公技术|如何下载网页中预览版的PDF文件?

办公技术|如何下载网页中预览版的PDF文件?

前言碎语
一些机构在官网发布pdf文件时,有的会在文末附上pdf下载链接,点击就能直接下载原文件。但还有一些时候,网页中嵌入了一个PDF预览插件,只能在线预览,没有下载入口(如下图所示)。对于这类情况,可以通过查看网页元素的方式,找到潜在的PDF链接,由此便于下载文件。本文将分享相关步骤教程(注:仅用于文件打印、个人学习等用途)。
1、打开浏览器开发者工具
先在浏览器中打开你所需要下载的PDF所在的网页。接着键盘上按下F12 或 Fn+F12。或者按如图步骤打开开发者工具界面。不要切换网页。
2、点击“网络”,然后刷新网页
如果是英文版界面,对应Network按钮。此时下面空空如也,需要我们手动刷新一下网页
3、选择“文档”
刷新网页后,所有网页中的文件元素都以列表形式呈现。点击一下“文档”(document)做筛选,然后把第一列“名称”拉宽,找到.pdf结尾的文档,大概率就是我们要找的那个。
4、找到网址规律并修改网址
双击该文档后,如果可以直接下载,是最好的。但也有很大概率会像下图一样,仍然无法下载,而是一个全屏显示的PDF网页预览插件。
观察该网页的网址规律:
https://info.shisu.edu.cn/_js/_portletPlugs/swfPlayer/pdfjs22228/web/viewer.html?file=/_upload/article/files/3c/f4/791eee104bc2b7dc0d35ee6ea273/3d39088d-1724-4e65-9629-ea0a371d2092.pdf
[1]https://info.shisu.edu.cn 是该网站的主域名,即该网站下所有网页,都必须以这个“大家长”作为开头,才能正常访问。
[2] ?file=往后的字符串,可以理解为该文件在该网站服务器中的具体路径地址
因此,将[1]和[2](即上面划线部分)拼合在一起,形成如下网址:
https://info.shisu.edu.cn/_upload/article/files/3c/f4/791eee104bc2b7dc0d35ee6ea273/3d39088d-1724-4e65-9629-ea0a371d2092.pdf
打开该链接后,就绕开了PDF在线预览插件的限制,直接由浏览器加载这个PDF文件,直接就有下载按钮。
如果没找到下载按钮,也可以右键→另存为,弹出文件保存对话框,可见保存的就是PDF格式的文件。
5、如果在第3步文档列表中没有找到该文档怎么办?
如果在第3步的文档列表中没有找到该文档,可以在开发者工具中选择第一个“元素”(element),然后键盘上按下 Ctrl+F 唤出查找栏,然后输入.pdf按下回车检索
点开检索到的结果后,会展开一条#document ( ),括号中的网址就是上面第4步中我们分析的网址,是一模一样的。
结语
以上步骤是基于公开的网页元素去做元素分析,由此挖掘该文件真正的下载链接,仅限于单个文件的下载,不涉及网络爬虫等大批量的自动抓取。同时,对于下载下来的文件,大家也应当合理合法地使用,要充分尊重作者的知识产权,不能随意作出篡改、售卖等侵权行为
– – – – E N D – – – –
本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 办公技术|如何下载网页中预览版的PDF文件?

评论 抢沙发

1 + 2 =
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
×
订阅图标按钮