乐于分享
好东西不私藏

纸质文档太多?这个开源神器让你彻底告别文件柜

纸质文档太多?这个开源神器让你彻底告别文件柜

你家里是不是也有一堆纸质文档?水电费账单、银行对账单、合同、发票、保修卡……塞满了抽屉和文件夹,想找个东西翻半天。

说实话,我之前也是这样。直到有一天我翻了半小时找不到一张保修卡,彻底崩溃了。然后我发现了这个开源工具——Paperless-ngx,现在我的文件柜基本空了。

这玩意儿到底是啥?

Paperless-ngx 是一个文档管理系统,简单说就是:把你的纸质文档扫描进去,它帮你自动整理、分类、打标签,然后你可以像搜索网页一样搜索你的文档

听起来很简单对吧?但实际用起来,真的太爽了。

它是 Paperless 和 Paperless-ng 项目的官方继任者,由社区维护,完全开源免费。GitHub 上已经有 2.5 万+ star,活跃度很高。

为什么我觉得它牛?

1. OCR 识别,搜索无敌

你扫描进去的文档,Paperless-ngx 会自动做 OCR(光学字符识别),把图片里的文字提取出来。

这意味着什么?你可以直接搜索文档内容

比如我想找 2024 年 3 月的电费账单,直接搜”电费 2024-03″,秒出结果。不用记得文件名,不用翻文件夹,太省心了。

2. 自动分类和打标签

Paperless-ngx 有个很聪明的功能:自动学习你的分类习惯

你给几份文档打上标签(比如”银行””发票””合同”),它就能自动识别后续类似的文档,自动打标签、自动归类。

刚开始可能需要你手动调教一下,但用一段时间后,基本就是全自动了。我现在扫描进去的文档,90% 都能自动分类正确。

3. 支持多种文档来源

Paperless-ngx 不只是扫描纸质文档,它还支持:

  • 邮件导入:可以设置邮箱,直接把邮件里的附件(PDF、图片)自动导入
  • 文件夹监控:指定一个文件夹,放进去的文档自动处理
  • 手机扫描:用手机拍照上传,它自动识别

我现在的习惯是:收到纸质账单,手机拍一张,扔进 Paperless-ngx,然后纸质的直接扔掉(当然重要文件还是要留原件)。

4. 界面简洁,操作友好

很多开源工具的界面都很”程序员风”,但 Paperless-ngx 的 Web 界面做得挺好看的,操作也很直观。

你可以在线预览文档、编辑标签、添加备注,甚至可以给文档设置”对应人”(比如这是老婆的文档,那是我的)。

还有个 Demo 站点可以试用:demo.paperless-ngx.com[1],用户名和密码都是 demo

怎么装?小白也能搞定

Paperless-ngx 推荐用 Docker 部署,听起来有点技术,但其实很简单。

方法一:一键安装脚本(最简单)

打开终端(Windows 用 PowerShell,Mac/Linux 用 Terminal),复制粘贴这行命令:

bash -c "$(curl -L https://raw.githubusercontent.com/paperless-ngx/paperless-ngx/main/install-paperless-ngx.sh)"

回车,然后跟着提示走就行了。脚本会自动帮你配置好 Docker 环境。

方法二:手动 Docker Compose(稍微复杂点)

如果你已经有 Docker 环境,可以直接用 Docker Compose:

  1. 创建一个文件夹,比如 paperless-ngx
  2. 下载官方的 docker-compose.yml 文件:
curl -L https://raw.githubusercontent.com/paperless-ngx/paperless-ngx/main/docker/compose/docker-compose.sqlite.yml -o docker-compose.yml
  1. 启动服务:
docker-compose up -d
  1. 打开浏览器,访问 http://localhost:8000,就能看到界面了。

默认用户名是 admin,密码在第一次启动时会自动生成,你可以在终端日志里看到。

方法三:群晖 NAS 用户

如果你用群晖 NAS,可以直接在 Docker 套件里搜索 paperless-ngx,一键安装。

配置好端口映射和存储路径,就能用了。我自己就是跑在群晖上的,24 小时在线,随时扫描上传。

实际使用场景

场景 1:家庭文档管理

我现在把所有家庭文档都扔进去了:

  • 水电费账单(自动识别日期和金额)
  • 银行对账单(按月归档)
  • 保修卡和说明书(再也不怕找不到了)
  • 合同和协议(租房合同、保险合同等)

每个月花 10 分钟扫描一下,然后就不用管了。需要的时候搜一下,秒出结果。

场景 2:小微企业财务

如果你是个体户或者小公司,Paperless-ngx 也很适合管理发票和财务文档。

可以给每个客户打标签,按项目分类,报税的时候直接导出 PDF,省了一大堆事儿。

场景 3:学生党的资料库

论文、课件、笔记、证书……全部扔进去,毕业的时候也不怕资料丢失。

而且 Paperless-ngx 支持全文搜索,写论文找资料的时候特别方便。

有啥坑要注意?

1. OCR 识别率

中文 OCR 识别率还不错,但手写字或者扫描质量差的文档,识别率会下降。

建议扫描的时候尽量保证清晰度,手机拍照的话光线要好。

2. 隐私和安全

Paperless-ngx 把文档存在本地(或者你的 NAS),不会上传到云端,这点很安全。

但是!千万别把它部署在公网上,除非你做好了安全加固(HTTPS、防火墙、强密码等)。

官方建议是:跑在家里的局域网,或者用 VPN 远程访问

3. 存储空间

扫描的文档会占用存储空间,尤其是高清扫描的 PDF。

我用了一年多,大概存了 2000 多份文档,占了 10GB 左右。如果你文档特别多,记得准备足够的硬盘空间。

一些小技巧

技巧 1:设置自动规则

Paperless-ngx 支持自动规则,比如:

  • 文档标题包含”发票”,自动打上”财务”标签
  • 文档日期是 2024 年,自动归档到”2024″文件夹

这些规则可以在设置里配置,用好了能省很多手动操作。

技巧 2:用邮件导入

Paperless-ngx 可以配置一个专用邮箱,你把文档发到这个邮箱,它自动导入。

我现在收到电子账单,直接转发到这个邮箱,自动归档,完全不用手动操作。

技巧 3:定期备份

虽然 Paperless-ngx 很稳定,但数据无价,记得定期备份。

可以用 Docker 的备份工具,或者直接把数据目录定期复制到移动硬盘。

下载和资源

  • GitHub 仓库:https://github.com/paperless-ngx/paperless-ngx[2]
  • 官方文档:https://docs.paperless-ngx.com[3]
  • 在线 Demo:https://demo.paperless-ngx.com[4](用户名/密码:demo/demo)
  • 一键安装脚本

    bash -c "$(curl -L https://raw.githubusercontent.com/paperless-ngx/paperless-ngx/main/install-paperless-ngx.sh)"

我的看法

Paperless-ngx 是我用过的最实用的开源工具之一。

它不是那种”看起来很酷但没啥用”的玩具,而是真正能解决实际问题的工具。如果你也被纸质文档困扰,或者想搭建一个私有的文档管理系统,强烈推荐试试。

当然,它也不是完美的。中文 OCR 还有提升空间,界面也可以更现代化一点。但考虑到它是开源免费的,这些小瑕疵完全可以接受。

最后说一句:数字化不是目的,能快速找到需要的东西才是。Paperless-ngx 做到了这一点,这就够了。

你呢?你是怎么管理纸质文档的?评论区聊聊?

引用链接

[1]demo.paperless-ngx.com: https://demo.paperless-ngx.com

[2]https://github.com/paperless-ngx/paperless-ngx

[3]https://docs.paperless-ngx.com

[4]https://demo.paperless-ngx.com