开源工具 | 手写笔记PDF转可检索的Markdown
你是否也有这样的困扰?厚厚的笔记本堆满书架,想找某个知识点却要翻半天;珍贵的学习笔记、会议记录尘封在纸页间,无法搜索、无法分享…
你是否也有这样的困扰?厚厚的笔记本堆满书架,想找某个知识点却要翻半天;珍贵的学习笔记、会议记录尘封在纸页间,无法搜索、无法分享…
今天给大家推荐一个刚开源的宝藏项目——note_process,一款能将手写笔记 PDF 智能转换为 Markdown 文档的工具!
🎯 它能做什么?
简单来说,就是把你的手写笔记扫描件变成可搜索、可编辑、可分享的电子文档!
✨ 核心功能一览
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
🚀 快速上手(只需 4 步)
第 1 步:克隆项目 & 安装依赖
git clone https://gitcode.com/black_majic/note_process.gitcd note_processpython -m venv venvsource venv/bin/activate # Windows: venv\Scripts\activatepip install -r requirements.txt
第 2 步:配置 API 密钥
# 自动生成配置模板python src/vision_llm_processor.py --init-config
编辑生成的 config.json:
{"base_url": "https://api-inference.modelscope.cn/v1/","api_key": "你的API密钥","model": "Qwen/Qwen3-VL-235B-A22B-Instruct"}
💡 小贴士:可以使用 ModelScope、OpenAI、Gemini 等支持视觉的 LLM API
第 3 步:放入 PDF 文件
将你的扫描 PDF 文件放入 input/ 目录
第 4 步:运行转换
# 基础用法(推荐,自动缓存)python src/vision_llm_processor.py input/你的笔记.pdf# 仅输出文字(不保存原图)python src/vision_llm_processor.py input/你的笔记.pdf --no-images# 强制重新识别(忽略缓存)python src/vision_llm_processor.py input/你的笔记.pdf --no-cache# 增加并发数(更快!)python src/vision_llm_processor.py input/你的笔记.pdf -j 5
📂 输出效果展示
转换完成后,在 output/ 目录下会生成:
output/├── 你的笔记.md # Markdown 文档└── 你的笔记_images/ # 页面图片对照
Markdown 文件包含:
✅ 文字内容 – AI 识别的手写文字✅ 数学公式 – $E = mc^2$ 或 $$...$$ 格式的 LaTeX✅ 图片嵌入 – 原图对照,方便校对✅ 校对指南 – 标注需要人工检查的部分
🔧 进阶玩法
缓存机制超省心
# 查看缓存状态python src/vision_llm_processor.py --cache-status# 清除缓存python src/vision_llm_processor.py --clear-cache
场景示例:
-
第 1 次运行:21 页中 20 页成功,1 页失败(额度用完) -
补充额度后第 2 次运行:自动跳过 20 页缓存,只处理失败的第 21 页
完整配置示例
{"base_url": "https://api-inference.modelscope.cn/v1/","api_key": "你的API密钥","model": "Qwen/Qwen3-VL-235B-A22B-Instruct","timeout": 120,"max_retries": 3,"concurrency": 3,"rate_limit": 0.5,"enable_cache": true}
🌟 适用场景
-
📖 学生党 – 课堂笔记数字化,期末复习搜索神器 -
👨💼 职场人 – 会议记录整理,知识库搭建 -
🔬 科研人员 – 实验记录、公式推导电子化 -
🎨 设计师 – 手绘草图配文字说明
🗺️ 未来规划
项目作者已经在规划更多强大功能:
-
[ ] 支持 GPT-4V、Gemini 等更多视觉大模型 -
[ ] 导出为 Notion / 语雀 / 飞书等格式 -
[ ] 自动标签和索引功能 -
[ ] 批量并发处理优化
📌 项目信息
-
开源协议:MIT(可自由商用) -
开发语言:Python -
项目地址:https://gitcode.com/black_majic/note_process
💬 写在最后
在这个 AI 时代,纸质笔记不应该成为信息的孤岛。note_process 让手写笔记与数字世界无缝连接,既保留了书写的温度,又获得了数字化的便利。
如果你也觉得这个项目有用,不妨去 GitCode 点个 ⭐ Star,或者 Fork 下来贡献代码!
#开源项目 #手写识别 #AI工具 #Markdown #笔记数字化
📢 作者声明:本文内容借助了AI工具
夜雨聆风
