喂给AI之前,你的文档先得有人翻译一遍
我每天扒 GitHub 趋势榜,看久了有个体会:榜单火什么,基本就是开发者这两天在焦虑什么。今天最直观的一条——大家都在想办法把 AI Agent 的「手」和「眼」补齐。
挑五个我觉得有意思的,一句话说清楚:
▸ google-labs-code/design.md +2400⭐/天
Google 搞的一个规范,给 coding agent 写一份「视觉身份说明书」。说白了就是让 AI 改前端时,不再每次都猜你的设计风格——把品牌色、字体、间距写进一个 DESIGN.md,AI 照着来。这思路对路。
▸ JCodesMore/ai-website-cloner-template +1088⭐/天
一句话克隆任意网站的模板。我的态度比较谨慎:技术上挺巧,但「一键扒站」这事儿离侵权就一步之遥,自己练手可以,别拿去干坏事。
▸ xbtlin/ai-berkshire +1274⭐/天
用 Claude Code 搭的价值投资研究框架,号称把巴菲特、芒格、段永平、李录的方法论塞进多 Agent 并行研究。我看完只想说:工具能帮你查资料,但替不了你扛住下跌时的那口气。
▸ mauriceboe/TREK +1060⭐/天
一个自托管的旅行计划器,实时协作、地图、预算、打包清单全都有。AI 味儿不重,但它提醒我一件事——self-hosted(自己部署)这股风,今年是真没停过。
▸ garrytan/gstack +950⭐/天
Garry Tan 把自己那套 Claude Code 配置开源了,23 个工具分饰 CEO、设计、工程经理等角色。本质是「把一个人的工作流打包成提示词」,看个思路就行,照搬未必适合你。
速览看完了。但今天我真正想多聊两句的,是一个排在榜上、看着不性感、却戳中了所有玩 RAG 和知识库的人痛处的项目——MinerU,今天 7 万星。
我先问你个问题。你搭过本地知识库或者 RAG 没有?如果搭过,回忆一下:你花在「选模型、调 RAG 框架」上的时间多,还是花在「把那堆 PDF、Word、扫描件弄成 AI 能读的干净文本」上的时间多?
我自己的答案是后者,而且不是多一点点,是多得离谱。
大家聊 AI 应用,张口就是 Qwen、Claude、向量库、重排序模型。但很少有人聊那个最脏最累的活儿——文档解析。一份带三栏排版、夹着公式和跨页表格的 PDF,你直接丢给模型,它读出来的是一锅粥:段落顺序乱了、表格塌成一行、公式变成乱码。
我的判断是:RAG 效果差,八成不是模型不行,是你喂进去的料就是馊的。这一层我管它叫「喂料层」,MinerU 干的就是这个。
MinerU 一句话概括:把 PDF、Word、PPT、Excel、图片、网页,转成 LLM 能直接吃的 Markdown 或 JSON。但功能清单谁都会列,我更想说它「难在哪」。
难点一是阅读顺序。人看双栏论文知道先左后右,机器不知道。MinerU 做的是版面分析,把页面拆成块、判断先后,最后按人的阅读习惯重排,还能自动把页眉页脚扔掉。这一步做不好,后面全白搭。
难点二是结构还原。公式转成 LaTeX,表格转成 HTML,跨页的表格能接上。你别小看「接上」两个字——很多工具一遇到跨页表格就直接断成两截,数据就废了。
它给了三种引擎:纯 pipeline 模式 CPU 就能跑、不胡说;vlm 模式上视觉模型、最准;hybrid 混合模式折中。6 月这次更新还加了个 effort 档位,medium 比 high 精度只掉 0.13 分,速度却能快 35% 到 220%。这种「让你自己选快还是准」的设计,我挺欣赏——它没装作自己什么都能兼顾。
光夸没意思,拉两个同类的来比。这三个我都摸过,给你一张我自己的对照表:
| 方案 | 强在哪 | 短板 |
|---|---|---|
| MinerU | 版面/表格/公式还原最狠,离线可跑,支持国产芯片 | 重,模型要下载,简单文档属于杀鸡用牛刀 |
| markitdown | 微软出品,轻、快、装上就能用 | 复杂版面照搬原结构,扫描件基本没辙 |
| 传统 OCR/pdfplumber | 成熟、可控、对纯文本 PDF 够用 | 不懂版面语义,多栏和表格基本崩 |
看出门道没?MinerU 和 markitdown 的核心差异,根本不在「功能多少」,而在「要不要还原阅读顺序和版面语义」。markitdown 是「快速搬运工」,MinerU 是「认真重排的编辑」。这俩压根不是一个赛道在卷。
我按场景给你分个级,省得你跟我一样走弯路:
⭐⭐⭐⭐⭐ 该用:你要做企业知识库、论文/财报 RAG、扫描件数字化,数据还不能上云——MinerU 几乎是开源里的天花板。
⭐⭐⭐ 看情况:个人做几十份普通文档的小知识库,先拿 markitdown 试,不行再上 MinerU,别一上来就背几个 G 的模型。
⭐ 别折腾:你只是想读一两个纯文本 PDF,那真没必要——大炮打蚊子。
一句话收个尾:今年大家都盯着模型卷参数,但真正决定你 AI 应用上不上得了台面的,往往是这种没人喊好、却把脏活干扎实的「喂料层」。MinerU 火 7 万星,不是偶然。
你搭知识库时,卡在文档解析上的次数多不多?用的是啥工具,踩过什么坑?评论区说来听听,我们互相避避雷。
我是三虫君,
一个小县城里把 AI 用出花来的技术人。
每天一篇,带你看看 AI 还能这么玩 👇
🤖 本文由 AI 辅助创作,资料整理与排版由我的 AI 助手小智参与,经人工编辑审核发布
夜雨聆风