乐于分享
好东西不私藏

喂给AI之前,你的文档先得有人翻译一遍

喂给AI之前,你的文档先得有人翻译一遍

三虫君·开源观察  |  2026-06-27
先说今天 GitHub 上的几件事

我每天扒 GitHub 趋势榜,看久了有个体会:榜单火什么,基本就是开发者这两天在焦虑什么。今天最直观的一条——大家都在想办法把 AI Agent 的「手」和「眼」补齐

挑五个我觉得有意思的,一句话说清楚:

▸ google-labs-code/design.md +2400⭐/天
Google 搞的一个规范,给 coding agent 写一份「视觉身份说明书」。说白了就是让 AI 改前端时,不再每次都猜你的设计风格——把品牌色、字体、间距写进一个 DESIGN.md,AI 照着来。这思路对路。

▸ JCodesMore/ai-website-cloner-template +1088⭐/天
一句话克隆任意网站的模板。我的态度比较谨慎:技术上挺巧,但「一键扒站」这事儿离侵权就一步之遥,自己练手可以,别拿去干坏事。

▸ xbtlin/ai-berkshire +1274⭐/天
用 Claude Code 搭的价值投资研究框架,号称把巴菲特、芒格、段永平、李录的方法论塞进多 Agent 并行研究。我看完只想说:工具能帮你查资料,但替不了你扛住下跌时的那口气。

▸ mauriceboe/TREK +1060⭐/天
一个自托管的旅行计划器,实时协作、地图、预算、打包清单全都有。AI 味儿不重,但它提醒我一件事——self-hosted(自己部署)这股风,今年是真没停过。

▸ garrytan/gstack +950⭐/天
Garry Tan 把自己那套 Claude Code 配置开源了,23 个工具分饰 CEO、设计、工程经理等角色。本质是「把一个人的工作流打包成提示词」,看个思路就行,照搬未必适合你。

速览看完了。但今天我真正想多聊两句的,是一个排在榜上、看着不性感、却戳中了所有玩 RAG 和知识库的人痛处的项目——MinerU,今天 7 万星。

① 一个被严重低估的环节:喂给 AI 之前

我先问你个问题。你搭过本地知识库或者 RAG 没有?如果搭过,回忆一下:你花在「选模型、调 RAG 框架」上的时间多,还是花在「把那堆 PDF、Word、扫描件弄成 AI 能读的干净文本」上的时间多?

我自己的答案是后者,而且不是多一点点,是多得离谱。

大家聊 AI 应用,张口就是 Qwen、Claude、向量库、重排序模型。但很少有人聊那个最脏最累的活儿——文档解析。一份带三栏排版、夹着公式和跨页表格的 PDF,你直接丢给模型,它读出来的是一锅粥:段落顺序乱了、表格塌成一行、公式变成乱码。

我的判断是:RAG 效果差,八成不是模型不行,是你喂进去的料就是馊的。这一层我管它叫「喂料层」,MinerU 干的就是这个。

② 它到底在解决什么,而不是它有什么功能

MinerU 一句话概括:把 PDF、Word、PPT、Excel、图片、网页,转成 LLM 能直接吃的 Markdown 或 JSON。但功能清单谁都会列,我更想说它「难在哪」。

难点一是阅读顺序。人看双栏论文知道先左后右,机器不知道。MinerU 做的是版面分析,把页面拆成块、判断先后,最后按人的阅读习惯重排,还能自动把页眉页脚扔掉。这一步做不好,后面全白搭。

难点二是结构还原。公式转成 LaTeX,表格转成 HTML,跨页的表格能接上。你别小看「接上」两个字——很多工具一遇到跨页表格就直接断成两截,数据就废了。

它给了三种引擎:纯 pipeline 模式 CPU 就能跑、不胡说;vlm 模式上视觉模型、最准;hybrid 混合模式折中。6 月这次更新还加了个 effort 档位,medium 比 high 精度只掉 0.13 分,速度却能快 35% 到 220%。这种「让你自己选快还是准」的设计,我挺欣赏——它没装作自己什么都能兼顾。

③ 横向比一比,别只听它自己说

光夸没意思,拉两个同类的来比。这三个我都摸过,给你一张我自己的对照表:

方案 强在哪 短板
MinerU 版面/表格/公式还原最狠,离线可跑,支持国产芯片 重,模型要下载,简单文档属于杀鸡用牛刀
markitdown 微软出品,轻、快、装上就能用 复杂版面照搬原结构,扫描件基本没辙
传统 OCR/pdfplumber 成熟、可控、对纯文本 PDF 够用 不懂版面语义,多栏和表格基本崩

看出门道没?MinerU 和 markitdown 的核心差异,根本不在「功能多少」,而在「要不要还原阅读顺序和版面语义」。markitdown 是「快速搬运工」,MinerU 是「认真重排的编辑」。这俩压根不是一个赛道在卷。

④ 那到底谁该用、谁别瞎折腾

我按场景给你分个级,省得你跟我一样走弯路:

⭐⭐⭐⭐⭐ 该用:你要做企业知识库、论文/财报 RAG、扫描件数字化,数据还不能上云——MinerU 几乎是开源里的天花板。

⭐⭐⭐ 看情况:个人做几十份普通文档的小知识库,先拿 markitdown 试,不行再上 MinerU,别一上来就背几个 G 的模型。

⭐ 别折腾:你只是想读一两个纯文本 PDF,那真没必要——大炮打蚊子。

一句话收个尾:今年大家都盯着模型卷参数,但真正决定你 AI 应用上不上得了台面的,往往是这种没人喊好、却把脏活干扎实的「喂料层」。MinerU 火 7 万星,不是偶然。

💬 聊两句

你搭知识库时,卡在文档解析上的次数多不多?用的是啥工具,踩过什么坑?评论区说来听听,我们互相避避雷。

我是三虫君

一个小县城里把 AI 用出花来的技术人。

每天一篇,带你看看 AI 还能这么玩 👇

🤖 本文由 AI 辅助创作,资料整理与排版由我的 AI 助手小智参与,经人工编辑审核发布