喂给AI之前,你的文档先得有人翻译一遍-夜雨聆风

喂给AI之前,你的文档先得有人翻译一遍

三虫君·开源观察 | 2026-06-27

先说今天 GitHub 上的几件事

我每天扒 GitHub 趋势榜，看久了有个体会：榜单火什么，基本就是开发者这两天在焦虑什么。今天最直观的一条——大家都在想办法把 AI Agent 的「手」和「眼」补齐。

挑五个我觉得有意思的，一句话说清楚：

▸ google-labs-code/design.md +2400⭐/天
Google 搞的一个规范，给 coding agent 写一份「视觉身份说明书」。说白了就是让 AI 改前端时，不再每次都猜你的设计风格——把品牌色、字体、间距写进一个 DESIGN.md，AI 照着来。这思路对路。

▸ JCodesMore/ai-website-cloner-template +1088⭐/天
一句话克隆任意网站的模板。我的态度比较谨慎：技术上挺巧，但「一键扒站」这事儿离侵权就一步之遥，自己练手可以，别拿去干坏事。

▸ xbtlin/ai-berkshire +1274⭐/天
用 Claude Code 搭的价值投资研究框架，号称把巴菲特、芒格、段永平、李录的方法论塞进多 Agent 并行研究。我看完只想说：工具能帮你查资料，但替不了你扛住下跌时的那口气。

▸ mauriceboe/TREK +1060⭐/天
一个自托管的旅行计划器，实时协作、地图、预算、打包清单全都有。AI 味儿不重，但它提醒我一件事——self-hosted（自己部署）这股风，今年是真没停过。

▸ garrytan/gstack +950⭐/天
Garry Tan 把自己那套 Claude Code 配置开源了，23 个工具分饰 CEO、设计、工程经理等角色。本质是「把一个人的工作流打包成提示词」，看个思路就行，照搬未必适合你。

速览看完了。但今天我真正想多聊两句的，是一个排在榜上、看着不性感、却戳中了所有玩 RAG 和知识库的人痛处的项目——MinerU，今天 7 万星。

① 一个被严重低估的环节：喂给 AI 之前

我先问你个问题。你搭过本地知识库或者 RAG 没有？如果搭过，回忆一下：你花在「选模型、调 RAG 框架」上的时间多，还是花在「把那堆 PDF、Word、扫描件弄成 AI 能读的干净文本」上的时间多？

我自己的答案是后者，而且不是多一点点，是多得离谱。

大家聊 AI 应用，张口就是 Qwen、Claude、向量库、重排序模型。但很少有人聊那个最脏最累的活儿——文档解析。一份带三栏排版、夹着公式和跨页表格的 PDF，你直接丢给模型，它读出来的是一锅粥：段落顺序乱了、表格塌成一行、公式变成乱码。

我的判断是：RAG 效果差，八成不是模型不行，是你喂进去的料就是馊的。这一层我管它叫「喂料层」，MinerU 干的就是这个。

② 它到底在解决什么，而不是它有什么功能

MinerU 一句话概括：把 PDF、Word、PPT、Excel、图片、网页，转成 LLM 能直接吃的 Markdown 或 JSON。但功能清单谁都会列，我更想说它「难在哪」。

难点一是阅读顺序。人看双栏论文知道先左后右，机器不知道。MinerU 做的是版面分析，把页面拆成块、判断先后，最后按人的阅读习惯重排，还能自动把页眉页脚扔掉。这一步做不好，后面全白搭。

难点二是结构还原。公式转成 LaTeX，表格转成 HTML，跨页的表格能接上。你别小看「接上」两个字——很多工具一遇到跨页表格就直接断成两截，数据就废了。

它给了三种引擎：纯 pipeline 模式 CPU 就能跑、不胡说；vlm 模式上视觉模型、最准；hybrid 混合模式折中。6 月这次更新还加了个 effort 档位，medium 比 high 精度只掉 0.13 分，速度却能快 35% 到 220%。这种「让你自己选快还是准」的设计，我挺欣赏——它没装作自己什么都能兼顾。

③ 横向比一比，别只听它自己说

光夸没意思，拉两个同类的来比。这三个我都摸过，给你一张我自己的对照表：

方案	强在哪	短板
MinerU	版面/表格/公式还原最狠，离线可跑，支持国产芯片	重，模型要下载，简单文档属于杀鸡用牛刀
markitdown	微软出品，轻、快、装上就能用	复杂版面照搬原结构，扫描件基本没辙
传统 OCR/pdfplumber	成熟、可控、对纯文本 PDF 够用	不懂版面语义，多栏和表格基本崩

看出门道没？MinerU 和 markitdown 的核心差异，根本不在「功能多少」，而在「要不要还原阅读顺序和版面语义」。markitdown 是「快速搬运工」，MinerU 是「认真重排的编辑」。这俩压根不是一个赛道在卷。

④ 那到底谁该用、谁别瞎折腾

我按场景给你分个级，省得你跟我一样走弯路：

⭐⭐⭐⭐⭐ 该用：你要做企业知识库、论文/财报 RAG、扫描件数字化，数据还不能上云——MinerU 几乎是开源里的天花板。

⭐⭐⭐ 看情况：个人做几十份普通文档的小知识库，先拿 markitdown 试，不行再上 MinerU，别一上来就背几个 G 的模型。

⭐ 别折腾：你只是想读一两个纯文本 PDF，那真没必要——大炮打蚊子。

一句话收个尾：今年大家都盯着模型卷参数，但真正决定你 AI 应用上不上得了台面的，往往是这种没人喊好、却把脏活干扎实的「喂料层」。MinerU 火 7 万星，不是偶然。

💬 聊两句

你搭知识库时，卡在文档解析上的次数多不多？用的是啥工具，踩过什么坑？评论区说来听听，我们互相避避雷。

我是三虫君，

一个小县城里把 AI 用出花来的技术人。

每天一篇，带你看看 AI 还能这么玩 👇

🤖 本文由 AI 辅助创作，资料整理与排版由我的 AI 助手小智参与，经人工编辑审核发布