OCR扛起了Agent读懂文档这件事

过去两年，OCR 工具已经很多了。Surya、Marker、MinerU、PaddleOCR……大家都能跑，也确实解决了不少问题。但一旦你开始碰真实业务里的文档——合同、年报、研报、跨页表格——有些弱点就慢慢暴露出来了。

更关键的是，现在 Agent 时代来了。我们对 AI 的期望，已经从"帮我总结一下这份文档"，变成了"帮我读完这批合同，找出风险条款，标出依据，并生成审查意见"。

能看懂一次，和能稳定处理一批，是两回事。

而稳定处理一批的前提，是有一款靠谱的文档解析工具。最近我试了 xParse Skill，感觉这件事扛起来了。

为什么Agent最缺的是文档工具？

Agent 正在从"聊天助手"变成"任务执行者"

以前我们用 AI，就是聊天。问个问题，给个回答，完事。

现在不一样了。我们希望 Agent 能干完整的工作流：

"帮我分析 20 份研报，提取关键财务指标，生成投研摘要。"
"帮我把这批合同的违约条款全找出来，对比差异。"
"把这份审计报告的资产负债表抽出来，转成结构化数据。"

这些任务有个共同点：它们都要求 Agent 先读懂文档，再执行任务。

读不懂，后面再聪明也白搭。垃圾进，垃圾出。

真实业务中，关键信息分散于各类非结构化文档，Agent 的核心价值在于通过总结、抽取、比对、问答、审核等能力，将这些文档转化为可检索、可决策的结构化知识。

Agent 要真正进入业务场景，第一步不是能调用多少工具，而是能不能可靠理解这些文档。今天要介绍一个最近测试还不错的解析skill-TextIn xParse skill。能力很强，还能免费使用，满足了我的日常需求。

TextIn xParse是什么

一句话：把 PDF、图片、Word 等原始文件，转成 Markdown 和结构化 JSON，让 Agent 真正读懂文档内容。

它不是一个新 OCR 模型，而是一个面向 Agent 时代的文档解析 Skill。装上就能用，说话就能调，不用写一行代码。

和其他文档解析方案比，强在哪

xParse 背后是合合信息 TextIn 的生产级文档解析能力，本身就在服务各个行业的头部大企业：

解析精度：复杂表格、标题层级、文字识别率效果领先
速度：极快，是同行的 3～5 倍
兼容性：适配主流国产软硬件设备（显卡、数据库等）
企业级观测能力：完整的日志记录和回查
企业级调度能力：支持解析任务优先级调整、同步/异步接口调度

但最让我觉得省心的，不是这些硬指标——而是它作为一个 Skill 的存在方式。

从 0 跑通一次 Skill 调用

安装：一句话的事

方式一：对话框直接说

帮我从技能市场安装 intsig-textin/xparse-parser

方式二：npx 命令（推荐）

npx skills add intsig-textin/xparse-skills --yes

方式三：手动安装

从 GitHub 或 Gitee 仓库拉取：

- https://github.com/intsig-textin/xparse-skills- https://gitee.com/intsig-textin/xparse-skills

初始化：也是一句话

帮我初始化 xparse-cli 工具，更新到最新版本

凭证配置只需要一条命令：

xparse-cli auth

按提示输入 App ID 和 Secret Code，保存到 ~/.xparse-cli/config.yaml，后续自动读取。

注册地址：https://www.textin.com/market/detail/xparse?from=5l27ydqsktg

每天1000页的免费额度基本能够个人使用，如果需要解析的文件不属于PDF和图片，需要解锁更多格式比如office、HTML等等可以升级凭证，单次处理的文件大小和页数也会更多。不过最近注册都会送1000页，升级不亏，体验更丝滑。

也支持环境变量方式（适合 CI/CD）：

export XPARSE_APP_ID=your_app_idexport XPARSE_SECRET_CODE=your_secret_code

使用指南：说人话就行

在 OpenClaw、Claude Code 等 Agent 平台安装 xParse Skill 后，自然语言指令即可完成解析全流程：

"帮我读一下这份 PDF 合同，提取关键条款"
"把这个报告转成 Markdown，保存到桌面"
"这份加密 PDF 密码是 123456，帮我解析前 10 页"
"提取这张表格图片里的内容，输出 JSON"

全程你不用写一行代码，甚至不用知道 xparse-cli 怎么用。

使用体验

无线表和分行，完全没有压力

上传了一份论文，使用xparse-cli做做分析，完全不在话下。只需在输入一句话，就能得到结果：

使用xparse-cli工具，把12页的table 3，提取出来

默认开启的解析能力：标题层级识别、表格结构保留（HTML 格式）、图片提取、目录树生成、分页结果。唯一需要手动开启的是 --include-char-details（字符级坐标），因为这个会大幅增加返回数据量。

研报理解也能行

可搜：上传一份研报，TextIn xParse可以把文档结构化为层次清晰，干净的MD格式。

高阶一点，如果想要对固定内容做提取和分析，我们可以这么干：

使用xparse-cli工具，找到包含 ‘归母净利润’的表格，转成markdown

可理解：结构清晰了，内容准确了，理解就是手到擒来。对于研报指标，一句话都能得到准确值和走势，分析和写文档进一步简化：列出每年的归母净利润是多少，做出折线图

统计和应用就是这么简单，以前复制、粘贴、写函数的工作统统没有了。

文档解析的终极目标不是"读出来"，而是"用起来"。

融合到你的LLM Wiki

四步走：

任意选一个开源的 LLM Wiki 实现
让 Agent 把仓库在本地拉起来
让 Agent 将 xParse 替换原来的解析层
问答体验

几个可用的开源实现：

类型	仓库	介绍
源头概念	karpathy/llm-wiki gist	Karpathy 原始设想
推荐实现	atomicmemory/llm-wiki-compiler	支持 hash 增量编译和 watch 自动重编译
Web App	lucasastorian/llmwiki	支持上传 PDF、Office 文档
桌面版	nashsu/llm_wiki	跨平台桌面应用
Agent 插件型	nvk/llm-wiki	支持 Claude Code、OpenAI Codex 等

我的判断

看完TextIn xParse Skill，我最大的感受是：文档解析这件事，终于从"技术问题"变成了"集成问题"。

过去你选 OCR 工具，要考虑模型精度、部署复杂度、API 调用方式、输出格式适配……每个环节都是坑。

现在TextIn xParse 把这些全包了，而且以 Skill 的方式存在——Agent 说一句话就能调，不用管底层是 API 还是 CLI，不用管输出格式是 Markdown 还是 JSON。

这才是 Agent 时代文档解析该有的样子。

项目地址：https://github.com/intsig-textin/xparse-skills凭证注册：https://cc.co/16YSfd