在AI Agent(智能体)生态飞速扩张的今天,大模型的思考能力已经足够惊艳。然而,当我们将Agent推向真实的业务场景时,一个被长期低估的痛点总会浮出水面:模型会思考,但不会“读文档”。
面对一份包含跨页表格的PDF合同、一页满是手写批注的扫描件,或是一份排版复杂的研报,大多数Agent要么束手无策,要么依赖传统OCR勉强应对——结果往往是格式错乱、结构丢失。正如Karpathy提出的“知识编译”理念,原始文档必须经过结构化处理才能被Agent消费。如果上游解析做不好,下游再聪明的模型也是“垃圾进,垃圾出”。
为了彻底打通这一瓶颈,合合信息旗下TextIn正式推出了xparse-parser Skill。它将过去19年沉淀的企业级文档解析能力,压缩成了一个轻量、可插拔的技能组件,直接上架ClawHub并免费开放。这不仅是一个工具,更是Agent接入高质量知识的起点。

核心能力:超越传统OCR的商业级解析
xparse-parser并非简单的文字识别工具,它的核心定位是“将非结构化资料编译为Agent的知识资产”。其具备以下四大硬核能力:
全格式兼容与高精度还原:支持PDF、Word、Excel、PPT、图片及HTML等20+种常见格式。针对金融财报、法律合同中的合并单元格、跨页表格、多栏版面、公式及印章遮挡等“硬骨头”,它能实现骨架级的完整还原,杜绝段落断裂和图注分离。
大模型友好的输出形态:解析后直接输出保留层级与语义的标准Markdown或结构化JSON。这种格式是目前LLM最易消化的知识形态,可直接用于RAG检索、问答分析或报告生成。同时,它还支持返回块级及字符级坐标信息,方便前端溯源与校对。
极速解析性能:百页文档仅需约1.5秒即可完成解析,轻松应对企业大批量文档处理需求,保障生产环境的流畅运转。
充足的免费额度:无需注册登录,即可免费使用PDF和图片格式的解析功能,每日上限高达1000页;配置TextIn账户凭证后,更可解锁全部20+格式及无限页数限制。
极简上手指南:一句话安装,对话式调用
对于开发者而言,xparse-parser的最大魅力在于“零门槛”。你不需要写一行代码,也不需要手动调试API,全程只需通过自然语言与Agent交互。
第一步:一键安装
在OpenClaw、ZeroClaw或Claude Code等主流Agent平台的对话框中,直接输入以下指令即可完成安装:
“帮我从技能市场安装 intsig-textin/xparse-parser”
若技能市场暂未收录,也可通过npx命令优雅安装:
npx skills add intsig-textin/xparse-skills --yes
此外,还支持从GitHub或Gitee下载zip包进行手动部署,适配各类网络环境。
第二步:对话式使用
安装完成后,文档解析就像和同事说话一样简单。你可以直接对Agent下达如下指令:
“帮我读一下这份PDF合同,提取关键条款。”
“把这份加密研报(密码123456)转成Markdown,保存到桌面。”
“提取这张表格截图里的数据,输出为JSON格式。”
Agent会自动识别任务意图,触发xparse-parse规则,调用底层xparse-cli完成解析,并将干净的结构化结果返回给你。
总结:补齐Agent工作流的最后一块拼图
在企业数字化转型的深水区,非结构化文档占据了核心数据的半壁江山。xparse-parser Skill的出现,省去了开发者在文档解析层长期的技术积累成本,直接提供了商业级的稳定性与效果保障。
无论是构建个人知识库、搭建企业级RAG系统,还是开发自动化办公Agent,这款免费且强大的Skill都值得成为你的标配工具箱。一次安装,永久避坑,让你的Agent真正拥有“读懂世界”的能力。
夜雨聆风