本地agent的强大不用多说,但是一直以来读取PDF都是一个老大难。因为网页版的大模型,他们在前端会将上传的PDF文件进行处理后才交给大模型,所以大模型可以对PDF文件进行分析。但是本地的agent如何处理PDF文件就需要自己想办法了。其实这个问题早就有人想到了,而且解决了,还解决得非常好!为啥我强烈推荐这个MCP,因为很多传统的ocr工具,只是简单的识别文字,对于表格、列表顺序等,识别就不一定很好了。但是mineru用了AI的方式,对PDF文档里的内容进行解析,就像人能自然而然对这些不规则的内容进行解析一样,mineru解析后的文档表格、排序等非常规整。每天可以解析5000份文档,其中优先解析1000页。对于我们普通人来说,足足够用了。安装
帮我安装这个 Skill:https://github.com/opendatalab/MinerU-Ecosystem/blob/main/skills/SKILL.md
后面就是自己申请API,这里API默认有效期是90天。到期后可以再次申请。API TOKEN最好不要给oc,可以自己先注册在环境变量中,再让oc直接读取环境变量。而且,我建议使用大模型或者其他服务的API的时候也用这种方式。这样的好处是防止API被盗取,你写的程序都是直接读取环境变量,而程序中不存储任何API数据。这样即使你将程序公开,也不会弄丢API。mineru有两个模式,flash和extract,后者一是速度快,二是更加精准。但安装skill后默认是flash,所以我们要调整一下。我需要你每次读取PDF都直接调用mineru,而且要用它的extract模式,不要用flash模式。MINERU_API_TOKEN已经注册在环境变量中了。