这几天在尝试做图片解析,但遇到了不少困难,现在记录一下
背景:
我把网页上的信息进行截图后想转成结构化的记录,出现一条记录信息分布到两张图的情况。所以要把两个图的信息OCR后,再合并到一条。
开发环境:opencode
大模型:glm-4.7-flash
glm-4v-flash
deepseek-v4-flash
agnes-2.0-flash
IDE:PYCHARM
安装的python插件:markitdown
openpyxl
zai
开始实验直接由大模型解析,使用豆包,上传图片并用提示词,结果准确度很高完成任务。
但是带来的问题是图片量上去后,上下文会爆,还需要很多的手工操作效率极低。
于是,安装了opencode使用免费api的方式,生成python代码循环执行。
通过markitdown的方案,实现解析,但无论怎么试,解析的结果都是英文的,目前这个问题未找到解决方案,也许跟glm-4v-flash有关。但目前没找到别的免费多模态模型。待后续有机会解决。
不使用markitdown纯粹使用glm-4v-flash,解析为json,但是精确度不高,解析的字段有些就混在一个列里面了。目前也没找到解法。
经过这几天自己的实践,发现免费AI的能力在专业领域还是有限的,专业的事还是要交给专业的模型。
不要随便相信网络上说的那些没经验的小白也能做开发,那是建立在烧钱的前提下的。
现在不想多花钱,就只能先多花时间了。待这个事情成熟,再烧钱吧!
夜雨聆风