


后来我问了Gemini,为什么会出现这样的情况。
它说对话框模式:当你把 PDF 丢进Gemini或Claude的对话框时,后台通常有一套非常成熟的文档解析引擎。它会预先处理版式、表格和 OCR,并以一种模型最容易理解的格式喂给它。
API 模式:如果你只是通过API传字符串,缺乏了前端那种针对文档结构的优化。尤其是财经PDF往往包含大量的嵌套表格、多栏排版,API传过去的信息可能变成了“乱序堆砌”的文本,导致模型在提取时丢失逻辑关联。
得,一晚上白干。
我知道其实还有个更简单的办法,那就是使用claude code,但是年轻人偏偏不信邪想要自己折腾。
最后,我用claude code直接把关键信息给提取了出来保存成了txt文档。
虽然结果不美好,但是这个过程非常有意义。
在做信息提取的时候,我大概真的明白了国内模型的成本优势。
今后AI在做很多工作的时候,其实有些流程化和傻瓜化的操作并不需要模型多么聪明,够用、可靠就行了。
所以,在做Agent搭建的时候,往往不是所有流程中都用最好的模型是最优解,反而是跟觉这个流程选择最适合的模型是最优解。
我的claude code接的模型是claude,从性价比来看,用它做信息提取是很浪费的,因为claude的API很贵,而且充起来很麻烦。
我看有博主说,对于pdf的文件提取,Qwen是非常不错的,我因为没有充Qwen,所以也没试过。
这两天我准备继续尝试用工作流来提取试试。
还有个收获,就是我大概能明白一个最终呈现的结果,它大概分了哪几步。
所以在后面使用claude code提取pdf文档的时候我就能把提示词写的非常好了。
这里提示词的关键:
1、是需要让它分别阅读pdf文档,不要一起读;
2、在文件提取里,强调要提取哪些数据,以及哪些数据需要全部提取;
3、强调数据的核对和格式的对账。
这里面有我们金融狗专业方面的一些优势,那就是你需要知道哪些数据是需要提取的,哪些数据是归纳总结下就行、哪些数据是可以忽略的。
我这次想重点分析的是去年排名前十基金的持仓重合度情况,以及各个管理人对投资运作的说明和展望。
所以,管理人对报告期内基金的投资策略和业绩说明部分我让它全文给我提取了。
提示词撰写
提取完txt文档之后,我就把文档丢给了claude,让它根据我的要求对这10只基金进行分析。
这一步我也用了三个模块。
第一个模块是分析每一只基金的策略拆解,提示词是这样的——
针对10只基金,请逐一分析其2024年的投资运作情况,每只基金包含以下维度:
1. 核心投资策略:主要持仓方向(行业/主题/风格)
2. 关键操作节点:2024年内有无明显加仓/减仓/调仓动作,时间节点是什么
3. 超额收益来源:相对基准跑赢的主要驱动因素
4. 基金经理风格标签:如"景气度投资""困境反转""低估值价值"等
5. 年报/季报中基金经理的原话摘录(如有)
输出格式:每只基金单独一个模块,结构统一
第二个模块是对十个基金经理对后市展望的观点汇总,提示词是这样的——
请整理10位基金经理在2024年四季报或最新公开发言中对2025年市场的展望观点,要求:
1. 每位经理用3-5句话概括其核心判断(看多/看空/结构性机会)
2. 重点关注:
- 对A股整体估值的看法
- 看好的行业或主题(如AI、消费、出口、红利等)
- 主要风险提示
3. 提炼异同:哪些判断高度一致?哪些存在明显分歧?
4. 最后输出一张"观点对比速览表":行=基金经理,列=看多方向/风险关注/乐观程度(高/中/低)
第三个模块是对持仓情况进行分析,提示词是这样的——
请基于上述10只基金最新披露的季报持仓数据,进行持仓同质化分析:
【第一步:持仓重叠度计算】 - 找出同时出现在3只及以上基金前十大持仓中的股票 - 统计每只重叠股票被几只基金持有,及合计持仓比例区间
【第二步:行业集中度对比】 - 列出每只基金前五大行业及占比 - 识别哪些行业在多只基金中高度集中
【第三步:同质化评分】 - 为每对基金计算Jaccard相似系数(基于前十大持仓股票) - 输出一个10×10的相似度矩阵热力图描述(文字版)
【第四步:结论】 - 点名同质化最严重的基金组合 - 分析同质化的潜在风险(抱团瓦解、流动性冲击等) - 找出持仓差异化最大的"另类"基金并解释原因
其实,做到这里,大家大概就能明白我昨天说的,为什么同样的AI不同人使用的差别会非常大。
因为到了提示词部分就是考验行业专业功底的时候,你不需要了解所有细节信息,但是你需要知道AI应该帮你分析的方向。
比如,去年排名前十的基金收益率都爆炸了,那么它们的持仓情况就非常值得分析,看看是不是大量的同质化。
同时也需要看这些基金经理对后市的展望,毕竟动辄200%的收益,他们怎么看后市是需要重点关注的核心点。
报告结论
这样,最终claude给的结论就出来了。



这里我只截取的部分,claude分析还提到了兴证资管兴享和中欧数字经济在信息技术/互联网及医药生物方向保持了有意义的配置分散。
后面就这个结论我还可以跟claude做多轮对话。
包括因为之前提取数据的时候基金经理的名称没有提取出来,它很多都给标注错了,这些都可以慢慢修改。
关键操作节点年报披露了全年组合结构的动态优化方向:一是大幅加仓推理侧基础设施——
重点布局光模块及PCB等受益于海外算力需求持续攀升的标的,这些领域在推理侧算力扩张周期中展现了强劲业绩弹性;
二是阶段性减配智能驾驶板块(具体时间和比例未详细披露);
三是逐步增加国产AI产业链权重,受益于年初国产大模型在推理能力上的重大突破。
超额收益来源年报指出2025年市场呈现"资源+科技"双主线,通信(代表AI产业链)全年上涨85%,电子、电力设备等成长赛道均表现突出。
基金持续重仓这些方向,并通过组合结构优化(减配智能驾驶、加码推理算力)适时捕捉了行情主线的切换。
基金经理风格标签AI产业链深度研究型+多维度覆盖型。
对AI产业的认知体系最为完整,从基础设施到应用再到端侧均有覆盖,追求AI板块内部的均衡配置。
夜雨聆风