以周报形式记录本周在 AI 工具及数据平台建设中的实践、踩坑与思考。
一、行业数据后端采集平台
✅ 本周完成
本周新增验收 5 家,新增数据 488 条,全部测试通过。
1. HONGKANG(弘康人寿)
采用 pdf_directory 模式,首次采集插入 70 条,DB 核验 9 年(2017-2025),0 异常。✅
2. XINGFU(幸福人寿)
同样是 pdf_directory 模式,但遇到两个技术坑:pypdf 编码缺陷导致「率」字符丢失,以及双区段 PDF 表头跨行拆分问题。解决后首次插入 186 条,覆盖 2021-2025 年,包含现金红利/增额红利/终了红利三种分红方式。✅
3. GUOFU(国富人寿)
采用 html_same_page_api 模式,通过 CMS API 逐年查询,空年份自动跳过。首次插入 12 条,覆盖 2023-2025 年。✅
4. CHANGCHENG(长城人寿)
同为 html_same_page_api 模式,单 API 调用返回全量数据,用 dividendCode 区分双分红方法。首次插入 186 条,覆盖 2022-2025 年,9 个生效区间,0 异常。✅
5. HUAGUI(华贵人寿)
pdf_directory 模式,技术亮点是解析 Vue SPA 模板语法中的 PDF 链接(:href="'...pdf'"),并自动展开多年份 PDF 列、跳过方法论文档。首次插入 34 条,实现率覆盖 19%-221%,0 异常。✅
6. LIAN(利安人寿)侦察评估
判定为不适合实现(C 级):Umi SPA + Spring Boot 后端,API 参数格式无法从混淆 JS 逆向,10+ 次接口调用均返回 status=1007,contentId 类型也无法外部构造。本次探测同步产出了浏览器自动化可行性评估文档,为后续决策提供参考。
7. 流程优化
将 5 步采集工作流精简为 4 步——可行性评估(≤3 请求)→ 实现(mock 冒烟)→ 验收(冷却期)→ 文档+提交(合并)。减少连续探测导致的 IP 封锁风险。
📊 本周数据
📊 当前全景
| 总计 | 83 |
📋 下周计划
启动未评估公司(38 家)批量侦察,优先处理 PDF 目录型站点 跟踪 ERGO CDN 配置变化,恢复后立即验收 PINGANSHOU 反爬月度复查 浏览器自动化方案决策(基于 LIAN 评估文档) 推进结算利率和偿付能力充足率采集
二、行业数据前端分析平台
✅ 本周进展
1. 全局硬编码清理
对 Dashboard 和分红分析页进行全面审计,清理全部假数据:
趋势图从硬编码 5 年假数据改为从实际数据动态计算 avg / median / p25 / p75 箱线图、柱状图、期间对比图全部替换为数据库驱动 「同比下降」「中位数对比」改为动态计算,支持上升/下降/持平三种表述 筛选框下拉选项(年度/分红方式/公司类型/生效区间)全部从数据库动态提取
2. 页面架构重构
「分红保险红利实现率」页移除筛选区和数据表格,改为承接智能大屏的 4 张核心分析卡片(趋势图、区间分布、产品排行、公司排行) 「智能综合大屏」移除已迁移的 4 张卡片,预留万能结算利率、偿付能力充足率、年度信息披露三张占位卡片 组件接口精简,分红分析页只需传入 dividendProducts一个 prop
3. 过滤逻辑修复
修复 useEffect 闭包过期导致年度/公司/分红方式三个筛选器全部失效的问题。改为 useMemo 显式依赖 + useRef 一次性初始化,过滤稳定可靠。「连续两年低于 100%」从硬编码关键词改为从数据中自动检测。
4. 导航与文案调整
顶栏移除「当前视角板块」标签;左侧导航文案更新为业务规范术语;筛选区标题精简为「多维分析筛选区」。
📋 下周行动建议 (Pending
万能险结算利率页面参照分红险完成同类动态化改造 智能大屏万能/偿付能力/信息披露占位卡片接入真实数据 端到端联调验证全链路数据准确性 评估前端虚拟滚动方案,为更大数据集做准备
三、AI 驱动 PPT 转视频工具(PreSent)
上上周完成 V1.0 交付后,本周进入 V2 特性开发。
✅ 本周成果
1. XTTS 语音克隆方案落地
集成 Coqui TTS XTTS v2 模型,实现基于参考音频的语音克隆(录制一段真实人声即可克隆音色),支持单句合成与批量模式(模型一次加载,多文本复用,省去反复初始化的时间)。
架构亮点:通过 Python 3.11 子进程桥接 XTTS,隔离运行在主进程之外,规避 Python 3.12 兼容性问题,同时避免依赖冲突。
2. CLI 交互体验提升
新增三个命令行选项:
--voice:手动指定音色 --provider:切换 TTS 引擎(edge_tts / xtts) --list-voices:列出全部可用音色
同时实现交互式音色选择界面:自动过滤中文语音、默认选中 Yunxi、序号输入即可切换,降低上手门槛。
3. 新项目"精算智瞳"端到端验证
以保险行业数据智能采集平台 PPT 作为新参考项目完成全流程跑通,同步编写了基于 moviepy 的独立构建脚本,内置长文本智能分块(800 字/块)与自动合并能力。
📋 下周计划(Pending
V2 转场特效、字幕烧录功能开发。
FM:语音克隆实测下来效果一般,可能原因:1)CPU推理性能弱;2)30s的参考音频提供的信息太少。
四、沉淀
📈 分红实现率数据的应用方向
分红实现率当前仅作为"披露数据"入库,但结合旭哥的利差参数推测模型,存在一条可行的应用链路:爬取对应产品的说明书与费率表 → 提取红利演示数据 → 结合实现率反推利差参数。
这一步的关键是产品说明书等材料的规模化获取。部分公司说明书与实现率在同一页面(可直接复用采集器),部分需要独立爬取。优先级可排在万能/偿付能力之后,但方向值得标记。
🛡️ 万能险采集的对抗困境
万能结息是月度更新的数据,频率远高于分红实现率(年度),部分同业的反爬防护因此显著增强。目前已碰壁的公司:
- 国寿、招商信诺
:万能结息页面防护强度远超其分红实现率页面,常规采集手段全部失效
这项采集工作本质上是有对抗性的,大模型的自我约束机制也是新增变量——采集链路中引入大模型能力时,可能因模型的"过度合规"导致采集失败,而非技术层面的反爬。
📐 Solvency 采集:单位统一与 PDF 存档
偿付能力充足率采集遇到两个实际问题:
1. 单位不统一。 实际资本、最低资本等指标在不同公司的披露中单位各异——有的是"元",有的是"万元"。解决方案:提取时先识别关键字(匹配"单位:元"或"单位:万元"),再统一换算为万元入库。
2. 重复请求问题。 每次核验/复查都重新请求页面,既增加 IP 风险也浪费带宽。改为采集时下载 PDF 到本地存档,后续核验直接从本地读取,减少线上请求量。
*— 记录于 2026.06.26*
夜雨聆风