AI 工具实践备忘 · 2026年6月第4周

以周报形式记录本周在 AI 工具及数据平台建设中的实践、踩坑与思考。

一、行业数据后端采集平台

✅ 本周完成

本周新增验收 5 家，新增数据 488 条，全部测试通过。

1. HONGKANG（弘康人寿）

采用 pdf_directory 模式，首次采集插入 70 条，DB 核验 9 年（2017-2025），0 异常。✅

2. XINGFU（幸福人寿）

同样是 pdf_directory 模式，但遇到两个技术坑：pypdf 编码缺陷导致「率」字符丢失，以及双区段 PDF 表头跨行拆分问题。解决后首次插入 186 条，覆盖 2021-2025 年，包含现金红利/增额红利/终了红利三种分红方式。✅

3. GUOFU（国富人寿）

采用 html_same_page_api 模式，通过 CMS API 逐年查询，空年份自动跳过。首次插入 12 条，覆盖 2023-2025 年。✅

4. CHANGCHENG（长城人寿）

同为 html_same_page_api 模式，单 API 调用返回全量数据，用 dividendCode 区分双分红方法。首次插入 186 条，覆盖 2022-2025 年，9 个生效区间，0 异常。✅

5. HUAGUI（华贵人寿）

pdf_directory 模式，技术亮点是解析 Vue SPA 模板语法中的 PDF 链接（:href="'...pdf'"），并自动展开多年份 PDF 列、跳过方法论文档。首次插入 34 条，实现率覆盖 19%-221%，0 异常。✅

6. LIAN（利安人寿）侦察评估

判定为不适合实现（C 级）：Umi SPA + Spring Boot 后端，API 参数格式无法从混淆 JS 逆向，10+ 次接口调用均返回 status=1007，contentId 类型也无法外部构造。本次探测同步产出了浏览器自动化可行性评估文档，为后续决策提供参考。

7. 流程优化

将 5 步采集工作流精简为 4 步——可行性评估（≤3 请求）→ 实现（mock 冒烟）→ 验收（冷却期）→ 文档+提交（合并）。减少连续探测导致的 IP 封锁风险。

📊 本周数据

指标	值
新增 verified	5 家
新增记录	488 条
新增测试	65 个，全部通过
DB 累计	38 家 / 13,536 条 / 2005-2025

📊 当前全景

状态	数量
✅ 已验证	37
⛔ CDN 阻断	5（ERGO / TAIPINGSHOU / LJZGT / JVNLONG 等）
🔒 API 阻断	3（GUOLIAN / GUOMIN / ALLIANZ）
🔍 未评估	38
总计	83

📋 下周计划

启动未评估公司（38 家）批量侦察，优先处理 PDF 目录型站点
跟踪 ERGO CDN 配置变化，恢复后立即验收
PINGANSHOU 反爬月度复查
浏览器自动化方案决策（基于 LIAN 评估文档）
推进结算利率和偿付能力充足率采集

二、行业数据前端分析平台

✅ 本周进展

1. 全局硬编码清理

对 Dashboard 和分红分析页进行全面审计，清理全部假数据：

趋势图从硬编码 5 年假数据改为从实际数据动态计算 avg / median / p25 / p75
箱线图、柱状图、期间对比图全部替换为数据库驱动
「同比下降」「中位数对比」改为动态计算，支持上升/下降/持平三种表述
筛选框下拉选项（年度/分红方式/公司类型/生效区间）全部从数据库动态提取

2. 页面架构重构

「分红保险红利实现率」页移除筛选区和数据表格，改为承接智能大屏的 4 张核心分析卡片（趋势图、区间分布、产品排行、公司排行）
「智能综合大屏」移除已迁移的 4 张卡片，预留万能结算利率、偿付能力充足率、年度信息披露三张占位卡片
组件接口精简，分红分析页只需传入 dividendProducts 一个 prop

3. 过滤逻辑修复

修复 useEffect 闭包过期导致年度/公司/分红方式三个筛选器全部失效的问题。改为 useMemo 显式依赖 + useRef 一次性初始化，过滤稳定可靠。「连续两年低于 100%」从硬编码关键词改为从数据中自动检测。

4. 导航与文案调整

顶栏移除「当前视角板块」标签；左侧导航文案更新为业务规范术语；筛选区标题精简为「多维分析筛选区」。

📋 下周行动建议（Pending

万能险结算利率页面参照分红险完成同类动态化改造
智能大屏万能/偿付能力/信息披露占位卡片接入真实数据
端到端联调验证全链路数据准确性
评估前端虚拟滚动方案，为更大数据集做准备

三、AI 驱动 PPT 转视频工具（PreSent）

上上周完成 V1.0 交付后，本周进入 V2 特性开发。

✅ 本周成果

1. XTTS 语音克隆方案落地

集成 Coqui TTS XTTS v2 模型，实现基于参考音频的语音克隆（录制一段真实人声即可克隆音色），支持单句合成与批量模式（模型一次加载，多文本复用，省去反复初始化的时间）。

架构亮点：通过 Python 3.11 子进程桥接 XTTS，隔离运行在主进程之外，规避 Python 3.12 兼容性问题，同时避免依赖冲突。

2. CLI 交互体验提升

新增三个命令行选项：

--voice
：手动指定音色
--provider
：切换 TTS 引擎（edge_tts / xtts）
--list-voices
：列出全部可用音色

同时实现交互式音色选择界面：自动过滤中文语音、默认选中 Yunxi、序号输入即可切换，降低上手门槛。

3. 新项目"精算智瞳"端到端验证

以保险行业数据智能采集平台 PPT 作为新参考项目完成全流程跑通，同步编写了基于 moviepy 的独立构建脚本，内置长文本智能分块（800 字/块）与自动合并能力。

📋 下周计划（Pending

V2 转场特效、字幕烧录功能开发。

FM：语音克隆实测下来效果一般，可能原因：1）CPU推理性能弱；2）30s的参考音频提供的信息太少。

四、沉淀

📈 分红实现率数据的应用方向

分红实现率当前仅作为"披露数据"入库，但结合旭哥的利差参数推测模型，存在一条可行的应用链路：爬取对应产品的说明书与费率表 → 提取红利演示数据 → 结合实现率反推利差参数。

这一步的关键是产品说明书等材料的规模化获取。部分公司说明书与实现率在同一页面（可直接复用采集器），部分需要独立爬取。优先级可排在万能/偿付能力之后，但方向值得标记。

🛡️ 万能险采集的对抗困境

万能结息是月度更新的数据，频率远高于分红实现率（年度），部分同业的反爬防护因此显著增强。目前已碰壁的公司：

国寿、招商信诺
：万能结息页面防护强度远超其分红实现率页面，常规采集手段全部失效

平安寿的万能结息页面防护反而弱于分红实现率。

这项采集工作本质上是有对抗性的，大模型的自我约束机制也是新增变量——采集链路中引入大模型能力时，可能因模型的"过度合规"导致采集失败，而非技术层面的反爬。

📐 Solvency 采集：单位统一与 PDF 存档

偿付能力充足率采集遇到两个实际问题：

1. 单位不统一。 实际资本、最低资本等指标在不同公司的披露中单位各异——有的是"元"，有的是"万元"。解决方案：提取时先识别关键字（匹配"单位：元"或"单位：万元"），再统一换算为万元入库。

2. 重复请求问题。 每次核验/复查都重新请求页面，既增加 IP 风险也浪费带宽。改为采集时下载 PDF 到本地存档，后续核验直接从本地读取，减少线上请求量。

*— 记录于 2026.06.26*