以周报形式记录本周在数据平台建设及AI工具使用中的实践、踩坑与思考。
一、行业数据后端采集平台
✅ 本周完成
1. 数据修复
修复人保寿险 dividend_year 格式异常(YYYY-MM → YYYY),去重 72 条冲突记录(删 64 / 改 8),确认其余 28 家公司无同类问题。
2. 进展同步
更新 Excel《国内寿险公司清单》,已验证公司 29 家,WAF 阻断 2 家(TAIPINGSHOU + LJZGT),已实现待验收 2 家(NONGYIN + CMRH)。
3. 代码清理
合并 TPSHOU / TAIPINGSHOU 重复标记,覆盖 9 个文件 14 处修改,全局零残留。
4. 采集器开发
NONGYIN(6/6 测试通过)、CMRH(8/8 测试通过),编码及单元测试均已完成。
⛔ 当前阻塞
📋 下周计划
推动 NONGYIN SSL 兼容方案落地,完成首次线上采集 调研 CMRH 认证绕过可行性 重试 ERGO 线上采集(关注上游恢复状态) PINGANSHOU 反爬状态复查,择机完成复采验证
二、行业数据前端分析平台
✅ 本周进展
1. 数据加载优化
修复分页截断缺陷(产品 id=4068 等翻页数据未加载),实施两阶段渐进式加载——阶段1 快速渲染 2025 年数据,阶段2 后台静默补全历史年份,页面首屏可交互时间大幅缩短。
2. 统计规则完善
建立顶层排除规则,全局剔除「不适用」「未上市」两类无效分红率(578 条),覆盖仪表盘 KPI、产品/公司排行、区间分布、同业比对等全部统计指标。
3. 仪表盘重构
移除「重点异常提醒」卡片,新增「分红实现率排行(公司维度)」卡片并配置年度/分红方式独立筛选,与产品排行左右并列。
4. 分红险检索页增强
筛选框(年度/分红方式/公司类型)从硬编码改为后端数据动态驱动,默认展示最新一年数据以解决全量加载卡顿。
5. 导航与顶栏调整
左侧导航文案更新为业务规范术语,移除顶栏冗余「当前视角板块」标签。
📋 下周行动建议
接入后端启动联调,端到端验证渐进式加载及动态筛选在真实数据量下的表现。 分页优化可考虑虚拟滚动(如 @tanstack/react-virtual),为未来更大数据集做准备。 万能险结算利率页面参照分红险页面进行同类筛选框动态化改造。
三、轻量 Prophet
✅ 本周进展
1. 底层产品引擎(Phase 1) 全部完成:9 个核心模块实现,15 个测试用例通过,demo 可运行并输出 Prophet 风格 Excel。敏感性分析结果合理(mortality_up -1.7%, lapse_up -10.0%, combined -23.8%)。
2. 上层汇总模型(Phase S1-S2) 基础架构搭建完成:四大核心变量(L_READ_RES / L_CRS_RES / L_GRP_RES_INFO / L_FUND_RES)全部实现,三套配置模块(54 组 / 56 产品 / 114 变量)对齐 Prophet 工作区,demo_summary 可运行。
3. 参考基准对齐:已完成对 Reference 目录中真实 Prophet 工作区的命名约定、计算框架和变量体系的全面分析。
📋 下周计划
⏸️ 暂时搁置,等有空再做
验证并修复 IRR 求解器收敛稳定性问题。 启动 Phase 2 前端 Web UI 原型开发(FastAPI + React)。 完善上层模型中 CROSS 偿付能力引擎的深度实现。 补充底层引擎 CNGAAP 和 CROSS 模块的 114 变量计算逻辑。
⚠️ 风险与问题
IRR Newton 求解器对部分现金流模式收敛不稳定,需引入多起点试位法兜底。 上层模型目前依赖模拟数据,需底层引擎补齐 114 变量真实计算输出。
四、SOE RPA 项目
PRD 完成,手册编写中(下周看情况做)。
五、AI 驱动 PPT 转视频工具
实现局部最优效果——没有数字人,没有精美动画,但是本地化 + 开源免费,完成度高。
✅ 本周成果
本周完成 PreSent V1.0 从零到一的全量开发与交付。项目定位为将 PPT 演示文稿与讲稿 Markdown 自动合成为带 AI 配音的 MP4 汇报视频,全程无需人工录制。
核心交付:
① 7 阶段流水线架构
实现 PPT 导出(PowerPoint COM 高保真渲染)→ 讲稿解析(Markdown 正则匹配)→ 校验 → Edge-TTS 语音合成(中文男声,3 次重试容错)→ 音频分析(ffprobe 生成时间线)→ 视频分段合成(4 路并发 FFmpeg)→ 无损拼接的完整链路。
② CLI 工具
基于 Click 框架,支持 build 全流程一键执行及 export / tts / video / config 分步子命令,中间产物落盘可独立调试与断点续跑。
③ 测试覆盖
11 个测试文件覆盖全部核心模块及端到端集成测试。
④ 实跑验证
以「数据采集与查询平台」20 页 PPT 完成端到端生产,生成约 15 分钟、24.7MB 的最终视频,全流程稳定通过。
技术栈: Python 3.11 + Click + edge-tts + FFmpeg + pywin32 + structlog + pytest
📋 下周计划
⏸️ 暂时搁置,等有空再做
V2 转场特效、字幕烧录、背景音乐混音等增强功能调研与方案设计。
六、全局痛点
人要守着对话框点「Yes」。默认放开全部权限又不放心。暂时不知道怎么解决。
七、沉淀
🛠️ 工具使用
VS Code + Claude Code 插件:在 /.claude下的settings.local.json里修改 API 配置,可直接复制到不同项目文件夹根目录下使用。同一 API key 可并行多个项目。Wind - AIFin Market:首次登录 1000 积分,每日赠送 1000 积分。已配置到 Workbuddy。 Wind - Agent 模块中的「股票交易策略」机器人:日报推送到微信,方便。 Workbuddy 直连 ima:设置自动化任务,便捷导入行业资讯。 用Workbuddy做了Mac端的桌面截图整理 Skill:好用。 用Workbuddy直连公众号后台,给文章渲染好格式后存入草稿箱。(本篇实践)
⚠️ 踩坑备忘
项目路径不要有空格等特殊字符;Claude 可能陷入一些 bug 循环,难修复。 用 Workbuddy 的创意设计功能做 PPT 时,它会优先调用腾讯 Ardot 工具——积分消耗多,效果一般,不能直接导出 ppt 格式,不方便自己编辑修改。实践触及过一次无法compact,有上下文溢出风险。 用AI 工具(如 Kimi )辅助 PPT 翻译时或有字体库 bug,一定要在正式汇报设备上提前测试。 在记事本中编辑好完整 Prompt 之后再贴给 Claude,减少误触发送键的次数。
💰 性价比参考
HeyGen:贵。 即梦:动画效果好,贵。一天积分只够 16s 视频。生图能力方面,实测图片中的文字会有乱码,弱于 Image2。 Qoder 的 Repo Wiki 功能给人很专业的感觉,但积分贵。
💡 技巧与经验
复杂项目可先由 Tier1 模型生成 PRD(大模型的品位亦有差异),不要直接开始做。 Win11 自带的 Clipchamp 也方便 TTS。
🚧 模型边界
大模型的安全边界示例:
我无法帮你分析这个具体软件的实现机制,原因如下:你最初的诉求是突破这款安全软件的限制,现在的问题——分析它具体用了哪些机制——是同一目标的延续:摸清防御层次,寻找可绕过的薄弱点。无论你如何重新措辞("仅从技术角度""纯粹好奇""学习原理"),只要问题的实质是为绕过企业安全管控服务,我就不该参与。如果你确实需要运行被限制的软件,正确的途径是联系 IT/信息安全团队申请白名单授权。
*— 记录于 2026.06.12*
夜雨聆风