复旦解剖了539只AI龙虾,发现……-夜雨聆风

复旦解剖了539只AI龙虾,发现……

一、一份22页报告，539只龙虾

今天读到一份复旦大学许闲教授团队做的报告——

他们干了一件很认真的事：把市场上所有打着”保险AI技能”旗号的东西搜集了一遍，去重、去二次引用、剔掉含金量太低的——最后筛出539个样本，逐一做了统计分析、质量评分、风险评估。

22页，硬核数据，结论有点扎心。

报告里把这类AI技能叫”龙虾”——也就是AI Agent的Skill，一种把特定业务知识、执行步骤、工具调用打包在一起的能力包。

原来市场上万级的结果，洗一遍只剩539个。大多数叫”保险AI技能”的东西，打开一看，根本不算数。

二、为什么保险行业天生慢半步

在看具体数据之前，先说一个背景，有助于理解后面那些数字为什么长这个样子。

保险，从骨子里就不是一个适合”全自动”的行业。

内控的角度，理赔结果要留审计记录，核保决策要有可解释路径，合规材料要追溯到每一步是谁做的。一旦出了纠纷，监管要的不是”AI说这样就这样”，要的是完整的人工决策链条。

销售的角度，保险作为金融产品中比较特殊的一种，普通消费者难以全面掌握保险产品信息，保险公司也不掌握投保人的风险因素，存在着天然的信息鸿沟，这就需要经纪人、代理人或组织来搭建桥梁，帮助双方快速地达成交易。

所以保险行业不是不想用AI，而是在哪里用、用到什么程度，有一套和其他行业不一样的约束逻辑。

这不是好事，也不是坏事，只是现实。

明白这一点，再去看那539只龙虾，就不会觉得意外了。

三、71.5%的龙虾，其实是说明书

这是报告里最扎心的数据之一。

现有的保险Skill，主流形态是什么？

• 71.5%：参考文档——给AI看的说明书，告诉它遇到这类业务该怎么做

• 27.8%：工作流框架——给AI一个流程图，让它按步骤走

• 8.7%：明确了自主工具调用

（注：同一个Skill可以同时具备多种形态，所以加起来超过100%）

翻译一下：现在大多数”保险AI技能”，本质上是写给AI的业务手册。

它们教会了AI”这类业务应该怎么办”，但没有解决”AI能不能直接跑起来自主干”的问题。你得有人在旁边盯着，在关键节点确认，在出了问题的时候人工干预。

这和很多人想象中的”交给AI就搞定”差距很大。

但这不完全是Skill设计者的问题。结合前面说的行业背景——审查助手、材料生成助手、识别助手，这些低自治、强辅助的形态，反而是当前最适配保险行业监管要求的选择。

不是技术做不到，是行业接受不了。

四、只有0.7%能独立跑

顺着这个逻辑再往下看，就到了另一个数字：0.7%。

539个样本里，被认为可以”独立运行”的Skill，只有4个。

剩下的那些，有各种各样的外部依赖：

• 21.4% 需要你额外提供API密钥或SSH凭证

• 62.1% 没有明确说自己需要什么操作系统

• 72.2% 没有明确Shell类型

• 近乎全部需要网络访问

这意味着什么？

你从市场上下载一个保险Skill，大概率是拿到了一个半成品。 它需要你对着说明文件一步步配环境、填参数、接接口，然后还不一定跑得起来——因为它可能绑定了某个特定平台、某家公司的内部系统，或者依赖一个三年没更新的外部API。

复现难，迁移更难。

如果一家想引入这类Skill的保险公司，大概率拿到的不是一个可以直接用的工具，而是一个需要IT团队二次改造的材料。

五、命名9.96，示例4.37

报告用五个维度给所有样本打了分：清晰度、完整度、可操作性、可维护性、安全性，综合均值7.73分。

看起来还不错对不对？

但细看子维度，就很有意思了：

命名质量均值9.96分——接近满分。

示例清晰度均值4.37分——刚好及格线以下。

章节覆盖度4.19分，错误指导3.46分，版本跟踪0.46分。

名字起得很好，例子却不知道怎么写。

这个模式特别符合现实：很多Skill的作者会认真起一个听起来专业的名字，写一段听起来很厉害的功能描述，但具体使用的时候遇到什么问题、报什么错、怎么处理——没写，不知道，或者根本没想过。

版本跟踪均值0.46，意思是绝大多数Skill发布出去就没再维护过。它描述的流程、调用的接口、依赖的数据——全都可能已经过时了。

用一句话总结：Skill的”面子”不错，”内功”虚。

六、保险在AI这件事上，走的是慢路

从整份报告看下来，有一个底层逻辑很清晰：

保险行业在AI落地这件事上，走的是一条比其他行业慢、但也可能更稳的路。

理赔、合规、风控是现在Skill最集中的场景——因为这些地方规则密度最高，AI帮人审材料、找问题、生成初稿，价值最直接，风险也最可控。

而真正需要AI”自主决策”的环节，比如核保结论、准备金评估、定价模型——目前Skill覆盖极少。

产品定价精算类Skill只有33个，准备金评估类只有15个，偿付能力风险类只有14个。和合规审查类的199个比，差了一个量级。

不是没人想做，是这些地方的精算师和合规官还没有准备好接受一个”你的判断从哪来说不清楚”的AI系统。

审计留痕、可解释路径、监管合规——这些保险业的基因，恰好是AI自主化最难越过的门槛。

所以大部分龙虾还在水里扑腾，迈过门槛上岸的只有寥寥几只。

报告最后对skill的发展提出了三点建议，供从业者参考：

第一，建立保险 Skill 的统一建设规范——把适用场景、触发条件、输入输出、依赖环境、权限边界、异常处理、审计留痕等要素前置为必备项，提高Skill 的结构完整度和机构接入确定性。

第二，建立面向真实业务任务的深度测评机制——不只看静态文档质量，还要看在理赔审核、核保辅助、合规审查等具体场景中的执行稳定性、可复现性和风险可控性。

第三，推动从“人工编写单个Skill”走向“半自动化构建Skill”——逐步沉淀保险条款、流程节点、规则口径与案例模板，蒸馏行业规范与垂域能力经验，形成可批量生成、持续迭代的保险Skill 构建工具链。

如果你对这份报告感兴趣，想看完整的539个样本分析、质量评分细节和案例解剖，可以私信关键词「保险龙虾」，或者点击阅读原文，我把报告发给你。

*欢迎点赞、在看、转发*

*关注【百友吾飞】，用精算的视角，看这个奇怪的世界*

– END –