乐于分享
好东西不私藏

复旦解剖了539只AI龙虾,发现……

复旦解剖了539只AI龙虾,发现……


一、一份22页报告,539只龙虾

今天读到一份复旦大学许闲教授团队做的报告——

他们干了一件很认真的事:把市场上所有打着”保险AI技能”旗号的东西搜集了一遍,去重、去二次引用、剔掉含金量太低的——最后筛出539个样本,逐一做了统计分析、质量评分、风险评估。

22页,硬核数据,结论有点扎心。

报告里把这类AI技能叫”龙虾”——也就是AI Agent的Skill,一种把特定业务知识、执行步骤、工具调用打包在一起的能力包。

原来市场上万级的结果,洗一遍只剩539个。大多数叫”保险AI技能”的东西,打开一看,根本不算数。


二、为什么保险行业天生慢半步

在看具体数据之前,先说一个背景,有助于理解后面那些数字为什么长这个样子。

保险,从骨子里就不是一个适合”全自动”的行业。

内控的角度,理赔结果要留审计记录,核保决策要有可解释路径,合规材料要追溯到每一步是谁做的。一旦出了纠纷,监管要的不是”AI说这样就这样”,要的是完整的人工决策链条。

销售的角度,保险作为金融产品中比较特殊的一种,普通消费者难以全面掌握保险产品信息,保险公司也不掌握投保人的风险因素,存在着天然的信息鸿沟,这就需要经纪人、代理人或组织来搭建桥梁,帮助双方快速地达成交易。

所以保险行业不是不想用AI,而是在哪里用、用到什么程度,有一套和其他行业不一样的约束逻辑。

这不是好事,也不是坏事,只是现实。

明白这一点,再去看那539只龙虾,就不会觉得意外了。


三、71.5%的龙虾,其实是说明书

这是报告里最扎心的数据之一。

现有的保险Skill,主流形态是什么?

• 71.5%:参考文档——给AI看的说明书,告诉它遇到这类业务该怎么做

• 27.8%:工作流框架——给AI一个流程图,让它按步骤走

• 8.7%:明确了自主工具调用

(注:同一个Skill可以同时具备多种形态,所以加起来超过100%)

翻译一下:现在大多数”保险AI技能”,本质上是写给AI的业务手册。

它们教会了AI”这类业务应该怎么办”,但没有解决”AI能不能直接跑起来自主干”的问题。你得有人在旁边盯着,在关键节点确认,在出了问题的时候人工干预。

这和很多人想象中的”交给AI就搞定”差距很大。

但这不完全是Skill设计者的问题。结合前面说的行业背景——审查助手、材料生成助手、识别助手,这些低自治、强辅助的形态,反而是当前最适配保险行业监管要求的选择。

不是技术做不到,是行业接受不了。


四、只有0.7%能独立跑

顺着这个逻辑再往下看,就到了另一个数字:0.7%

539个样本里,被认为可以”独立运行”的Skill,只有4个。

剩下的那些,有各种各样的外部依赖:

• 21.4% 需要你额外提供API密钥或SSH凭证

• 62.1% 没有明确说自己需要什么操作系统

• 72.2% 没有明确Shell类型

• 近乎全部需要网络访问

这意味着什么?

你从市场上下载一个保险Skill,大概率是拿到了一个半成品。 它需要你对着说明文件一步步配环境、填参数、接接口,然后还不一定跑得起来——因为它可能绑定了某个特定平台、某家公司的内部系统,或者依赖一个三年没更新的外部API。

复现难,迁移更难。

如果一家想引入这类Skill的保险公司,大概率拿到的不是一个可以直接用的工具,而是一个需要IT团队二次改造的材料。


五、命名9.96,示例4.37

报告用五个维度给所有样本打了分:清晰度、完整度、可操作性、可维护性、安全性,综合均值7.73分。

看起来还不错对不对?

但细看子维度,就很有意思了:

命名质量均值9.96分——接近满分。

示例清晰度均值4.37分——刚好及格线以下。

章节覆盖度4.19分,错误指导3.46分,版本跟踪0.46分

名字起得很好,例子却不知道怎么写。

这个模式特别符合现实:很多Skill的作者会认真起一个听起来专业的名字,写一段听起来很厉害的功能描述,但具体使用的时候遇到什么问题、报什么错、怎么处理——没写,不知道,或者根本没想过。

版本跟踪均值0.46,意思是绝大多数Skill发布出去就没再维护过。它描述的流程、调用的接口、依赖的数据——全都可能已经过时了。

用一句话总结:Skill的”面子”不错,”内功”虚。


六、保险在AI这件事上,走的是慢路

从整份报告看下来,有一个底层逻辑很清晰:

保险行业在AI落地这件事上,走的是一条比其他行业慢、但也可能更稳的路。

理赔、合规、风控是现在Skill最集中的场景——因为这些地方规则密度最高,AI帮人审材料、找问题、生成初稿,价值最直接,风险也最可控。

而真正需要AI”自主决策”的环节,比如核保结论、准备金评估、定价模型——目前Skill覆盖极少。

产品定价精算类Skill只有33个,准备金评估类只有15个,偿付能力风险类只有14个。和合规审查类的199个比,差了一个量级。

不是没人想做,是这些地方的精算师和合规官还没有准备好接受一个”你的判断从哪来说不清楚”的AI系统。

审计留痕、可解释路径、监管合规——这些保险业的基因,恰好是AI自主化最难越过的门槛。

所以大部分龙虾还在水里扑腾,迈过门槛上岸的只有寥寥几只。

报告最后对skill的发展提出了三点建议,供从业者参考:

第一,建立保险 Skill 的统一建设规范——把适用场景、触发条件、输入输出、依赖环境、权限边界、异常处理、审计留痕等要素前置为必备项,提高Skill 的结构完整度和机构接入确定性。

第二,建立面向真实业务任务的深度测评机制——不只看静态文档质量,还要看在理赔审核、核保辅助、合规审查等具体场景中的执行稳定性、可复现性和风险可控性。

第三,推动从人工编写单个Skill”走向半自动化构建Skill”——逐步沉淀保险条款、流程节点、规则口径与案例模板,蒸馏行业规范与垂域能力经验,形成可批量生成、持续迭代的保险Skill 构建工具链。


如果你对这份报告感兴趣,想看完整的539个样本分析、质量评分细节和案例解剖,可以私信关键词「保险龙虾」,或者点击阅读原文,我把报告发给你。


*欢迎点赞、在看、转发*

*关注【百友吾飞】,用精算的视角,看这个奇怪的世界*

– END –