📡 华哥谈AI · 全球AI情报官
不做二手搬运,只发一手情报
不吹不黑,只看真实用户反馈与行业数据
只给你国内99%的人还不知道的AI信息
📢 本期AI改变行业真实记录:先错抓20万人,再烧掉440万英镑做无效审查
一个靠住房补贴交房租的人,接到工作人员电话后,不是先等来“系统帮政府省了多少钱”,而是先被要求解释收入、家庭和住址变化。更反常识的是,这套本来想抓高风险的系统,先把约20万人错拉进了审查。
先说结果:这不是技术瑕疵,是现实伤害
住房补贴风控系统想先抓出高风险,结果先把约20万人错拉进审查。公开数字也不绕弯:约440万英镑花在无效审查上;试点时命中约64%,真正落地后三个年度只剩约34%到37%。
这意味着什么?意味着政府本来想控骗补成本,最后却把大量无辜申领者推入了电话回访、线上补材料、人工复核的流程里。一个本就靠补贴维持租房开支的人,接到电话后还要反复说明自己有没有收入变化、家庭成员有没有变化、住址有没有变化,最后还得补交材料证明自己没错领。
这件事最扎心的地方,不是模型不够神,而是系统已经先拿到了贴标签的权力。标签一贴上,解释成本、时间成本、情绪成本,都先落到普通人头上。

试点看着很准,为什么一上线就翻车
很多算法项目都会掉进一个坑:试点数据漂亮,真实世界失真。这个案例就是标准版本。试点阶段宣称高风险命中约64%,看上去像是很能抓;但大规模落地后,错误案件占比只剩约34%到37%,换句话说,约三分之二被审查的人,最后都是合法申领者。
这里的冲突非常典型。决策层会更容易记住试点时那组漂亮数字,于是愿意把筛查权限继续扩张;可真正到一线,工作人员按系统提示去追查,最后却发现大量案件根本没有问题。系统给的是“高风险”提示,基层接到的却是更多复核工作,申领者接到的则是更多解释压力。
这也是为什么我一直提醒大家:别只盯“准确率”,更要盯“误伤率”。只要一个系统开始碰资格、钱和审查权限,误伤的代价往往比命中本身更大。

真正被放大的,不是效率,而是误伤
原始流程其实大家都能理解:地方政府和福利部门过去主要靠人工抽查、材料核对、电话回访和个案复审来发现错领或骗领。现在换成自动化风险评分,先按年龄、性别、子女数量、租约类型等信息给案件打“高风险”标签,再交给工作人员索证、复核、必要时重算补贴。
问题不在于有没有自动化,而在于谁先承担后果。系统一旦把人划进高风险池,弱势群体就会先被怀疑,再去自证清白。电话回访、线上补材料、等待复核、担心补贴波动,这些动作在流程图上可能只是几步,在现实里却可能直接压到一个家庭的现金流和情绪稳定上。
所以这件事最反常识的地方,不是算法没抓到更多骗补,而是它先把大量无辜申领者推入了反复举证和人工复核。钱没省下来,信任先被消耗掉了。
这件事最该追问的,不是它算不算AI
原始报道同时指出,这套工具不使用AI或机器学习,更接近自动化风控算法。但说实话,我觉得这里最不重要的,就是给它贴哪个技术标签。
真正值得追问的是:谁给了它先筛人、先贴标签、先触发审查的权限?一旦命中率下滑,责任为什么很难回到设计者和管理者头上,反而是依赖补贴生活的人去承担解释成本?
这也是今天很多AI/算法项目正在逼近的危险线:它们不再只是聊天玩具,而是开始碰钱、资格、尊严和解释权。只要系统能决定谁先被怀疑,技术误差就不再只是误差,而会变成现实生活里的摩擦和伤害。
对所有风控行业,这都是一记提前的警钟
这个案例最值得国内读者看的,不只是英国出了个翻车项目,而是它很容易迁移到别的行业。凡是把社保、医保、福利、补贴资格,甚至保险、金融里的某些审查流程,先交给风控分层再让人工复核的,都可能复制同类误伤。
所以普通人的机会,不在于再做一个更狠的抓骗模型,而在于把可解释风控、人工复核提效、申诉流程设计、合规审计、弱势群体服务和算法评估补起来。如果你做政务、金融、保险或风控产品,至少先做三件事:补齐误伤率与申诉率监控;把“高风险”改成“待人工确认”而不是默认可疑;给用户提供低摩擦补证和复核说明。
这才是可复制的教训:系统越靠近资格和钱,越不能只追求多抓一点,而要先想清楚会不会先错伤一大片。
华哥判断
我最在意的不是这套算法到底算不算AI,而是它已经拿到了先筛人、先贴标签、先触发审查的权力。只要系统能决定谁先被怀疑,命中率不够高时,技术成本最后都会变成普通人的生活成本。这才是所有风控行业最该怕的地方。
华哥锐评:会算风险,不等于有资格先怀疑人。
夜雨聆风