乐于分享
好东西不私藏

一次开源工具投毒,牵出百亿AI数据平台的致命漏洞

一次开源工具投毒,牵出百亿AI数据平台的致命漏洞

上周,一家估值百亿美元的AI训练数据平台Mercor遭遇严重黑客攻击,超过四万人的个人信息因此泄露。短短一周内,这家公司在美国多地连遭至少五起诉讼,指控其未能妥善保护敏感数据。Meta已紧急暂停与Mercor的全部合作,恢复时间未定,OpenAI也正在紧急调查自己的专有训练数据是否被波及。

这起事件的源头要追溯到三月下旬的一场供应链攻击。黑客组织TeamPCP盯上了一款名为LiteLLM的开源工具,这个Python库每月下载量接近一亿次,广泛存在于全球约百分之三十六的云环境中。攻击者使用被盗的开发者凭证,向Python包索引平台上传了两个恶意版本。这两个版本在线上只存活了大约四十分钟,但就是这短短的时间窗口,已经足以让大量企业下载并部署了被感染的代码。

Mercor在这场攻击中中招了。黑客通过植入的恶意代码窃取了受感染企业的云账号密钥、数据库密码和服务器访问凭证。三月三十一日,Mercor向内部员工承认发生了安全事件,影响范围波及自身系统和全球数千家机构。几乎与此同时,另一个以社会工程和凭证盗窃闻名的黑客组织Lapsus$公开声称已入侵Mercor,并掌握了四TB的数据,包括源代码、数据库记录和视频资料,正在暗网上公开叫卖。

Mercor成立于2023年,三位创始人当时只有二十二岁。这家公司的商业模式是做AI大厂与领域专家之间的桥梁,招募医生、律师、科学家等专业人士,为AI公司生产高度定制化的训练数据。它的客户名单相当亮眼,包括Anthropic、OpenAI和Meta。去年十月,Mercor完成了一轮三亿五千万美元的融资,估值达到一百亿美元,三位创始人也因此成为福布斯认定的全球最年轻的白手起家亿万富翁。

然而正是这种多家头部AI公司共用同一家数据供应商的模式,让此次泄露的后果格外棘手。各家AI大厂之所以紧张,不只是因为个人数据外泄,更是因为Mercor同时身处多家竞争对手的数据流水线之中。一旦数据选择标准、标注规范、训练策略等核心方法论细节被竞争对手获取,各家公司耗费数年、数十亿美元构筑的技术护城河将面临严重威胁。据媒体报道,Meta内部一个代号为Chordus的项目已经因这次攻击被迫暂停,该项目旨在训练AI模型利用多个网络来源核实信息。

攻击事件对Mercor旗下的承包商造成了直接冲击。参与Meta相关项目的承包商在合作暂停期间无法记录工时,实际上已经处于失业状态。Mercor试图将他们调配至其他项目,但许多人起初甚至不知道合作被叫停的原因。法律层面的反应同样迅速,多位承包商已向法院提起集体诉讼,称自己为处理泄露事件的后续问题耗费了大量时间,且面临更高的身份盗窃风险。其中一起诉讼还将开发LiteLLM的Berrie AI和出具安全认证的Delve Technologies一并列为被告,指控前者提供了存在安全漏洞的工具,后者出具了不实的安全认证背书。

这起事件暴露了AI产业一个结构性的盲点。当多家顶级实验室将敏感的训练工作外包给同一家供应商时,这家供应商自身的安全漏洞就成了整个行业的共同风险暴露点。训练数据集或许可以复制,但训练方法论几乎不可能,而后者正是这次泄露最令人担忧的部分。攻击者的动机明确是金钱驱动,并已公开表示将与勒索软件团伙合作,针对受影响企业发起规模化攻击。