乐于分享
好东西不私藏

OpenAI发布GPT-Image-2才一周,野生AI图片数据集就被挖出来了!

OpenAI发布GPT-Image-2才一周,野生AI图片数据集就被挖出来了!

🐉 龙哥读论文知识星球来了!
想看这种深入一线的“野采”论文拆解?星球无上限更新AI数据集、模型、招聘资讯,一个星球搞定所有AI前沿干货!👇扫码加入「龙哥读论文」知识星球,跟一群有趣的灵魂一起冲浪AI最前线~

           
           

龙哥推荐理由:
这篇文章看似是一份AI数据集论文,但它更像一份“AI侦探工作手册”。在OpenAI发布GPT-Image-2的“黄金周”里,作者们如何通过推特API、多语言关键词和自动浏览器脚本,在第一时间“捕捞”到第一批野生AI图片,并发现了一个让人吃惊的事实——平台悄悄抹掉了所有AI的“身份证”。对于AI安全、深度伪造检测、图像取证的从业者来说,这绝对是教科书级别的实战案例。

       

原论文信息如下:


论文标题:
GPT-Image-2 in the Wild: A Twitter Dataset of Self-Reported AI-Generated Images from the First Week of Deployment


发表日期:
2026年4月


发表单位:
Scam.ai (Kidus Zewde, Simiao Ren 等)


原文链接:
https://arxiv.org/pdf/2604.25370v1.pdf

GPT-image-2来啦,但它的“野生”数据去哪了?

2026年4月21日,OpenAI悄悄放出了GPT-image-2——这个能生成以假乱真照片、还能写出多国文字的新模型。一时间,推特上涌出了海量用户创作的图片:有人用它画动漫,有人生成产品海报,有人搞出逼真的人像,还有人整出了带文字的复杂信息图表。这些“野生”的AI图片,就像刚出笼的小鸟,满世界飞,但问题来了:谁来记录它们?谁来研究它们?
以往学术界手头的AI图像数据集,要么是实验室里用API批量生成的(比如DiffusionDB、GenImage),要么是从Discord服务器上爬来的(比如Stable Diffusion的prompt数据集)。但这些数据有一个致命伤:它们不“野生”。实验室数据集里的prompt通常是简洁规范的,主题经过挑选,场景相对单一。可推特上的真实用户可就随性多了:有人让GPT-image-2生成“正在吃面的猫娘”,有人要求“在火星上开奶茶店的海报”,还有直接贴出“帮我做一张刘德华和马斯克握手的电影海报”——这些奇葩组合才是现实中AI图像消费的主流。
于是,Kidus Zewde、Simiao Ren等一帮来自Scam.ai和安全领域的研究者决定做一件很“野”的事:在模型发布后的第一时间,用推特API疯狂抓取,然后从数十万条推文中“淘金”,建一个专门针对GPT-image-2的野生数据集。这个数据集最终包含10,217张经过多重验证的AI图片,并且公开了所有代码。更让人拍大腿的是,他们发现了一个惊人的事实:推特的上传会直接把AI的“身份证”(C2PA元数据)撕得粉碎!
图1:GPT-Image-2推特数据集中的30张样本图片,展示了内容的广度:动漫插画、逼真肖像、文字密集型信息图、奇幻场景、产品模型图、食物、自然和建筑。

七天生效!如何用API挖到第一批AI图片?

数据收集的时间窗口极其短暂。推特API v2的“近期搜索”端点只允许访问过去7天内的推文,而模型发布日期是4月21日。研究者必须在4月21日至26日这6天内完成所有抓取——晚一天,第一波最原始、最真实的创作热潮就会永远消失在线。为此他们采用了付费的Basic级别服务(每读一条推文收费0.005美元),配合has:images -is:retweet过滤器,只抓取带图片的原创推文。
查询设计的关键在于:要精准找到那些明确说自己“用GPT-image-2生成了图片”的推文,而不是那些仅仅讨论模型或者转发的广告。研究者设计了一套多语言“创作语言”查询,覆盖英语、日语、中文。例如,英语使用“made with”、“created by”、“prompt:”等信号;日语针对“で生成”(生成自)和“作ってみた”(试着做了);中文使用“提示词”和“生成的”。此外,他们还加入了一个纯Hashtag查询(#GPTImage2),虽然数量少但确认率极高。
表1:收集使用的查询类型及其图片产量和确认率。
从表1可以看到,Hashtag查询的确认率高达94%,但数量只有1314张;而英文创作语言查询贡献了最大的原始量(13508张),确认率44%。总体来看,在14,154张过滤后的图片中,最终只有30.9%能被明确确认。其余都是只提了模型名但没有明确“生成”语言的“沉默创作者”——这些人占了绝大多数。
图2:端到端收集与筛选流水线(从左到右)。第一阶段移除非照片媒体和下载失败;第二阶段应用多语言文本启发式分类得到三个类别。不确定推文进一步通过Playwright/Chromium浏览器自动化检查推特“Made with AI”标签,额外得到4750张标签确认的图片。
整个收集过程就是一场与时间的赛跑。研究者的策略很简单:先用多语言关键词捞一把大的,然后通过一系列规则把“疑似AI”和“确认AI”分开。但最大的问题在于:如何从那些没有写“用GPT-image-2生成”的推文中挖出真金?

智慧筛选:多语言“侦探”如何锁定真实AI图片?

第一阶段只是简单粗暴地过滤掉非图片媒体(视频缩略图、GIF)和下载失败的记录,剩下26,515张照片记录。第二阶段才是真正的“侦探工作”:研究者设计了一套基于规则的文本分类器,为每张图片分配三个标签之一——确认、拒绝或不确定。
确认条件:推文文本同时包含明确的创作语言(如“made with”、“created by”、“generated by”、“prompt:”)以及可识别的模型名变体(GPTImage2, GPT-image-2等)。日语加上了“生成”和“作ってみた”,中文加上了“提示词”和“生成的”。AI艺术标签(#AIart、#AIイラスト)作为弱确认信号。
拒绝条件:出现比较语言(“vs”某个竞品)、提到三个及以上不同AI工具、或者发布公告式用语(“released”、“now available”)。
不确定类:所有剩余记录。这是最大的一类,约占67%。
表2:第二阶段分类结果(去重后的唯一图片记录)。通过Playwright检查更广泛的不确定池(约21,500条)包括来自完整26,515条记录的未去重记录。
表2显示,明确确认的只有4,187张,拒绝的只有396张,剩下的9,571张都是不确定的。作者并没有放弃这些不确定的推文,而是做了一件更妙的事:利用Playwright(浏览器自动化工具)自动打开每条不确定的推文网页,查看推特官方渲染的“Made with AI”徽章——这是模型发布后推特平台自动为AI生成图片打上的标签。结果发现,在约21,500条检查过的推文中,有53.7%实际上带着“Made with AI”徽章!这相当于从不确定池中又挖出了4,750张确凿的AI图片。
经过这一整套组合拳,最终的高置信度数据集包含10,217张图片。这些图片的语言分布也非常有趣:英语占40.3%,日语占32.8%,中文占19.2%——GPT-image-2在多国文字渲染上的优势吸引了大量非英语用户。
表3:确认图片的语言分布(lang字段)。

惊人发现:训练数据中82%都带字!

数据收集完了,研究者迫不及待地对这10,217张图片进行了一波视觉内容分析。他们用CLIP ViT-L/14(一种多模态视觉语言模型)进行零样本分类,把图片归入8个粗略的内容类别。结果令人震惊:文字图形类内容占到了33.2%,成为第一大类别!这包括海报、信息图、排版插图——显然用户们迫不及待地想测试GPT-image-2的文本生成能力。其次是奇幻/超现实场景(24.9%)和逼真肖像(14.2%)。动漫插画占10.9%(主要由日语创作者贡献),产品可视化/UI设计占9.8%——说明模型发布第一周就已经有专业用户开始试用了。
图4:通过CLIP零样本分类得到的10,217张图片的主题分布。文字图形内容占主导;奇幻/超现实和逼真肖像紧随其后。
更具体地,研究者用OCR(光学字符识别)检测文字,结果发现82.0%的图片都包含可读的文字,平均每张文字图片上有29个检测到的文字区域!四分之三以上的图片带文字,这在以往的任何AI图像数据集中都极为罕见。无论是海报、信息图,还是带有标题的插画,GPT-image-2的文字生成能力是用户最愿意分享的功能点。
图6:10,217张确认图片中的文字存在情况。超过五分之四(82.0%)包含机器可读文字,反映了GPT-image-2强大的文字渲染能力。
人脸检测方面,59.2%的图片至少包含一张人脸(总共22,583张人脸),其中男性比例53.4%,女性46.6%,平均估计年龄42.3岁。但作者特别提醒:由于10.9%的图片是动漫风格,人脸检测模型可能在这些非逼真图像上存在偏差,这些人口统计数字不应被理解为反映真实个体。
图8:10,217张确认图片中的人脸数量分布(左)、性别比例(中)和估计年龄直方图(右)。59.2%的图片包含至少一张人脸(共22,583张人脸)。

平台“叛变”?C2PA元数据为何全部消失?

这部分是整篇论文最令人“心碎”的发现。C2PA(Coalition for Content Provenance and Authenticity,内容来源与真实性联盟)是一个由Adobe、微软、OpenAI等巨头支持的标准,它通过在图片中嵌入加密元数据来标记内容的来源,相当于AI的“防伪身份证”。理论上,任何由GPT-image-2生成的图片都应该包含C2PA凭证,任何人都可以打开图片的元数据查看。
然而,研究者下载了所有图片,仔细检查了EXIF、XMP和C2PA标记,结果是一无所获!每一张从推特API下载的图片都是赤裸裸的JPEG,没有任何元数据。这意味着什么?推特的CDN(内容分发网络)在上传图片时,直接杀死所有嵌入的元数据——这是系统性的破坏!无论你是什么模型生成的图片,只要经过推特平台,C2PA信誉就彻底失效。
这一发现对整个AI图像溯源领域是沉重一击。很多依赖C2PA进行检测和归属的方案,在实际社交媒体部署中完全失效。幸运的是,推特自己推出了“Made with AI”徽章,这是一个平台内部的前端信号,但只能通过手动打开网页查看,无法通过API批量获取——而且创作者可以自行选择是否显示(或者在上传后标签才被应用),可靠性也有限。
为了验证这个结论,研究者做了两个实验:一是下载所有不确定性图片的原始文件,通过Hex编辑器查看是否包含任何元数据残留,结果没有。二是用Playwright自动化浏览器直接打开每条推文的网页,检查是否存在“Made with AI”徽章。在约21,500条成功加载的推文中,53.7%带有徽章——说明平台还是有能力识别一部分AI图片,但它的触发机制(可能是基于上传时的元数据或用户举报)并不完美。
这个结果也解释了为什么本研究必须依靠多语言文本启发式方法:在平台级元数据被破坏的情况下,唯一可行的AI图片溯源通道就是用户自报的“创作语言”。

首份野生数据集,为AI检测研究铺路

总结一下:这个GPT-Image-2推特数据集是第一个专门针对GPT-image-2的公开野生数据集,包含了10,217张经过高置信度验证的图片,收集自模型发布后一周内(2026年4月21-26日)的推特。
研究者在实验中用CLIP对图像进行了语义聚类,发现137个不同的视觉聚类,进一步证明了数据集的多样性。他们还展示了这些集群的代表性图片:动漫群体场景、排版海报、插画人物、逼真肖像等。
图10:CLIP ViT-L/14嵌入的UMAP投影,按HDBSCAN聚类分配(左)和按推文语言(右)着色。从10,217张图片中涌现出137个聚类;33.2%被归类为噪声,反映了真实的视觉异质性。
这个数据集的最大价值在于:它提供了实验室条件下无法复制的真实分布——包括普通的创意提示、非专业用户的美学选择、以及社交媒体上的社区互动背景(语言、标签、评论等)。对于训练和测试AI生成图像检测模型来说,这是最接近实战场景的数据。
同时,研究也暴露出一个尴尬的现实:C2PA这种顶层设计在社交媒体平台上根本玩不转——平台为了压缩图片、节省带宽,毫不留情地清除元数据。未来AI图像溯源必须寻找新的路径,比如基于图像内容本身的指纹(如模型的频谱特征)或者平台级别的徽章系统。
图12:所有10,217张确认图片的宽高比分布(左)和原生分辨率分解(右)。肖像(竖屏)占多数(53.5%)。“其他”分辨率反映了推特CDN上传时的重采样。

龙迷三问

下面是龙哥对于大家可能的一些问题的解答:

Q1:这篇论文解决什么问题?A1:这篇论文解决了AI图像检测领域的一个关键缺口——缺少真实世界中的GPT-image-2图像数据集。作者构建并公开了第一个GPT-image-2推特数据集(10,217张),并详细描述了收集和筛选方法,为后续的AI生成图像检测模型训练与测试提供了宝贵的基准数据。

Q2:C2PA是什么意思?为什么重要?A2:C2PA全称Coalition for Content Provenance and Authenticity(内容来源与真实性联盟),是一个行业标准,通过在图片中嵌入加密元数据来证明其来源(比如“此图由GPT-image-2生成”)。它相当于数字内容的“防伪标签”,理论上可以让任何用户验证图片是否AI生成。但论文发现,推特的上传系统会清除所有元数据,导致C2PA在社交媒体上完全失效。

Q3:为什么数据集只有一万多张?模型发布第一周用户创作应该很多吧?A3:其实作者通过多语言关键词捞到了14,154张经过过滤的图片,但其中只有约30%能通过文本明确确认为GPT-image-2生成。其余70%是“沉默创作者”——他们上传了图片但没有写任何“用XX模型生成”的文字。即使使用浏览器自动化检查“Made with AI”徽章,也只能额外确认一部分。另外,推特API的近期搜索端点只能访问7天数据,且不是索引所有推文,所以实际容量受限于搜索索引覆盖范围。所以这10,217张已经是最大努力下的高置信度集合了。

如果你还有哪些想要了解的,欢迎在评论区留言或者讨论~

龙哥点评

论文创新性:★★★✰✰

首个GPT-image-2野生数据集,收集方法实用有效,但技术上没有突破性创新,属于工程贡献型。

实验合理度:★★★★✰

多阶段筛选设计合理,Playwright验证“Made with AI”徽章是亮点。但缺乏人工标注评估确认率,依赖规则可能漏掉部分真实AI图片。

学术研究价值:★★★★✰

对AI图像检测、深度伪造溯源、社交媒体元数据生态等方向均有重要参考价值。特别是揭示了C2PA在真实平台上的失效,给社区敲响警钟。

稳定性:★★★★✰

数据集本身是静态的,稳定可用。但收集方法依赖推特API(可能随时变化),以及推特平台对“Made with AI”徽章的标注策略,具有一定时效性。

适应性以及泛化能力:★★★★✰

方法可迁移到其他AI模型(如Midjourney v7、DALL·E 4等)发布初期的数据收集,适应性强。但需要根据模型名称和创作语言调整查询。

硬件需求及成本:★★★★★

主要花费是推特API的Basic tier(0.005美元/次),以及Playwright浏览器自动化(免费)。总成本低,不需要GPU。

复现难度:★★★✰✰

代码已公开,但需要推特开发者账号、API密钥,并且Playwright脚本需要处理推特登录/反爬机制,有一定门槛。

产品化成熟度:★★★✰✰

数据集可直接用于检测模型训练/评测。但需要用户自行清洗和适配,且仅覆盖英文、日文、中文三个语种,图片数量1万张对于大规模训练略少。

可能的问题:数据集仅依赖用户自报行为,存在报告偏倚(过度代表愿意公开标注的创作者)。此外,40%+英语、30%+日语的语言分布可能限制模型对其它语言区域的泛化。C2PA失效的发现虽然惊人,但只验证了推特一个平台,对其它社交媒体的适用性未知。

主要参考文献

[1] Z. J. Wang et al., “DiffusionDB: A large-scale prompt gallery dataset for text-to-image generative models,” ACL 2023.
[2] M. Zhu et al., “GenImage: A million-scale benchmark for detecting AI-generated image,” NeurIPS 2023.
[3] Coalition for Content Provenance and Authenticity, “C2PA technical specification, version 2.1,” 2024.
[4] 原文链接:https://arxiv.org/pdf/2604.25370v1.pdf

*本文仅代表个人理解及观点,不构成任何论文审核或者项目落地推荐意见,具体以相关组织评审结果为准。欢迎就论文内容交流探讨,理性发言哦~ 想了解更多原文细节的小伙伴,可以点击左下角的“阅读原文”,查看更多原论文细节哦!


🐱 想第一时间Get到这种硬核又“八卦”AI圈的事?
欢迎加入龙哥读论文粉丝群,扫描下方二维码或者添加龙哥助手微信号加群:kangjinlonghelper。一定要备注:研究方向+地点+学校/公司+昵称(如 图像处理+上海+清华+龙哥),根据格式备注,可更快被通过且邀请进群。

『龙哥读论文』微信群目前包含:图像处理、大模型及智能体、自动驾驶及机器人、AI医疗及AI金融5个群,等你来撩~