OpenAI发布GPT-Image-2才一周,野生AI图片数据集就被挖出来了!-夜雨聆风

OpenAI发布GPT-Image-2才一周,野生AI图片数据集就被挖出来了!

🐉 龙哥读论文知识星球来了！
想看这种深入一线的“野采”论文拆解？星球无上限更新AI数据集、模型、招聘资讯，一个星球搞定所有AI前沿干货！👇扫码加入「龙哥读论文」知识星球，跟一群有趣的灵魂一起冲浪AI最前线～

龙哥推荐理由：
这篇文章看似是一份AI数据集论文，但它更像一份“AI侦探工作手册”。在OpenAI发布GPT-Image-2的“黄金周”里，作者们如何通过推特API、多语言关键词和自动浏览器脚本，在第一时间“捕捞”到第一批野生AI图片，并发现了一个让人吃惊的事实——平台悄悄抹掉了所有AI的“身份证”。对于AI安全、深度伪造检测、图像取证的从业者来说，这绝对是教科书级别的实战案例。

原论文信息如下：

论文标题:
GPT-Image-2 in the Wild: A Twitter Dataset of Self-Reported AI-Generated Images from the First Week of Deployment

发表日期:
2026年4月

发表单位:
Scam.ai (Kidus Zewde, Simiao Ren 等)

原文链接:
https://arxiv.org/pdf/2604.25370v1.pdf

GPT-image-2来啦，但它的“野生”数据去哪了？

2026年4月21日，OpenAI悄悄放出了GPT-image-2——这个能生成以假乱真照片、还能写出多国文字的新模型。一时间，推特上涌出了海量用户创作的图片：有人用它画动漫，有人生成产品海报，有人搞出逼真的人像，还有人整出了带文字的复杂信息图表。这些“野生”的AI图片，就像刚出笼的小鸟，满世界飞，但问题来了：谁来记录它们？谁来研究它们？

以往学术界手头的AI图像数据集，要么是实验室里用API批量生成的（比如DiffusionDB、GenImage），要么是从Discord服务器上爬来的（比如Stable Diffusion的prompt数据集）。但这些数据有一个致命伤：它们不“野生”。实验室数据集里的prompt通常是简洁规范的，主题经过挑选，场景相对单一。可推特上的真实用户可就随性多了：有人让GPT-image-2生成“正在吃面的猫娘”，有人要求“在火星上开奶茶店的海报”，还有直接贴出“帮我做一张刘德华和马斯克握手的电影海报”——这些奇葩组合才是现实中AI图像消费的主流。

于是，Kidus Zewde、Simiao Ren等一帮来自Scam.ai和安全领域的研究者决定做一件很“野”的事：在模型发布后的第一时间，用推特API疯狂抓取，然后从数十万条推文中“淘金”，建一个专门针对GPT-image-2的野生数据集。这个数据集最终包含10,217张经过多重验证的AI图片，并且公开了所有代码。更让人拍大腿的是，他们发现了一个惊人的事实：推特的上传会直接把AI的“身份证”（C2PA元数据）撕得粉碎！

图1：GPT-Image-2推特数据集中的30张样本图片，展示了内容的广度：动漫插画、逼真肖像、文字密集型信息图、奇幻场景、产品模型图、食物、自然和建筑。

七天生效！如何用API挖到第一批AI图片？

数据收集的时间窗口极其短暂。推特API v2的“近期搜索”端点只允许访问过去7天内的推文，而模型发布日期是4月21日。研究者必须在4月21日至26日这6天内完成所有抓取——晚一天，第一波最原始、最真实的创作热潮就会永远消失在线。为此他们采用了付费的Basic级别服务（每读一条推文收费0.005美元），配合has:images -is:retweet过滤器，只抓取带图片的原创推文。

查询设计的关键在于：要精准找到那些明确说自己“用GPT-image-2生成了图片”的推文，而不是那些仅仅讨论模型或者转发的广告。研究者设计了一套多语言“创作语言”查询，覆盖英语、日语、中文。例如，英语使用“made with”、“created by”、“prompt:”等信号；日语针对“で生成”（生成自）和“作ってみた”（试着做了）；中文使用“提示词”和“生成的”。此外，他们还加入了一个纯Hashtag查询（#GPTImage2），虽然数量少但确认率极高。

表1：收集使用的查询类型及其图片产量和确认率。

从表1可以看到，Hashtag查询的确认率高达94%，但数量只有1314张；而英文创作语言查询贡献了最大的原始量（13508张），确认率44%。总体来看，在14,154张过滤后的图片中，最终只有30.9%能被明确确认。其余都是只提了模型名但没有明确“生成”语言的“沉默创作者”——这些人占了绝大多数。

图2：端到端收集与筛选流水线（从左到右）。第一阶段移除非照片媒体和下载失败；第二阶段应用多语言文本启发式分类得到三个类别。不确定推文进一步通过Playwright/Chromium浏览器自动化检查推特“Made with AI”标签，额外得到4750张标签确认的图片。

整个收集过程就是一场与时间的赛跑。研究者的策略很简单：先用多语言关键词捞一把大的，然后通过一系列规则把“疑似AI”和“确认AI”分开。但最大的问题在于：如何从那些没有写“用GPT-image-2生成”的推文中挖出真金？

智慧筛选：多语言“侦探”如何锁定真实AI图片？

第一阶段只是简单粗暴地过滤掉非图片媒体（视频缩略图、GIF）和下载失败的记录，剩下26,515张照片记录。第二阶段才是真正的“侦探工作”：研究者设计了一套基于规则的文本分类器，为每张图片分配三个标签之一——确认、拒绝或不确定。

确认条件：推文文本同时包含明确的创作语言（如“made with”、“created by”、“generated by”、“prompt:”）以及可识别的模型名变体（GPTImage2, GPT-image-2等）。日语加上了“生成”和“作ってみた”，中文加上了“提示词”和“生成的”。AI艺术标签（#AIart、#AIイラスト）作为弱确认信号。

拒绝条件：出现比较语言（“vs”某个竞品）、提到三个及以上不同AI工具、或者发布公告式用语（“released”、“now available”）。

不确定类：所有剩余记录。这是最大的一类，约占67%。

表2：第二阶段分类结果（去重后的唯一图片记录）。通过Playwright检查更广泛的不确定池（约21,500条）包括来自完整26,515条记录的未去重记录。

表2显示，明确确认的只有4,187张，拒绝的只有396张，剩下的9,571张都是不确定的。作者并没有放弃这些不确定的推文，而是做了一件更妙的事：利用Playwright（浏览器自动化工具）自动打开每条不确定的推文网页，查看推特官方渲染的“Made with AI”徽章——这是模型发布后推特平台自动为AI生成图片打上的标签。结果发现，在约21,500条检查过的推文中，有53.7%实际上带着“Made with AI”徽章！这相当于从不确定池中又挖出了4,750张确凿的AI图片。

经过这一整套组合拳，最终的高置信度数据集包含10,217张图片。这些图片的语言分布也非常有趣：英语占40.3%，日语占32.8%，中文占19.2%——GPT-image-2在多国文字渲染上的优势吸引了大量非英语用户。

表3：确认图片的语言分布（lang字段）。

惊人发现：训练数据中82%都带字！

数据收集完了，研究者迫不及待地对这10,217张图片进行了一波视觉内容分析。他们用CLIP ViT-L/14（一种多模态视觉语言模型）进行零样本分类，把图片归入8个粗略的内容类别。结果令人震惊：文字图形类内容占到了33.2%，成为第一大类别！这包括海报、信息图、排版插图——显然用户们迫不及待地想测试GPT-image-2的文本生成能力。其次是奇幻/超现实场景（24.9%）和逼真肖像（14.2%）。动漫插画占10.9%（主要由日语创作者贡献），产品可视化/UI设计占9.8%——说明模型发布第一周就已经有专业用户开始试用了。

图4：通过CLIP零样本分类得到的10,217张图片的主题分布。文字图形内容占主导；奇幻/超现实和逼真肖像紧随其后。

更具体地，研究者用OCR（光学字符识别）检测文字，结果发现82.0%的图片都包含可读的文字，平均每张文字图片上有29个检测到的文字区域！四分之三以上的图片带文字，这在以往的任何AI图像数据集中都极为罕见。无论是海报、信息图，还是带有标题的插画，GPT-image-2的文字生成能力是用户最愿意分享的功能点。

图6：10,217张确认图片中的文字存在情况。超过五分之四（82.0%）包含机器可读文字，反映了GPT-image-2强大的文字渲染能力。

人脸检测方面，59.2%的图片至少包含一张人脸（总共22,583张人脸），其中男性比例53.4%，女性46.6%，平均估计年龄42.3岁。但作者特别提醒：由于10.9%的图片是动漫风格，人脸检测模型可能在这些非逼真图像上存在偏差，这些人口统计数字不应被理解为反映真实个体。

图8：10,217张确认图片中的人脸数量分布（左）、性别比例（中）和估计年龄直方图（右）。59.2%的图片包含至少一张人脸（共22,583张人脸）。

平台“叛变”？C2PA元数据为何全部消失？

这部分是整篇论文最令人“心碎”的发现。C2PA（Coalition for Content Provenance and Authenticity，内容来源与真实性联盟）是一个由Adobe、微软、OpenAI等巨头支持的标准，它通过在图片中嵌入加密元数据来标记内容的来源，相当于AI的“防伪身份证”。理论上，任何由GPT-image-2生成的图片都应该包含C2PA凭证，任何人都可以打开图片的元数据查看。

然而，研究者下载了所有图片，仔细检查了EXIF、XMP和C2PA标记，结果是一无所获！每一张从推特API下载的图片都是赤裸裸的JPEG，没有任何元数据。这意味着什么？推特的CDN（内容分发网络）在上传图片时，直接杀死所有嵌入的元数据——这是系统性的破坏！无论你是什么模型生成的图片，只要经过推特平台，C2PA信誉就彻底失效。

这一发现对整个AI图像溯源领域是沉重一击。很多依赖C2PA进行检测和归属的方案，在实际社交媒体部署中完全失效。幸运的是，推特自己推出了“Made with AI”徽章，这是一个平台内部的前端信号，但只能通过手动打开网页查看，无法通过API批量获取——而且创作者可以自行选择是否显示（或者在上传后标签才被应用），可靠性也有限。

为了验证这个结论，研究者做了两个实验：一是下载所有不确定性图片的原始文件，通过Hex编辑器查看是否包含任何元数据残留，结果没有。二是用Playwright自动化浏览器直接打开每条推文的网页，检查是否存在“Made with AI”徽章。在约21,500条成功加载的推文中，53.7%带有徽章——说明平台还是有能力识别一部分AI图片，但它的触发机制（可能是基于上传时的元数据或用户举报）并不完美。

这个结果也解释了为什么本研究必须依靠多语言文本启发式方法：在平台级元数据被破坏的情况下，唯一可行的AI图片溯源通道就是用户自报的“创作语言”。

首份野生数据集，为AI检测研究铺路

总结一下：这个GPT-Image-2推特数据集是第一个专门针对GPT-image-2的公开野生数据集，包含了10,217张经过高置信度验证的图片，收集自模型发布后一周内（2026年4月21-26日）的推特。

研究者在实验中用CLIP对图像进行了语义聚类，发现137个不同的视觉聚类，进一步证明了数据集的多样性。他们还展示了这些集群的代表性图片：动漫群体场景、排版海报、插画人物、逼真肖像等。

图10：CLIP ViT-L/14嵌入的UMAP投影，按HDBSCAN聚类分配（左）和按推文语言（右）着色。从10,217张图片中涌现出137个聚类；33.2%被归类为噪声，反映了真实的视觉异质性。

这个数据集的最大价值在于：它提供了实验室条件下无法复制的真实分布——包括普通的创意提示、非专业用户的美学选择、以及社交媒体上的社区互动背景（语言、标签、评论等）。对于训练和测试AI生成图像检测模型来说，这是最接近实战场景的数据。

同时，研究也暴露出一个尴尬的现实：C2PA这种顶层设计在社交媒体平台上根本玩不转——平台为了压缩图片、节省带宽，毫不留情地清除元数据。未来AI图像溯源必须寻找新的路径，比如基于图像内容本身的指纹（如模型的频谱特征）或者平台级别的徽章系统。

图12：所有10,217张确认图片的宽高比分布（左）和原生分辨率分解（右）。肖像（竖屏）占多数（53.5%）。“其他”分辨率反映了推特CDN上传时的重采样。

龙迷三问

下面是龙哥对于大家可能的一些问题的解答：

Q1：这篇论文解决什么问题？A1：这篇论文解决了AI图像检测领域的一个关键缺口——缺少真实世界中的GPT-image-2图像数据集。作者构建并公开了第一个GPT-image-2推特数据集（10,217张），并详细描述了收集和筛选方法，为后续的AI生成图像检测模型训练与测试提供了宝贵的基准数据。

Q2：C2PA是什么意思？为什么重要？A2：C2PA全称Coalition for Content Provenance and Authenticity（内容来源与真实性联盟），是一个行业标准，通过在图片中嵌入加密元数据来证明其来源（比如“此图由GPT-image-2生成”）。它相当于数字内容的“防伪标签”，理论上可以让任何用户验证图片是否AI生成。但论文发现，推特的上传系统会清除所有元数据，导致C2PA在社交媒体上完全失效。

Q3：为什么数据集只有一万多张？模型发布第一周用户创作应该很多吧？A3：其实作者通过多语言关键词捞到了14,154张经过过滤的图片，但其中只有约30%能通过文本明确确认为GPT-image-2生成。其余70%是“沉默创作者”——他们上传了图片但没有写任何“用XX模型生成”的文字。即使使用浏览器自动化检查“Made with AI”徽章，也只能额外确认一部分。另外，推特API的近期搜索端点只能访问7天数据，且不是索引所有推文，所以实际容量受限于搜索索引覆盖范围。所以这10,217张已经是最大努力下的高置信度集合了。

如果你还有哪些想要了解的，欢迎在评论区留言或者讨论~

龙哥点评

论文创新性：★★★✰✰

首个GPT-image-2野生数据集，收集方法实用有效，但技术上没有突破性创新，属于工程贡献型。

实验合理度：★★★★✰

多阶段筛选设计合理，Playwright验证“Made with AI”徽章是亮点。但缺乏人工标注评估确认率，依赖规则可能漏掉部分真实AI图片。

学术研究价值：★★★★✰

对AI图像检测、深度伪造溯源、社交媒体元数据生态等方向均有重要参考价值。特别是揭示了C2PA在真实平台上的失效，给社区敲响警钟。

稳定性：★★★★✰

数据集本身是静态的，稳定可用。但收集方法依赖推特API（可能随时变化），以及推特平台对“Made with AI”徽章的标注策略，具有一定时效性。

适应性以及泛化能力：★★★★✰

方法可迁移到其他AI模型（如Midjourney v7、DALL·E 4等）发布初期的数据收集，适应性强。但需要根据模型名称和创作语言调整查询。

硬件需求及成本：★★★★★

主要花费是推特API的Basic tier（0.005美元/次），以及Playwright浏览器自动化（免费）。总成本低，不需要GPU。

复现难度：★★★✰✰

代码已公开，但需要推特开发者账号、API密钥，并且Playwright脚本需要处理推特登录/反爬机制，有一定门槛。

产品化成熟度：★★★✰✰

数据集可直接用于检测模型训练/评测。但需要用户自行清洗和适配，且仅覆盖英文、日文、中文三个语种，图片数量1万张对于大规模训练略少。

可能的问题：数据集仅依赖用户自报行为，存在报告偏倚（过度代表愿意公开标注的创作者）。此外，40%+英语、30%+日语的语言分布可能限制模型对其它语言区域的泛化。C2PA失效的发现虽然惊人，但只验证了推特一个平台，对其它社交媒体的适用性未知。

主要参考文献

[1] Z. J. Wang et al., “DiffusionDB: A large-scale prompt gallery dataset for text-to-image generative models,” ACL 2023.

[2] M. Zhu et al., “GenImage: A million-scale benchmark for detecting AI-generated image,” NeurIPS 2023.

[3] Coalition for Content Provenance and Authenticity, “C2PA technical specification, version 2.1,” 2024.

[4] 原文链接：https://arxiv.org/pdf/2604.25370v1.pdf

*本文仅代表个人理解及观点，不构成任何论文审核或者项目落地推荐意见，具体以相关组织评审结果为准。欢迎就论文内容交流探讨，理性发言哦～想了解更多原文细节的小伙伴，可以点击左下角的“阅读原文”，查看更多原论文细节哦！

🐱 想第一时间Get到这种硬核又“八卦”AI圈的事？
欢迎加入龙哥读论文粉丝群，扫描下方二维码或者添加龙哥助手微信号加群：kangjinlonghelper。一定要备注：研究方向+地点+学校/公司+昵称（如图像处理+上海+清华+龙哥），根据格式备注，可更快被通过且邀请进群。

『龙哥读论文』微信群目前包含：图像处理、大模型及智能体、自动驾驶及机器人、AI医疗及AI金融5个群，等你来撩～