AI加速造假,信源优先失效?给情报从业者的四道“防污染”防线

上周谷歌威胁情报小组发了份报告，首次确认有攻击者用AI生成了零日漏洞利用代码，还拿去实战了。这段代码针对一款流行的开源Web管理工具，绕过了双因素认证。

这事在安全圈炸了锅，各种分析满天飞。但我不想再写一篇安全视角的解读，网上已经够多了。我想说另一个角度——AI在加速信息生产这件事，对搞科研情报搜集的人到底意味着什么。

先理一下这个事

5月11日谷歌GTIG的报告，核心信息就几条：

攻击者用AI生成了一段Python零日漏洞利用代码，代码结构非常"教科书式"，带着教学性质的文档字符串，甚至编了一个CVSS评分。
漏洞本身是高层语义逻辑缺陷——不是那种模糊测试跑出来的内存问题，而是AI擅长发现的那种"逻辑上的不合理"。
多个APT组织（APT27、APT45等）已经在批量用AI辅助做漏洞发现和利用开发。
俄罗斯那边用AI语音克隆冒充记者做虚假视频。

你看，这里有个共同点：AI正在让"生产看起来专业的内容"这件事变得非常便宜。 不管是漏洞代码、分析报告还是新闻视频。

这才是科研情报搜集者该担心的

我做开源信息采集做了十来年，服务的主要是科研院所、军工单位、高校这些客户。他们日常干的事情是：从国内外政府机构官网、实验室网站、大学发布平台、企业公告、法律法规数据库、论文库、行业媒体这些地方搜集信息，然后整理、分析、写报告。

这些工作有一个隐含前提——你采集到的信息，大部分是"真人写的、机构发的"，可信度有基本保障。

但AI正在动摇这个前提。

第一，专业信息的"伪造门槛"在急速降低。

以前你能相信一篇IEEE论文、一份兰德智库报告、一个政府机构公告，是因为这些东西的生产成本很高——需要专业知识、需要时间、需要机构背书。但AI已经能生成看起来非常专业的技术分析了，带数据、带引用、带逻辑推导，外行人根本看不出问题。

我前几天翻某个领域的研究动态，看到一篇英文的技术分析文章，写得有板有眼，引用了三篇论文，还有数据图表。仔细一查，那三篇论文一篇不存在，两篇跟结论没太大关系。整篇文章大概率是AI生成的，但发布在一个看起来挺正规的行业博客上。

这种事以后只会越来越多。对我们搞采集的人来说，以前"采集到"约等于"可信"，现在不行了。

第二，信息量在膨胀，但你真正需要的信息并没有变多。

AI不只是生成假信息，它也在大量生成"看起来有用但其实没新意"的内容。很多行业媒体、研究机构的官方账号，现在都在用AI辅助生成日常动态、简报、周报。这些内容不是假的，但属于"稀释型信息"——把已有信息换了个说法重新包装一遍，没有新增任何洞察。

打个比方，以前你采集某个技术领域，一天能采集到30篇有价值的信息，现在一天可能采集到300篇，但真正有新意的可能还是30篇甚至更少。你的筛选成本在暴增。

我们有个客户是做航空领域的，之前他们研究员每天花两个小时看采集回来的信息就够了，现在信息量翻了好几倍，但说"有用的反而更难找"。

第三，多语种信息的验证难度在加大。

这个我们感触特别深。很多科研单位需要跟踪境外信息——俄罗斯的实验室动态、日本的产业政策、德国的研究机构发布。以前多语种信息至少有个"语言壁垒"在那里，你能采集到，但得靠翻译和分析人员来判断内容。

现在大模型翻译质量上来了，采集系统能自动翻译几十种语言，这在效率上是好事。但问题是：你翻译过来之后，对一个你完全不熟悉的语言环境的原始信息，怎么验证它是不是靠谱？一个俄文的"技术简报"，翻译成中文之后看着挺专业，但你怎么知道它是不是某个俄罗斯自媒体用AI生成的？

语言障碍消除了，但验证障碍还在。

怎么应对？说几个实际的，也是我们每天在做的事。几点经验：

坚持"认机构不认内容"。

一条信息可不可信，最简单的办法是看它从哪来的。政府机构官网发的公告、大学实验室发布的研究成果、国际组织的技术白皮书——这些"机构发布"的信息，因为发布者有声誉风险，可信度天然更高。

反过来，行业博客、自媒体号、某些看起来专业但机构背景不明的网站，信息质量就参差不齐。不是说这些渠道没有好内容，而是需要更多交叉验证。

我们给客户配置采集源的时候，第一优先级永远是官方发布渠道——.gov、.edu、机构官网、正规期刊库。这些是"锚点"，其他渠道的信息用来补充和验证。

给信息源建档案，而不是简单堆链接。

很多人做信息搜集就是存一批网址，定期去看。这不够。你需要对你用的每个信息源有个基本判断：这个网站是谁运营的？更新频率？历史上有没有发布过不实信息？被引用的情况怎么样？

比如我们做军工领域采集的时候，对每个核心网站都有记录——这个网站是哪个机构的、采集稳定性怎么样、信息质量如何。如果一个网站连续两周采集不到新内容，要么是网站结构变了，要么是它本身就不活跃了，需要及时处理。

这个工作很枯燥，但没有捷径。信息源的质量决定了后面所有工作的上限。

善用交叉验证，特别是跨语言的。

一个技术动态，如果同时被英文源和俄文源报道，且内容可以互相印证，那可信度就高不少。如果某个消息只在单一语言环境出现，其他语言环境完全没有相关报道，那就要小心了。

比如之前有个关于某国高超音速武器的"技术突破"，只在某几个俄文小众网站上报道，英文主流媒体和学术圈没有任何讨论。后来证实那个"突破"是被夸大的。

跨语言交叉验证的前提是你得有足够多的多语种信源。这一块我们积累了不少，境外各类专业网站的配置和维护是持续在做的事情。

对AI生成的内容保持警觉，但不必恐慌。

AI生成的信息有几个常见特征：结构完美、不会有错词语法问题等、缺乏具体细节、引用文献查不到、观点过于平衡中立（没有明显立场）等等。但这也不是绝对的，随着技术发展以后AI肯定会越来越会"伪装"。

所以核心还是回到上面说的——信源优先。只要信息来自可信的机构渠道，内容是不是AI辅助生成的其实没那么重要。关键是不要被"看起来专业但来源不明"的东西蒙了。

最后说两句

AI生成零日漏洞这事，本质上是AI降低"专业内容生产门槛"的一个极端案例。在安全领域，它降低了攻击门槛；在科研情报领域，它降低了"伪造专业信息"的门槛。

但反过来说，AI也在降低"验证信息"的门槛——自动翻译、智能摘要、实体抽取、关系提取等这些能力，让我们能更快地处理和交叉验证信息。工具是中性的，关键看怎么用。

做了这么多年采集，我们最大的经验就一条：信源是根基，验证是底线，效率是锦上添花。 没有好的信源和严谨的验证，再先进的工具也白搭。这也是我们一直坚持维护数万个经过验证的专业信息源的原因，这个活虽然笨，但省不了。

更多热门阅读

【开源情报系统介绍】开源情报搜集系统：科研创新的强大引擎

【情报系统应用案例】案例视角下的开源情报搜集系统应用实践

【大模型的应用】大模型在开源情报搜集系统中的应用汇总

【情报系统构建】不止于“爬”：如何构建真正可靠的情报采集系统

【易海聚系统介绍】易海聚科研开源情报系统介绍

—————————————————————

易海聚：信息搜集，信息整合，信息分析！

业务咨询、技术交流合作请联系：