一个高中生用AI重新扫描太空历史大数据,找到150万个未知天体
旧数据不是过期罐头
这事儿其实挺有意思的,NASA的数据库里存着近2000亿条观测记录,专业天文学家前前后后分析了十几年,都觉得这片星空已经被翻得差不多了,没什么新东西了。然后,一个叫马特·帕兹的美国高中生,写了一套AI程序,把这堆数据重新扒了一遍,愣是从里头揪出来差不多150万个从来没被认出来的变化天体。这事发生在2022到2024年,成果发表在《天文学杂志》,主角帕兹因此拿了2025年再生元科学人才竞赛的头奖,奖金25万美元。听上去像个典型的天才少年故事,对吧?但是你要是细想一下,就会发现这个故事的重心其实不在那个高中生身上,而是在那堆数据身上。

NASA的NEOWISE任务,本来是用来找近地小行星的红外望远镜,但它顺手也拍下了无数遥远天体的红外信号,包括亮度会变化的变星、正在爆炸的超新星,还有互相遮掩的食双星系统。这些数据老老实实地被记录了下来,十年半的时间里攒了将近200TB,差不多是20万GB的量。问题出在这个体量上,NEOWISE单次曝光数据库的探测条目接近2000亿行,这个数字意味着什么呢?意味着就算你想手动检查天空里一小块地方,速度都慢得绝望。加州理工学院红外处理与分析中心的天文学家戴维·柯克帕特里克后来说,团队的测量数据“已经接近2000亿行”,常规的分析手段面对这种规模的东西几乎是无从下手。帕兹当时正好是柯克帕特里克带的暑期项目学员,他们面对的是一个特别经典的现代科学困境:数据不缺,缺的是能以合理速度理解数据的工具。
扒开那堆没人看的档案
帕兹的解决方案是建了一套他命名为VARnet的AI系统。这套系统的工作原理是接收一条光变曲线,就是某个天体亮度随时间变化的记录,然后通过小波分解和基于傅里叶变换的特征提取,把这条曲线拆解成不同时间尺度上的变化模式,最后交给神经网络判断这种变化是真实的天文信号,还是随机噪声。在技术指标上,VARnet处理每个数据源的时间低于53微秒,在四类变星的分类测试中,F1分数达到了0.91,就是说它能以相当高的准确率区分类星体、超新星残骸、脉动变星和食双星这些不同类型的变化天体。正是这套系统,让帕兹能在NEOWISE的海量档案里完成了一次前所未有的全面扫描,最后整理出一份包含约190万个红外变星的星表,里头大约150万个是以前从来没被记录在案的新发现。

这个故事最容易让人误读的地方,就是把它当成一个“天才少年”的励志叙事。但是更值得关注的,其实是它暴露出来的那个科学问题:大量有价值的数据正在天文档案里默默等着,只是因为缺合适的分析工具,它们的潜力从来没被完整释放过。帕兹的项目本质上不是在寻找新的天体,那些天体一直都在,NEOWISE已经“看”到了它们,只是没有人有办法在合理时间里,从那2000亿行记录里把它们一个一个挑出来。这在当代天文学里不是孤例,随着新一代巡天望远镜和空间任务上线,天文数据的产生速度已经远远超过了人类手动分析的极限。正在建的薇拉·鲁宾天文台预计每晚会产生约20TB的观测数据,每年识别数百亿个天体,这个量级的数据处理几乎从一开始就注定得依赖机器学习。
那些被尘埃盖住的角落
帕兹的VARnet还有一个被低调提及的优势:它在“被尘埃遮蔽”的天区同样有效,而这些区域恰恰是传统光学巡天的盲区,因为可见光没法穿透浓密的星际尘埃,但红外线可以。这意味着这份新星表里,包含了相当数量来自银河系尘埃遮蔽区域的天体,那是一片以前几乎从来没被系统性研究过的天文领土。帕兹自己在描述这项研究时说过,类似的时间序列分析方法,如果配上合适的传感器,同样可以用来检测大气污染这些环境数据里的周期性模式,因为季节和昼夜循环会在这些数据里留下可识别的规律性特征。一个高中生从一堆“已经研究过”的旧数据里挖出了150万个没人见过的宇宙天体,这件事最大的启示,也许不是关于这个孩子有多聪明,而是关于我们手边到底还藏着多少没被认真看过的东西。

**小贴士:NEOWISE(近地天体广域红外巡天探测器)是NASA一个专门搜寻可能威胁地球的近地天体(比如小行星和彗星)的空间望远镜项目。它2009年发射,原本任务叫WISE(广域红外巡天探测器),主要工作是测绘整个天空的红外图像。
2013年重启后改名为NEOWISE,转向专注搜寻和表征近地天体,但它持续的红外观测也在无意中积累了海量的天体亮度变化数据,成了后续研究的宝贵档案。这些档案数据对公众开放,但体量太大,常规分析很难覆盖全面,这正是AI工具能发挥作用的地方。**
感谢阅读,欢迎点赞、收藏或分享
夜雨聆风