一个高中生用AI重新扫描太空历史大数据,找到150万个未知天体

一个高中生用AI重新扫描太空历史大数据，找到150万个未知天体

旧数据不是过期罐头

这事儿其实挺有意思的，NASA的数据库里存着近2000亿条观测记录，专业天文学家前前后后分析了十几年，都觉得这片星空已经被翻得差不多了，没什么新东西了。然后，一个叫马特·帕兹的美国高中生，写了一套AI程序，把这堆数据重新扒了一遍，愣是从里头揪出来差不多150万个从来没被认出来的变化天体。这事发生在2022到2024年，成果发表在《天文学杂志》，主角帕兹因此拿了2025年再生元科学人才竞赛的头奖，奖金25万美元。听上去像个典型的天才少年故事，对吧？但是你要是细想一下，就会发现这个故事的重心其实不在那个高中生身上，而是在那堆数据身上。

NASA的NEOWISE任务，本来是用来找近地小行星的红外望远镜，但它顺手也拍下了无数遥远天体的红外信号，包括亮度会变化的变星、正在爆炸的超新星，还有互相遮掩的食双星系统。这些数据老老实实地被记录了下来，十年半的时间里攒了将近200TB，差不多是20万GB的量。问题出在这个体量上，NEOWISE单次曝光数据库的探测条目接近2000亿行，这个数字意味着什么呢？意味着就算你想手动检查天空里一小块地方，速度都慢得绝望。加州理工学院红外处理与分析中心的天文学家戴维·柯克帕特里克后来说，团队的测量数据“已经接近2000亿行”，常规的分析手段面对这种规模的东西几乎是无从下手。帕兹当时正好是柯克帕特里克带的暑期项目学员，他们面对的是一个特别经典的现代科学困境：数据不缺，缺的是能以合理速度理解数据的工具。

扒开那堆没人看的档案

帕兹的解决方案是建了一套他命名为VARnet的AI系统。这套系统的工作原理是接收一条光变曲线，就是某个天体亮度随时间变化的记录，然后通过小波分解和基于傅里叶变换的特征提取，把这条曲线拆解成不同时间尺度上的变化模式，最后交给神经网络判断这种变化是真实的天文信号，还是随机噪声。在技术指标上，VARnet处理每个数据源的时间低于53微秒，在四类变星的分类测试中，F1分数达到了0.91，就是说它能以相当高的准确率区分类星体、超新星残骸、脉动变星和食双星这些不同类型的变化天体。正是这套系统，让帕兹能在NEOWISE的海量档案里完成了一次前所未有的全面扫描，最后整理出一份包含约190万个红外变星的星表，里头大约150万个是以前从来没被记录在案的新发现。

这个故事最容易让人误读的地方，就是把它当成一个“天才少年”的励志叙事。但是更值得关注的，其实是它暴露出来的那个科学问题：大量有价值的数据正在天文档案里默默等着，只是因为缺合适的分析工具，它们的潜力从来没被完整释放过。帕兹的项目本质上不是在寻找新的天体，那些天体一直都在，NEOWISE已经“看”到了它们，只是没有人有办法在合理时间里，从那2000亿行记录里把它们一个一个挑出来。这在当代天文学里不是孤例，随着新一代巡天望远镜和空间任务上线，天文数据的产生速度已经远远超过了人类手动分析的极限。正在建的薇拉·鲁宾天文台预计每晚会产生约20TB的观测数据，每年识别数百亿个天体，这个量级的数据处理几乎从一开始就注定得依赖机器学习。

那些被尘埃盖住的角落

帕兹的VARnet还有一个被低调提及的优势：它在“被尘埃遮蔽”的天区同样有效，而这些区域恰恰是传统光学巡天的盲区，因为可见光没法穿透浓密的星际尘埃，但红外线可以。这意味着这份新星表里，包含了相当数量来自银河系尘埃遮蔽区域的天体，那是一片以前几乎从来没被系统性研究过的天文领土。帕兹自己在描述这项研究时说过，类似的时间序列分析方法，如果配上合适的传感器，同样可以用来检测大气污染这些环境数据里的周期性模式，因为季节和昼夜循环会在这些数据里留下可识别的规律性特征。一个高中生从一堆“已经研究过”的旧数据里挖出了150万个没人见过的宇宙天体，这件事最大的启示，也许不是关于这个孩子有多聪明，而是关于我们手边到底还藏着多少没被认真看过的东西。

**小贴士：NEOWISE（近地天体广域红外巡天探测器）是NASA一个专门搜寻可能威胁地球的近地天体（比如小行星和彗星）的空间望远镜项目。它2009年发射，原本任务叫WISE（广域红外巡天探测器），主要工作是测绘整个天空的红外图像。

2013年重启后改名为NEOWISE，转向专注搜寻和表征近地天体，但它持续的红外观测也在无意中积累了海量的天体亮度变化数据，成了后续研究的宝贵档案。这些档案数据对公众开放，但体量太大，常规分析很难覆盖全面，这正是AI工具能发挥作用的地方。**

感谢阅读，欢迎点赞、收藏或分享