乐于分享
好东西不私藏

220万颗恒星,AI 一口气筛完!RAVEN 从 NASA 数据里「捞」出 100 多颗隐藏行星

220万颗恒星,AI 一口气筛完!RAVEN 从 NASA 数据里「捞」出 100 多颗隐藏行星

导读
Warwick 大学天文团队造了一条 AI 流水线 RAVEN,把 NASA TESS 卫星前四年拍到的 220 万颗恒星光变数据全部过了一遍——检测信号、机器学习排雷、统计验证,三步串联,直接确认 100 多颗系外行星,其中 31 颗是全新发现。最狠的部分:它找到了轨道周期不到一天的极端行星,还有理论上「不该存在」的海王星沙漠区天体。

AI 下场找行星,这次来真的

过去我们听到「AI + 天文」,脑子里浮现的画面大概是:大模型读了一堆论文,输出一段总结。

这次完全不同。

Warwick 大学的天文学家团队发布了一个叫RAVEN的系统,干的活儿是——直接从 NASA 的 TESS 卫星观测数据里,把藏在恒星光变曲线中的行星信号挖出来,验证它们到底是真行星还是误报,然后交给人类做最终确认。

▲ Wes Roth 转发了这条消息:RAVEN 验证了 100+ 系外行星,含 31 颗新发现

直接看数字:100 多颗系外行星被验证,31 颗是此前从未确认过的新世界。

这不再是 AI 在旁边打下手。它站到了科学发现链条的正中间。

220 万颗恒星,人眼根本看不过来

先说 TESS。

TESS 是 NASA 的凌日系外行星巡天卫星(Transiting Exoplanet Survey Satellite),2018 年发射,专门盯着天上的恒星看:如果一颗行星从恒星前面经过,恒星亮度就会出现一次微小的、周期性的下降。这叫凌日法(transit method)

▲ NASA TESS 任务主页:这颗卫星已经进入延伸任务阶段

原理简单,问题在于规模。

TESS 前四年观测了超过220 万颗恒星。每颗恒星都有自己的光变曲线,里面可能有行星凌日信号,也可能是噪声、仪器误差、双星系统的假警报。几百万条曲线摆在那里,天文学家一条一条看?

不可能。

这就是 RAVEN 出场的理由。

RAVEN 做了什么:三步流水线,从信号到行星

RAVEN 的关键在于,它把过去需要不同团队、不同工具、分好几步完成的工作,压缩成了一条端到端的自动化流水线。

▲ RAVEN 论文已在 arXiv 发布,标题就叫”Ranking and Validation of ExoPlanets”

具体来说,三个阶段:

第一步:Detect(检测)。从 TESS 光变曲线里自动搜索可能的凌日信号。220 万颗恒星,RAVEN 把每一条都扫了。

第二步:Vet(排雷)。用机器学习模型把明显的假信号踢掉。最常见的误报来源是食双星(eclipsing binary stars)——两颗恒星互相遮挡,光变曲线和行星凌日长得很像,但本质完全不同。RAVEN 的模型专门训练过,能把这类噪声挡在门外。

第三步:Validate(验证)。对剩下的候选目标做统计验证,计算”这个信号确实来自行星”的置信度。只有通过验证的,才会被标记为已确认行星。

这三步跑完,RAVEN 从海量数据中确认了 100 多颗系外行星,并且识别出上千个值得进一步研究的候选目标。

31 颗新行星,有些在理论预言「不该存在」的地方

100 多颗验证行星里,最引人注目的是 31 颗此前从未被确认的新世界。

其中一部分是超短周期行星(ultra-short-period planets)——轨道周期不到一天,也就是说,这些行星绕主星一圈只需要不到 24 小时。它们离恒星近到难以想象,表面温度极高,对行星形成和迁移理论有重要意义。

▲ Warwick 大学官方新闻稿:”AI approach uncovers dozens of hidden planets in NASA’s TESS data”

还有一个更有意思的类别:海王星沙漠(Neptunian desert)里的行星。

这个”沙漠”是天文学的一个理论预测区域。按理说,在离恒星很近的轨道上,海王星大小的行星应该极为稀少——因为恒星的强辐射会剥离行星外层大气,让它们没法保持海王星级别的气体包层。但 RAVEN 偏偏在这个区域找到了行星。

“Using our newly developed RAVEN pipeline, we were able to validate 118 planets, and over 2,500 other promising candidates, with nearly 1,000 of them orbiting bright stars — ideal targets for future atmospheric studies.”

「用我们新开发的 RAVEN 流水线,我们验证了 118 颗行星和超过 2500 个候选目标,其中近 1000 个围绕明亮恒星运行——它们是未来大气研究的理想对象。」

——Warwick 大学 Martin Callaghan 博士

这些发现不只是给天体目录加了几个编号。它们在测试我们对行星系统如何形成和演化的基本认知。

这件事的真正意义:AI 进入了「数据发现」环节

▲ Astronomy Now 报道标题:Artificial intelligence uncovers more than 100 new worlds in NASA data

回到更大的图景。

过去几年,AI 在科研里的角色大多是辅助性的——读论文、写代码、做实验设计、生成假设。但 RAVEN 干的事情不一样:它直接参与了科学发现本身

天文学的结构性问题是:数据量远超人类的处理能力。TESS 一个卫星就产出了几百万条光变曲线,未来的巡天项目(比如 PLATO、Roman Space Telescope)数据量只会更大。如果每个候选信号都要人类手动筛查、交叉验证,真正卡住科学发现的,已经变成了”谁来看数据”。

RAVEN 给出了一个答案:让 AI 先把人类看不完的数据筛一遍,把最值得关注的候选对象推到研究者面前。

这个逻辑不只适用于天文学。蛋白质组学、气候科学、材料科学,都面临同样的困境——海量观测数据里藏着稀疏的异常信号,人眼和传统方法已经跟不上数据增长的速度。

RAVEN 验证了一个正在成形的范式:AI 处理噪声,人类做最终判断。科学发现的入口,正在被重新定义。


— END —

— END —