科研速递:构建AI驱动的虚拟大脑,璨辰科技团队取得关键进展

图1：璨辰科技围绕 Novaeve-Enhance / Novaeve-Anno / Novaeve-Dev / Novaeve-Agent 四个模块推进 AI Virtual Brain 构建。

引言

长期以来，人类对大脑的研究，大多停留在“静态观察”阶段。研究者可以看到脑组织切片、测量部分细胞状态，却很难真正连续追踪细胞如何随发育、疾病和药物干预发生变化。过去脑科学更像是在看静态照片，而虚拟大脑尝试让研究者第一次看到“会变化的大脑系统”：研究者能够看到不同细胞在空间中的位置，理解它们的细胞类型和状态，追踪它们可能如何随发育或疾病进程发生变化，并进一步为药物作用机制和干预策略评估提供计算线索。这样的系统听起来像科幻，但它正是璨辰科技长期努力追寻的方向。

不过，真正要把“虚拟大脑”从想象变成可实现的系统，难点并不是数据够不够多、显卡够不够多、模型参数够不够大。生命系统不是互联网文本，也不是自然图像；大脑更不是一张可以被完整扫描、一次性读懂的照片。这意味着，过去的大多数脑组学分析，本质上仍停留在“静态切片”和“离线统计”阶段，很难真正形成一个能够持续推演发育、疾病和药物响应过程的系统级数字模型。它的每一次测量都带着实验技术的边界：

空间转录组能够保留细胞在组织中的位置，却往往只能测到有限的基因面板；

单细胞测序可以揭示细胞状态，却常常受到测序深度、技术噪声和Dropout 操作的影响；

脑细胞类型并不是简单的几个大类，而是存在复杂的层级结构、空间分布和微环境相互作用，越往细处差异越微妙；

发育和疾病进程更不是一段可以连续观测的录像，更多时候只是不同时间点、不同疾病状态留下的“快照”。

因此，构建 AI 驱动的虚拟大脑，不能简单理解成“把更多数据倒进更大的模型里”。它更像是在搭建一条从原始观测到智能推演的技术链条：

第一步，面对稀疏、缺失和低深度的组学数据，尽可能增强数据质量，恢复被实验技术遮住的分子信号。
第二步，在数据变得更可用之后，为每个细胞建立清晰、稳定、层级化的身份标注，知道它属于哪一类细胞、处在什么状态。
第三步，进一步把这些静态细胞图谱放进时间和疾病进程中，建立能够描述细胞状态变化的动态模型。
第四步，让 Agent 把数据增强、细胞标注、动态建模等能力组织起来，形成一个可审查、可追踪、可调度的分析流程。

沿着这一长期目标，璨辰科技团队近期在四个模块上取得了阶段性进展：

Novaeve-Enhance：面向数据增强，尝试从稀疏、低深度或部分观测的组学数据中恢复更多分子信号。
Novaeve-Anno：面向脑细胞层级标注，利用生物分类结构提升复杂脑细胞类型识别能力。
Novaeve-Dev：面向细胞动态建模，尝试从离散时间点的单细胞快照中推演群体状态变化。
Novaeve-Agent：面向智能调度与证据审查，在多模型、多参考图谱、多分析路线并存的情况下，帮助系统判断哪些路线可执行、哪些结果更可信、哪些不确定性应该被保留下来。

在现有行业中，大多数 AI for Biology 系统仍聚焦于单点任务，例如单一数据补全、单一细胞分类或单一预测模型。璨辰科技则尝试把这些能力连接成连续技术链，让 AI 不只是回答一个问题，而是逐步具备“理解—推演—辅助决策”的系统能力。

这些工作并不意味着“虚拟大脑”已经建成，但它们展现出一条清晰路线：先让细胞数据更可靠，再让细胞身份更清楚，再让细胞状态能够被建模和推演，最后让 AI Agent 把模型、证据和分析流程组织起来。

Novaeve-Enhance，让大脑组学数据更接近真实

Novaeve-Enhance 对应的是数据增强这一环。对于虚拟大脑来说，第一步不是让模型立刻去“理解大脑”，而是先让它看到更可靠的大脑组学数据。现实中的空间转录组常常只能检测有限基因，scATAC-seq 也会因为技术 Dropout 丢失大量染色质开放信号。Novaeve-Enhance 的目标，就是从这些稀疏、低深度或部分观测的数据中，尽可能恢复被实验技术遮住的分子信息。

这项工作的核心不是简单平滑数据，而是把基因或 Peak 按生物先验组织成有意义的序列，再用 Mamba 结构捕捉长距离依赖，并通过 Flow Matching 学习从“模糊观测”走向“更完整分子状态”的恢复路径。通俗地说，它不是把所有信号都抹得更均匀，而是判断哪些信号值得恢复，哪些噪音应该去除。

图2：Novaeve-Enhance 在空间基因补全和染色质开放信号恢复任务中，相比最强对照取得更好的核心指标。

在大脑相关任务中，Novaeve-Enhance 表现出明显优势。小鼠脑 Visium 空间基因补全任务中，RMSE 从最强基线的 4.1398 降到 3.2691，降低约 21.0%；全局 Pearson 相关性从 0.3303 提升到 0.6058，相对提升约 83.4%；在小鼠胚胎脑 scATAC 补全任务中，AUPRC 达到 0.8867，Peakwise Spearman 从最强基线的 0.3928 提升到 0.8871，相对提升约 125.8%。

在真实临床与科研场景中，高质量、多模态、完整测序的数据往往极其昂贵，甚至难以获得。如果 AI 能够从有限观测中恢复更多可靠分子信号，就意味着研究者未来有机会在更低实验成本下，更早识别疾病相关细胞状态，并提升药物筛选与机制研究效率。

Novaeve-Anno，给脑细胞建立层级身份

Novaeve-Anno 对应的是脑细胞标注这一环。大脑细胞并不是几个简单标签就能概括的，神经元、胶质细胞只是最粗的层级，继续往下还有 Subclass、Supertype 等更细分类型。同一个大类内部，很多细胞表达模式相对接近，但功能、空间分布和疾病相关性可能有明显差异。传统分类方式容易把这些层级关系打散，粗分类还可以，细分类就容易混淆。

Novaeve-Anno 尝试把脑细胞天然存在的“层级关系”直接写进模型中，让 AI 能够像生物学家一样，从大类逐步理解到细粒度亚型。这样，模型在判断 Supertype 时，不是从零开始猜，而是在已经理解大类和 Subclass 背景的基础上继续细分。

图3：Novaeve-Anno 在细粒度标注能力基准上展示出稳定的能力。

在 SEA-AD MERFISH 供体拆分测试中，Novaeve-Anno 在最细的137类Supertype 标注上取得 Macro-F1 0.7611、Micro-F1 0.8851、AUC-ROC 0.9996。在 Subclass 层级，模型达到 Macro-F1 0.9080、Micro-F1 0.9490。

外部大脑炎症数据也验证了这一点。在 Kukanja MS数据上，Novaeve-Anno 在 Level-3 细粒度标签上取得 Macro-F1 0.8551；在更困难的 Kukanja EAE 数据上，Annotation High 层级达到 Macro-F1 0.6971、Micro-F1 0.8006。消融实验进一步显示，Feature Residual 相比独立解码器，让 SEA-AD Supertype Macro-F1 提升约 6.4 个百分点，说明真正起作用的是“从粗到细”的层级特征传递。这意味着，AI 开始不仅能“看见细胞”，还开始能够更稳定地理解细胞在复杂脑组织中的真实身份。

脑科学领域长期存在的挑战之一：模型往往能识别“大类细胞”，却难以稳定区分真正与疾病、药物响应和功能区域相关的细粒度脑细胞亚型。尤其在神经退行性疾病、自身免疫疾病等复杂场景中，这种细粒度差异往往决定了研究结论是否具有真实生物学意义。

Novaeve-Dev，让大脑发育快照动起来

过去，大多数单细胞系统只能回答“现在细胞是什么状态”。Novaeve-Dev 则开始尝试回答另一个更困难的问题：“这些细胞未来会如何变化？”大脑发育过程本质上是动态的，但单细胞测序通常只能提供离散时间点的快照。测完一个细胞，它就不能再被继续追踪，因此研究者看到的不是同一个细胞的连续命运，而是不同时间点细胞群体的状态分布。Novaeve-Dev要解决的，就是如何从这些不连续的群体快照中，推演细胞状态随时间变化的趋势。

这项工作的核心不是只预测一个抽象速度，而是直接预测目标时间点的细胞表达状态，再从目标状态反推出流动方向。这样一来，模型输出本身就是一个可比较的细胞群体，可以直接和真实目标时间点的细胞分布对齐。

图4：Novaeve-Dev 生成分布更接近真实目标状态。

在大脑发育相关的 Mouse Neural Crest 数据上，Novaeve-Dev 的表现尤其突出。在近距离外推任务中，它将 Mean WD 从最强对照的5.536 降到 2.991，降低约 46.0%；在远距离外推中，从 9.283 降到 7.482，降低约19.4%；在插值任务中，也从 5.498 降到 3.673，降低约33.2%。这些指标说明，模型生成的细胞群体分布更接近真实发育时间点。

更有生物意义的是，Novaeve-Dev 更好地恢复了 Neural Crest 晚期的细胞组成变化，例如 Sympathetic 细胞比例上升、Dorsal Root Ganglion 细胞比例下降等趋势。对虚拟大脑来说，这意味着系统不只是拥有静态细胞图谱，还开始具备推演大脑发育状态变化的能力。从长期看，这种能力有望进一步延伸到疾病进展预测、药物干预模拟以及数字孪生器官建模等方向。

过去器官数字建模领域最难解决的问题之一：生物实验通常只能获得离散时间点的数据，而无法像电影一样连续观察细胞命运。因此，大多数现有系统只能描述“现在是什么”，却难以回答“未来会怎样变化”。

Novaeve-Agent，让系统会选择，也会克制

Novaeve-Agent 对应的是智能调度与证据审查这一环。当前面已经有数据增强、脑细胞标注和动态建模之后，真正落到科研分析时，还会遇到一个很现实的问题：同一批大脑数据，可能有多个参考图谱、多个基础模型、多个分析路线可选，结果也可能并不完全一致。系统如果只是把所有模型简单投票，反而可能把不确定性包装成“看起来很确定”的答案。

Novaeve-Agent 的思路，是把单细胞注释拆成一个可审查的多智能体流程。它不是让一个模型直接给最终标签，而是先判断哪些参考和模型路线可执行，再按规则完成 Label Transfer，最后根据不依赖真实标签的诊断信息决定是否融合结果，或者保留 Unknown。换句话说，它更像一个“分析调度员”，负责把不同工具组织起来，同时提醒系统在证据不足时不要过度自信。

图5：Novaeve-Agent在对比生信智能体系统和单细胞大模型都有领先的性能表现。

从目前结果看，Novaeve-Agent 在 SEA-AD 和 Kukanja MS 上带来了一定提升。例如在 SEA-AD 数据中，Macro-F1 从 0.7934 提升到 0.8409；在 Kukanja MS 中，Macro-F1 从 0.5068 提升到 0.5530。不过，这一模块更适合理解为系统层探索，而不是已经完全成熟的自动科研平台。它真正重要的地方，不只是分数提升，而是尝试把“路线选择、结果融合和不确定性保留”变成一个可追踪、可审查的流程。

AI 在生命科学中的角色，正在从“单次工具调用”逐步演化为“可审查、可追踪、可协同”的科研基础设施。对于未来大规模自动化生物研究而言，这类系统可能成为连接模型、实验与科学证据的重要中枢。

从四个模块看虚拟大脑的技术路线

把这四项工作放在一起看，它们并不是彼此孤立的模型，而是璨辰科技围绕 AI 驱动虚拟大脑所推进的一条连续技术链。对璨辰科技来说，虚拟大脑不是短期内训练一个“超级模型”，而是一项需要长期 Scale Up 的系统工程：数据要更完整，标注要更准确，动态模型要更接近真实生物过程，Agent 调度也要更稳健。

这条路线也体现了璨辰科技对虚拟大脑的理解：不是先追求一个包打天下的大模型，而是把宏大目标拆成更符合生命科学实际的几个层次。先改善观测，让脑细胞数据更可靠；再理解身份，让每个脑细胞在复杂层级中找到位置；再建模变化，让静态快照变成动态推演；最后管理模型与证据，让系统知道该调用什么、相信什么，以及什么时候保留不确定性。

因此，璨辰科技这组工作更像是一张清晰的技术路线图，而不是一句“虚拟大脑已经实现”的宣言。它回答的是一个更基础的问题：如果未来要构建一个可以查询、标注、干预、推演的大脑数字系统，今天应该先把哪些底层能力做扎实？

从目前的探索看，璨辰科技正沿着这个方向，把 AI 在脑科学中的作用从单点工具，逐步推进到可持续扩展的研究基础设施。

接下来，璨辰科技要做的，是把这条技术链上的每一个环节继续Scale Up，并且做得更深、更稳、更好：让数据增强覆盖更大规模、更复杂模态的大脑数据；让细胞标注适应更多脑区、疾病和物种；让动态建模能够处理更长时间尺度和更复杂的状态转移；也让 Agent 系统在真实科研流程中更可靠、更可审查。

虚拟大脑的长期目标不会由某一个模型单独完成，而是在这些基础模块不断升级、连接和验证的过程中逐步逼近。

关于我们

璨辰科技由来自清华、斯坦福、港中文等全球顶尖高校的科学家与工程师共同创立，致力于构建全球领先的新一代生命科学基础能力，让计算模型及人工智能成为探索生命规律、指导药物研发与精准医疗的核心能力。

璨辰科技团队正在尝试构建全球首批面向“可查询、可推演、可干预”的 AI 虚拟大脑技术链，通过数据增强、细胞层级标注、动态状态建模与 Agent 调度系统，推动脑科学研究从“静态观察”走向“动态推演”。

诚邀全球跨学科英才，共建“生命科学世界模型”

探索生命规律的无形地图，离不开全球顶尖智慧的协同演化。伴随核心技术的突破与业务形态的纵深拓展，璨辰科技现面向海内外，正式启动人工智能与生命科学交叉领域的高端人才招募。

招募对象：我们寻找深谙大模型架构、多智能体协同的AI算法专家，以及专注单细胞多组学、空间转录组学、结构生物学等前沿领域的生命科学学者。

以计算科学攻克生命科学壁垒，是一场造福人类的伟大远航。璨辰科技诚邀海内外青年才俊加入我们，共同洞察生命本源，为改善人类健康贡献力量。

简历投递：hr@novaeve.ai

合作联系：bd@novaeve.ai