大面积残损也能救?AI 算法跨界“修图”,让千年壁画重现神韵

论文题目：Automated mural restoration via semi supervised segmentation and prompt guided diffusion inpainting

作者：Zishan Xu, Shaokai Hua, Zilong Wang, Wei Chen, Jueting Liu, Tingting Xu & Zehua Wang

会议或期刊名：npj Heritage Science

单位：中国矿业大学（北京）、北京交通大学

发布日期：2025年10月9日

文章地址：https://www.nature.com/articles/s40494-025-02047-5#author-information

一、研究动机

壁画作为承载人类文明的重要瑰宝，正因自然侵蚀与人为活动而面临不可逆的退化。目前的数字化修复技术虽展现出非侵入式保护的优势，但仍存在两大核心瓶颈：一方面，壁画复杂的笔触、不规则的纹理以及高质量标注数据集的极度匮乏，导致病害区域难以精准分割；另一方面，在处理大面积缺失时，受损区域缺乏视觉线索，现有模型难以重建出风格与细节高度统一的画面。因此，开发一种能在稀疏数据集上实现高精度感知，并结合多模态优化能力的自动化修复框架，对全球文化遗产的数字化保存具有深远意义。

二、方法

本研究提出的数字化壁画修复框架构建了一套端到端的集成管线，其总体架构如图1 所示，主要分为病害区域精确分割与提示词优化引导的大规模修复两个核心阶段。在第一阶段，研究采用 SAM-Adapter 网络并结合半监督学习与阈值化策略，有效解决了标注数据匮乏背景下的高精度病害识别难题。第二阶段则针对大面积缺损，利用 LoRA 微调的 Stable Diffusion 模型，通过 GPT-4V 与 黑盒提示优化（BPO） 技术生成并精炼修复指令，确保重建内容在艺术风格与纹理结构上实现跨区域的高度一致。

图1|SAM-Adapter的半监督训练流程图。该端到端流程首先通过半监督SAM-Adapter现损伤掩蔽，随后利用基于优化提示引导的LoRA调整扩散模型恢复大面积缺失区域，最终生成结构与风格均一致的结果。

SAM-Adapter分割模型的半监督训练

在基于半监督学习的 SAM-Adapter 分割模块设计中，研究团队利用 SAM 模型的跨任务泛化能力，并结合轻量化的适配器实现了对壁画受损区域的精准提取，其具体工作流程如图1所示。图2进一步展示了该模型的内部架构：其图像编码器采用了ViT-H/16模型，在每个Transformer 层之间插入了由两个多层感知机组成的适配器模块。此外，掩码解码器中部署了三个适配器来处理图像嵌入的交叉注意力，使模型能以极小的计算开销灵活适配壁画病害这一特定任务空间。

图2|方法架构示意图

为了有效利用无标注数据，该阶段引入了阈值化策略，以平衡伪标签的精确度与覆盖范围。当模型处理无标注图像时，会首先计算各像素点的置信度评分p,随后，伪标签的生成遵循以下公式:

即当预测置信度超过预设阈值时,该像素被标记为受损区域，否则不计入训练。

在模型优化方面，研究团队设计了一套复合损失函数来平衡标注数据与无标注数据的贡献，总损失函数如下：

针对标注数据的训练，有监督损失采用了二元交叉熵损失与 Dice 损失的结合方案:

通过引入 Dice 项，模型能有效应对病害像素与背景像素之间的类别失衡问题。而针对无标注数据，半监督损失计算模型预测值p和生成的伪标签y的交叉熵，具体如下：

这种严谨的数学约束使得 SAM-Adapter 即使在处理由于褪色或笔触干扰导致的微妙损伤时，依然能保持极高的边界忠实度。

大型洞窟壁画修复的文本修复技术

在大面积壁画缺损的数字化修复中，本研究结合LoRA微调的Stable Diffusion模型与GPT-4V辅助的BPO技术，系统性地解决了视觉线索缺失导致的修复难题。研究团队将轻量化的 LoRA 模块集成到扩散模型 U-Net 的注意力层中，涵盖了所有空间 Transformer 块的自注意力和交叉注意力投影。这种设计使模型能够在不破坏原有生成能力的前提下，快速吸收壁画特有的艺术风格与历史纹理，从而在大面积缺失区域重建出极具美学连贯性的内容。

在 Stable Diffusion 模型的训练过程中，研究团队采用了LoRA技术，以增强模型在艺术与文化遗产保护领域的表现。该过程的核心在于利用 LoRA 这一高效的微调方法，在不牺牲大模型复杂度与表达能力的前提下，实现性能的快速优化。在微调的具体流程中，研究者将大小介于1MB 至 200 MB 的轻量化 LoRA 模型文件与现有的Stable Diffusion检查点模型相集成。这种集成模式使得模型能够引入专门针对壁画修复定制

的新主题与风格概念。

为了量化修复效果并为提示词优化提供反馈，研究引入了 PSNR（峰值信噪比）与 SSIM（结构相似性） 作为核心评估指标。在模拟覆盖30%至50%面积的随机遮罩实验中，系统通过对比生成图像I_{gen}(P)和地面真值I_{GT}来计算得分:

基于这些指标，修复样本被划分为高质量（HQS）与低质量（LQS）类别，从而构建出用于训练提示词优化器的对比样本对。

在提示词生成的具体流程中，系统采用由 Llama2-7b-chat 构建的序列到序列架构作为优化器，将初始描述转化为更具细节引导力的指令。该模型在训练过程中遵循标准交叉熵损失:

通过这一机制生成的优化查询P_{query}能引导 GPT-4V 输出包含尺寸、色彩及特定历史风格的详细提示词P_{opt}，最终驱动扩散模型生成在文化语境与风格细节上都能得到修复的结果。

研究不仅利用 PSNR 和 SSIM 指标对修复结果进行量化评估，还根据表现将其划分为“高质量样本（HQS）”与“低质量样本（LQS）” 。在训练基于 Llama2-7b-chat 的提示词优化器时，除了标准的交叉熵损失，还特别引入了对比损失函数。这一机制确保了生成的优化查询能够显著拉开高质量与低质量修复效果的差距，迫使模型学习那些真正能提升视觉质量的关键词组合。

与全自动生成的方案不同，该研究中的参考优化查询完全由壁画领域的专家手工撰写。专家会根据受损壁画的视觉缺口，从场景描述、空间位置、色彩运用等多个维度中挑选出 2-4 个关键维度进行扩充，并严格限制描述长度在 60 字以内。这种“专家规则驱动”的指令训练，使得后续模型生成的优化提示词具有极高的语义对齐度和文化精准度。

三、实验

针对分割任务，研究使用了由1,000 张壁画图像组成的数据集，并按照 8:2 的比例划分为训练集和测试集。为了模拟现实中高质量标注数据稀缺的挑战，训练集中仅有 50% 的图像经过手动标注，其余 50% 则作为无标注数据用于评估模型在半监督学习环境下的表现。

在构建提示词优化模型的训练对时，研究准备了总计 2,000 个壁画修复样本，其中包含 1,600 个训练样本和 400 个验证样本。这些样本通过严谨的两阶段协议进行质量标记：首先根据 PSNR/SSIM 指标划分出高质量（HQS）与低质量（LQS）样本，并剔除中间 40% 的不确定区域以减少边界噪声；随后由两名具备敦煌壁画背景的专业人员对感知清单进行审核纠偏。此外，研究还专门挑选了 200 张涵盖不同历史时期代表性作品的高质量壁画，用于驱动 LoRA 模型的风格特征学习。

为了验证修复方法在极端情况下的稳健性，研究另外选取了 40 张代表性图像，并模拟了 40% 至 50% 面积的大型缺损。同时，实验还引入了跨文化的外部数据集进行泛化能力评估，包括古埃及壁画、西班牙阿尔塔米拉洞窟壁画、庞贝壁画以及存在划痕和褪色损伤的老照片。

对比实验

为了确保实验的公正性与综合性，研究团队选取了MISSFormer和MSTransception等最新图像分割技术进行详尽对比。同时，针对半监督学习的新兴趋势，实验特别引入了 LViT 这一半监督学习方法，并增设了非半监督版的 SAM-Adapter 作为对照组，以准确衡量半监督训练策略对性能的实际贡献。在实验过程中，所有模型均基于相同的训练集和测试集进行评估，且保持了相似的训练环境与超参数配置，确保了对比结果的可信度。最终，实验采用 IoU 指标对各方法的综合性能进行了量化分析，具体的对比数据与可视化效果已在表1和图3中完整呈现。

图3|不同分割技术在壁画损伤检测任务中的性能表现。通过真实壁画损伤案例对代表性分割方法与所提出的SAM-Adapter进行定性比较，重点展示掩膜质量与边界保真度。

表1|壁面缺损分割技术的性能评估指标

针对“从病害自动识别到画面填补的“全链路盲修复”综合效果”的对比实验（图4）表明，尽管MISSFormer和MSTransception在常规图像分割任务中表现良好，但在处理复杂图像时其准确率显著下降。针对壁画特有的纹理特征与不规则损伤问题，研究结果表明：即使是最先进的图像分割技术，在特定应用场景中仍可能面临挑战。同样地，尽管LViT在处理有限标注数据方面展现出一定优势，但在壁画分割的整体性能上仍存在局限。这进一步证明，传统的全监督学习方法可能无法完全满足特定任务的需求。

相比之下，我们的半监督SAM-Adapter方法在多个方面展现出卓越性能。该方法不仅在标注数据上表现优异，在未标注数据上也具备良好的泛化能力。这一结果验证了半监督学习策略在处理标注数据稀缺问题时的有效性和效率，尤其在文化遗产保护领域。考虑到文化遗产的复杂性及标注数据的稀缺性，我们的方法在处理复杂且非典型的壁画损坏问题时具有独特优势。

总之，本实验不仅凸显了半监督学习在壁画缺陷分割任务中的重要性，同时也揭示了传统分割技术在特定任务中的局限性。本文的半监督SAM-Adapter方法在这一具有挑战性的任务中展现出优异性能。

图4|与其他盲态图像修复技术的有效性比较。在相同的受损输入图像上，所提出的文本引导扩散修复方法相较于通用盲态修复技术，产生的伪影更少，结构连续性更佳，且壁画风格还原度更高。

修复完成后，本文采用 PSNR 、SSIM和LPIPS进行评估，结果详见表2；其中 LPIPS 作为感知性全参考基准。

表2|不同修复技术的修复质量评估

专门测试各修复算法在模拟大面积缺损下的“纯纹理与结构重建”性能的实验结果（图5）揭示了 DSI 、ICT和Repaint等技术在处理大规模壁画修复缺陷时的局限性，尤其是在保留壁画原始风格与纹理方面。相比之下，Lama方法在处理大面积损坏时表现更优，但在保持色彩与纹理一致性方面有时不尽如人意。而我们的修复技术在这一方面展现出显著优势，尤其在处理复杂精细的修复任务时更为出色。

图5|大规模壁画修复中不同修复技术的对比效果。对存在大孔洞和广泛裂缝的复杂案例评估表明，这些技术能实现更一致的边界连接与材料纹理重建，并保持稳定的细节还原效果。

消融实验

在分割阶段，通过对比不同置信度阈值theta（从0.60到0.95），实验证实theta=0.8是平衡伪标签噪声与训练信号的最佳选择，且半监督策略显著增强了模型在标注数据匮乏时的泛化表现。

在修复阶段，研究通过对比“无提示词”、“简单提示词”以及经 BPO 优化的“回填提示词”，结果显示优化后的提示词在 PSNR 和 SSIM 等量化指标上均取得了最高得分。这有力地证明了深度精炼的文本指令能更精准地引导扩散模型重构大面积缺损区域的艺术风格与纹理细节，从而实现更具文化忠实度的修复效果。

表3|提示工程条件下的修复效果评估

实验结果（表3）显示，无提示条件和简单提示条件下的PSNR与SSIM 评分均较低，表明修复图像缺乏精细细节和风格准确性；相比之下，优化提示条件显著提升了修复质量，证明经过优化的提示能更有效地引导Stable Diffusion生成与原始壁画艺术风格更为契合的修复作品。

总结

本研究针对壁画数字化修复中病害分割难与大面积修补纹理失真的瓶颈，提出了一套深度融合 SAM-Adapter 与提示词引导扩散模型的端到端自动化框架。该方案通过半监督学习与阈值策略，在标注数据极度匮乏的背景下实现了病害区域的高精度识别，IoU 表现显著优于通用分割模型。核心创新在于引入 BPO技术与 GPT-4V 视觉理解力，通过生成的专家级优化指令驱动 LoRA 微调的 Stable Diffusion 模型，在完全丧失视觉线索的大面积缺失区重构出风格高度统一且细节丰富的画面纹理。实验证明，该系统单张推理仅需 6.2 秒，不仅能完美还原敦煌等世界级壁画遗产，更在老照片修复与跨文化艺术保护中展现出卓越的通用潜力。