共计 2155 个字符,预计需要花费 6 分钟才能阅读完成。
面对考古文物——尤其是稀有中国瓷器——因数据稀缺而难以准确分类的长期挑战,研究人员近期取得了一项关键突破。由博洛尼亚大学计算机科学与工程系的 Ziyao Ling、Silvia Mirri 和 Paola Salomoni 与 Giovanni Delnevo 等合作完成的研究,展示了一种利用稳定扩散模型生成合成图像以增强数据集的新方法。这项 AI 技术在瓷器鉴定中的应用,显著提升了分类的准确率。

研究团队严格测试了这些合成图像对多任务卷积神经网络在识别瓷器朝代、釉料、窑口和类型方面的性能提升效果。结果显示,当采用 90:10 的真实与合成数据混合比例时,瓷器类型分类的 F1 宏平均分数显著提升了 5.5%。这项研究不仅为瓷器鉴定提供了更有效的技术路径,也为生成模型如何审慎融入考古学研究——在追求数据多样性的同时,坚守考古真实性——提供了重要的实践指南。
合成数据推动瓷器分类性能跃升
研究表明,合成数据增强能显著提升深度学习在中国瓷器分析中的表现,尽管不同分类任务的改善幅度各异。其中,瓷器类型分类获益最大,在 90:10 的真实 - 合成数据比例下,F1 宏平均分数提高了 5.5%;朝代与窑口识别的提升幅度则相对温和,约为 3 -4%。这一差异揭示,合成增强的有效性高度依赖于生成图像是否精准捕捉了与特定任务相关的视觉特征。
中国瓷器作为文化遗产的核心组成部分,其鉴定至今仍高度依赖专家的目鉴经验,科学技术仅起辅助作用。当前的主流方法面临诸多挑战:人工评估主观性强且耗时费力,而先进的分析技术往往成本高昂,甚至可能对文物造成损害。在此背景下,深度学习技术,特别是卷积神经网络,通过学习器形、纹饰、釉色及历史时期等视觉线索,已展现出辅助瓷器鉴定的巨大潜力。然而,数据可用性不足严重制约了其发展。按照深度学习标准,现有瓷器数据集规模过小,极易导致模型过拟合、泛化能力差,而瓷器文物在同类目下的高度变异性更是加剧了这一难题。
传统的数据增强手段,如旋转、裁剪或色彩抖动,仅仅是对现有像素进行变换,无法生成具有考古意义的新颖视觉特征。这一局限在瓷器鉴定中尤为突出:同一类瓷器可能在釉面肌理、开片纹路、色彩渐变及表面处理上存在显著差异,而这些细微特征无法通过简单的几何或光度变换来充分模拟。
生成式 AI 为文化遗产研究开辟新路径
为应对上述挑战,研究人员正日益转向能够合成逼真新图像的生成模型。扩散模型的最新进展,使得生成高质量合成图像成为可能,这些图像在保持考古合理性的同时,引入了受控的多样性。在本研究中,团队采用基于扩散模型的图像生成技术,来增强用于中国瓷器分类的多任务卷积神经网络。他们利用搭载了低秩适应技术的稳定扩散模型,并基于考古文献精心设计文本提示词,生成了合成图像。实验表明,在混合了真实与合成数据的数据集上训练的模型,其性能始终优于仅使用真实数据训练的基线模型。
任务层面的分析进一步揭示,瓷器类型分类从合成增强中获益最大,提升幅度高达 4%。这再次印证了生成图像的特征需要与具体分类任务的视觉判别器高度对齐。该研究凸显了生成式人工智能对于文化遗产领域的广泛价值。尽管早期的生成对抗网络在生成真实性上存在不足,但扩散模型提供了更优的保真度与可控性,使其非常适用于对真实感与历史准确性要求极高的遗产应用。
然而,考古瓷器因其在器形、釉料、纹饰及历史背景方面受到严格制约,带来了独特挑战。研究结果强调,必须通过结构化的提示词工程与评估框架,将领域专业知识深度嵌入生成过程。总体而言,这项工作证明,基于扩散模型的合成增强是克服瓷器研究中数据稀缺问题的可行且高效策略,不仅推动了计算机视觉的进步,也有助于文化遗产的可持续数字化保存。
LoRA 技术助力分类准确率达到新高度
通过结合低秩适应技术,研究团队利用稳定扩散模型生成的合成图像,有效扩充了有限的真实数据集,从而在瓷器类型分类上实现了 5.5% 的 F1 宏平均提升。该研究聚焦于基于多任务卷积神经网络的瓷器分类,旨在解决考古应用中训练数据不足的瓶颈。研究人员采用 MobileNetV3 进行迁移学习,并设计了一系列对照实验,比较了仅使用真实数据训练的模型与使用 95:5 和 90:10 两种混合比例数据训练的模型性能。实验细致评估了模型在瓷器朝代、釉料、窑口和类型这四个关键分类任务上的表现,为数据增强策略提供了详尽的量化分析。
结果显示,合成数据增强的效果具有任务特异性。其中,类型分类任务受益最为显著:90:10 的混合比例带来了 5.5% 的 F1 宏平均提升,表明模型区分不同瓷器类型的能力得到了实质性加强。朝代和窑口分类任务则表现出 3 -4% 的较小增益,这进一步说明合成增强的有效性取决于生成特征与任务所需视觉特征的对齐程度。团队采用 F1 宏平均作为核心评估指标,该指标综合考虑了所有类别的精确率与召回率,是衡量分类器整体性能的稳健标准。
实验证实,合成数据有效扩展了模型学习的特征空间,尤其在类型分类任务上,使模型能够更好地区分瓷器间细微的视觉差异。数据同时表明,95:5 的混合比例也能带来一定提升,只是效果不及 90:10 的比例,这提示在真实数据与合成数据之间需寻求最佳平衡,以避免引入无关噪声或偏差。最终测量结果确认,尽管生成的图像并非真实瓷器的完美复刻,但它们提供了足够的、有价值的视觉多样性,从而显著改善了深度学习模型的泛化能力。