
无机材料是能源存储、半导体制造、碳捕获和催化等众多关键技术的基础。然而,新材料发现面临极其庞大的化学空间,传统密度泛函理论(DFT)计算虽然准确,但计算成本高昂,难以支撑大规模筛选。近年来,机器学习原子间势(Machine Learning Interatomic Potentials,MLIPs)逐渐成为替代DFT的重要工具,但其性能高度依赖训练数据集的规模和多样性。
研究人员发布了开放材料2024(Open Materials 2024,OMat24)数据集,这是目前最大的开放式无机材料DFT训练资源之一,包含超过1.18亿个DFT标注结构、覆盖周期表绝大多数元素以及大量远离平衡态构型。基于该数据集训练的EquiformerV2和eSEN等模型在Matbench-Discovery基准测试中取得当前最优性能,材料稳定性预测F1分数超过0.92,形成能预测误差约为20 meV/atom。研究人员进一步证明,OMat24显著缓解了机器学习势函数长期存在的“系统性软化(systematic softening)”问题,使模型在能量、力和声子性质预测方面更加准确可靠。研究人员认为,OMat24将成为未来无机材料基础模型和机器学习势函数发展的关键基础设施。

新材料发现对于解决能源危机、气候变化和先进制造等全球挑战至关重要。然而,无机材料的组成和结构空间极其庞大,仅依赖实验探索几乎不可能完成。DFT计算成为材料发现的重要工具,但即使在高性能计算平台上,大规模材料筛选仍然面临巨大的计算负担。
随着人工智能的发展,机器学习原子间势逐渐成为DFT的有效替代方案。近年来出现了MACE、CHGNet、MatterSim、ORB等多个优秀模型,在能量和力预测方面取得了显著进展。然而,大多数模型的训练数据主要来源于平衡态或近似平衡态结构,例如Materials Project、Alexandria和MPtrj等数据库。这导致模型在缺陷结构、高温结构、界面和非平衡态体系中的泛化能力不足。
研究人员发现,这类数据偏差还会引发一个普遍问题——系统性软化。具体表现为模型倾向于低估非平衡结构的能量、原子受力以及声子频率,从而影响材料稳定性预测和热输运模拟。为解决这一问题,研究人员构建了OMat24,希望通过前所未有的数据规模和结构多样性推动下一代材料基础模型的发展。
方法
OMat24以Alexandria数据库中的约450万个平衡态晶体结构为起点,通过三种策略系统生成远离平衡态的新构型。第一种是Boltzmann采样,对晶体结构进行随机扰动并根据预测能量进行筛选;第二种是高温从头算分子动力学模拟(AIMD),在1000 K和3000 K条件下采样结构;第三种是扰动后重新弛豫过程中的轨迹采样。通过这些策略获得覆盖更广结构空间的训练样本。
所有结构均采用VASP进行DFT计算,获得能量、原子力和晶胞应力标签。最终数据集包含约1.18亿个结构,其中训练集约1亿个结构,验证集500万个结构,并构建多个独立测试集用于评估模型泛化能力。研究人员利用OMat24训练EquiformerV2和eSEN等图神经网络模型,并在Matbench-Discovery等标准基准上进行评测。
结果
构建迄今最大的开放无机材料训练数据集
研究人员首先介绍了OMat24的整体规模和组成。该数据集包含超过1.18亿个DFT结构,规模比现有公开无机材料数据集高出1至2个数量级。与以往主要关注平衡态结构的数据集不同,OMat24特别强调非平衡态结构采样,因此能够更全面覆盖真实材料模拟中可能出现的构型空间。
统计结果显示,大多数结构包含20个以下原子,但同时也纳入了大量来自AIMD模拟的大尺寸晶胞结构。能量、力和应力分布均明显宽于Alexandria和MPtrj,反映出更丰富的非平衡态采样。周期表元素覆盖范围也达到目前公开数据集中的领先水平。

图1:OMat24数据集构建流程、采样策略、结构分布以及元素覆盖范围。
建立严格的数据划分与泛化评测体系
为了避免训练集与测试集之间的数据泄漏,研究人员设计了多个测试集。
其中WBM测试集用于与Matbench-Discovery排行榜保持一致;OOD-Composition测试集用于评估模型对未见组成的泛化能力;OOD-Element测试集用于评估模型对未知元素组合的预测能力。此外还保留了独立的ID测试集用于常规评估。
研究人员指出,相比简单随机划分,这种设计能够更加真实地反映模型在材料发现任务中的实际表现。特别是WBM测试集表现出最大的分布偏移,因此成为衡量模型泛化能力的重要指标。

图2:OMat24训练集、验证集及多个测试集划分策略与分布。
OMat24训练模型刷新Matbench-Discovery纪录
研究人员利用OMat24预训练eSEN和EquiformerV2模型,并在Matbench-Discovery基准上进行测试。
结果显示,eSEN-30M模型获得0.925的F1分数以及18 meV/atom的形成能预测误差,刷新当时公开排行榜纪录。多个基于OMat24训练的模型同时占据排行榜前列,说明性能提升并非来自特定模型架构,而是来自数据集本身。进一步分析发现,即使是原本为催化体系设计的OC20预训练模型,在使用OMat24后也获得明显提升,证明大规模非平衡态数据对于材料基础模型具有普适价值。
研究人员统计Matbench-Discovery发展历程后发现,自OMat24公开后,排行榜前五名模型全部采用了该数据集进行训练或预训练,显示其已经成为该领域事实上的标准训练资源。

图3:Matbench-Discovery排行榜性能比较及OMat24模型发展历程。
显著缓解机器学习势函数的系统性软化问题
系统性软化是近年来材料机器学习势函数研究中的重要难题。研究人员从三个层面进行了评估:
首先是零阶软化,即模型低估非平衡结构能量的问题;其次是一阶软化,即模型低估原子受力;最后是二阶软化,即模型低估声子振动频率。
实验结果表明,仅使用MPtrj训练的模型普遍存在明显软化现象。而经过OMat24预训练后,无论是eSEN还是EquiformerV2,其零阶和一阶软化几乎完全消失。对于声子频率预测,直接使用OMat24训练的模型同样表现出最小的软化偏差。
研究人员认为,导致软化现象的根本原因是训练数据缺乏远离平衡态结构。OMat24通过引入大量高温、扰动和非平衡构型,使模型能够学习更真实的势能面形状,从而提高对缺陷、界面、表面和声子性质的预测能力。

图4:OMat24对能量、力和声子预测中系统性软化现象的改善效果。
讨论
研究人员认为,OMat24代表了无机材料机器学习领域的重要里程碑。与此前公开数据集相比,其最大优势不仅在于规模达到亿级结构,更在于大量非平衡态样本的引入,使模型能够学习更加完整的势能面信息。
研究结果表明,OMat24不仅提高了材料稳定性预测精度,还显著缓解了长期困扰机器学习势函数发展的系统性软化问题。这种改进在不同模型架构中均能够观察到,说明数据质量和多样性的重要性可能超过模型结构本身。
研究人员同时指出,OMat24仍然存在一些局限。例如数据主要基于PBE和PBE+U计算,继承了相应DFT泛函的误差;数据集主要包含体相晶体结构,缺少表面、缺陷和低维材料;对于磁性材料,不同磁序状态仍未被充分考虑。未来可以基于SCAN、r2SCAN甚至更高精度量子化学方法构建下一代材料数据集。
此外,研究人员认为OMat24还将促进多保真学习、主动学习、数据压缩和材料基础模型的发展。类似于ImageNet推动计算机视觉革命一样,OMat24有望成为无机材料AI时代的重要基础设施,为新能源材料、催化剂、半导体以及量子材料发现提供新的动力。
整理 | DrugOne团队
参考资料
Barros-Luque, L., Shuaibi, M., Fu, X. et al. The Open Materials 2024 (OMat24) inorganic materials dataset and models. Nat Comput Sci (2026).
https://doi.org/10.1038/s43588-026-00996-w

内容为【DrugOne】公众号原创|转载请注明来源