Nat. Comput. Sci. | 开放材料2024（OMat24）无机材料数据集与基础模型

DrugAI

发布于 2026-06-04 12:03:07

590

无机材料是能源存储、半导体制造、碳捕获和催化等众多关键技术的基础。然而，新材料发现面临极其庞大的化学空间，传统密度泛函理论（DFT）计算虽然准确，但计算成本高昂，难以支撑大规模筛选。近年来，机器学习原子间势（Machine Learning Interatomic Potentials，MLIPs）逐渐成为替代DFT的重要工具，但其性能高度依赖训练数据集的规模和多样性。

研究人员发布了开放材料2024（Open Materials 2024，OMat24）数据集，这是目前最大的开放式无机材料DFT训练资源之一，包含超过1.18亿个DFT标注结构、覆盖周期表绝大多数元素以及大量远离平衡态构型。基于该数据集训练的EquiformerV2和eSEN等模型在Matbench-Discovery基准测试中取得当前最优性能，材料稳定性预测F1分数超过0.92，形成能预测误差约为20 meV/atom。研究人员进一步证明，OMat24显著缓解了机器学习势函数长期存在的“系统性软化（systematic softening）”问题，使模型在能量、力和声子性质预测方面更加准确可靠。研究人员认为，OMat24将成为未来无机材料基础模型和机器学习势函数发展的关键基础设施。

新材料发现对于解决能源危机、气候变化和先进制造等全球挑战至关重要。然而，无机材料的组成和结构空间极其庞大，仅依赖实验探索几乎不可能完成。DFT计算成为材料发现的重要工具，但即使在高性能计算平台上，大规模材料筛选仍然面临巨大的计算负担。

随着人工智能的发展，机器学习原子间势逐渐成为DFT的有效替代方案。近年来出现了MACE、CHGNet、MatterSim、ORB等多个优秀模型，在能量和力预测方面取得了显著进展。然而，大多数模型的训练数据主要来源于平衡态或近似平衡态结构，例如Materials Project、Alexandria和MPtrj等数据库。这导致模型在缺陷结构、高温结构、界面和非平衡态体系中的泛化能力不足。

研究人员发现，这类数据偏差还会引发一个普遍问题——系统性软化。具体表现为模型倾向于低估非平衡结构的能量、原子受力以及声子频率，从而影响材料稳定性预测和热输运模拟。为解决这一问题，研究人员构建了OMat24，希望通过前所未有的数据规模和结构多样性推动下一代材料基础模型的发展。

方法

OMat24以Alexandria数据库中的约450万个平衡态晶体结构为起点，通过三种策略系统生成远离平衡态的新构型。第一种是Boltzmann采样，对晶体结构进行随机扰动并根据预测能量进行筛选；第二种是高温从头算分子动力学模拟（AIMD），在1000 K和3000 K条件下采样结构；第三种是扰动后重新弛豫过程中的轨迹采样。通过这些策略获得覆盖更广结构空间的训练样本。

所有结构均采用VASP进行DFT计算，获得能量、原子力和晶胞应力标签。最终数据集包含约1.18亿个结构，其中训练集约1亿个结构，验证集500万个结构，并构建多个独立测试集用于评估模型泛化能力。研究人员利用OMat24训练EquiformerV2和eSEN等图神经网络模型，并在Matbench-Discovery等标准基准上进行评测。

结果

构建迄今最大的开放无机材料训练数据集

研究人员首先介绍了OMat24的整体规模和组成。该数据集包含超过1.18亿个DFT结构，规模比现有公开无机材料数据集高出1至2个数量级。与以往主要关注平衡态结构的数据集不同，OMat24特别强调非平衡态结构采样，因此能够更全面覆盖真实材料模拟中可能出现的构型空间。

统计结果显示，大多数结构包含20个以下原子，但同时也纳入了大量来自AIMD模拟的大尺寸晶胞结构。能量、力和应力分布均明显宽于Alexandria和MPtrj，反映出更丰富的非平衡态采样。周期表元素覆盖范围也达到目前公开数据集中的领先水平。

图1：OMat24数据集构建流程、采样策略、结构分布以及元素覆盖范围。

建立严格的数据划分与泛化评测体系

为了避免训练集与测试集之间的数据泄漏，研究人员设计了多个测试集。

其中WBM测试集用于与Matbench-Discovery排行榜保持一致；OOD-Composition测试集用于评估模型对未见组成的泛化能力；OOD-Element测试集用于评估模型对未知元素组合的预测能力。此外还保留了独立的ID测试集用于常规评估。

研究人员指出，相比简单随机划分，这种设计能够更加真实地反映模型在材料发现任务中的实际表现。特别是WBM测试集表现出最大的分布偏移，因此成为衡量模型泛化能力的重要指标。

图2：OMat24训练集、验证集及多个测试集划分策略与分布。

OMat24训练模型刷新Matbench-Discovery纪录

研究人员利用OMat24预训练eSEN和EquiformerV2模型，并在Matbench-Discovery基准上进行测试。

结果显示，eSEN-30M模型获得0.925的F1分数以及18 meV/atom的形成能预测误差，刷新当时公开排行榜纪录。多个基于OMat24训练的模型同时占据排行榜前列，说明性能提升并非来自特定模型架构，而是来自数据集本身。进一步分析发现，即使是原本为催化体系设计的OC20预训练模型，在使用OMat24后也获得明显提升，证明大规模非平衡态数据对于材料基础模型具有普适价值。

研究人员统计Matbench-Discovery发展历程后发现，自OMat24公开后，排行榜前五名模型全部采用了该数据集进行训练或预训练，显示其已经成为该领域事实上的标准训练资源。