首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Adv. Sci. | 生成式AI驱动钙钛矿太阳能电池钝化分子加速发现

Adv. Sci. | 生成式AI驱动钙钛矿太阳能电池钝化分子加速发现

作者头像
DrugOne
发布2026-04-10 17:15:45
发布2026-04-10 17:15:45
1270
举报
文章被收录于专栏:DrugOneDrugOne

文献来源:Fajar A.T.N. et al., Advanced Science, 2026, DOI: 10.1002/advs.202523042 发表机构:日本九州大学


引言

如果有一个 AI,不需要人类告诉它"这个分子可能好用",就能自己从零设计出有效的新材料分子——你会怎么想?

这不是科幻。2026年3月,日本九州大学的研究团队在《Advanced Science》上发表了一项令人振奋的研究:他们用生成式 AI,首次自动设计出了用于钙钛矿太阳能电池的钝化分子,并在实验室完成了验证。


为什么这件事很重要?

钙钛矿太阳能电池(PSC)近年来发展迅猛,单结效率已突破 27%,被认为是下一代光伏技术的明星选手。但它有一个卡脖子的问题:界面缺陷

缺陷会导致载流子复合,拉低效率、降低寿命。科学家的解决思路是:在钙钛矿表面涂上一层"钝化分子",把缺陷堵住。听起来简单,但现实是——好用的钝化分子要靠人类专家凭经验一个个试,效率极低,能搜索的化学空间也极其有限。

化学空间据估计超过 10⁶⁰ 种可合成小分子。用人力逐一筛选?那要试到宇宙终结。

生成式 AI 的范式转变

生成式 AI 提供了从"筛选已知分子"到逆向分子设计的范式转变。合成可及的小分子化学空间估计超过 10⁶⁰,生成模型理论上可在此空间中自由探索。SyntheMol(抗生素发现)和 MatterGen(晶体结构生成)已在各自领域展示了生成式 AI 的威力,但其在 PSC 钝化分子领域的应用至今仍是空白。


这项研究做了什么?

2.1 整体工作流程

研究采用三阶段闭环流水线:

代码语言:javascript
复制
[阶段一] 数据库构建与判别模型训练
    文献挖掘 → Data T0(314分子)→ SMILES-X 分类模型
         ↓
[阶段二] 化学空间扩展与生成
    数据增强(PubChem相似性检索)→ Data T1(>11,000分子)
    → GPT-2 微调(3轮迭代)→ 生成 >100,000 新分子
    → 7维物化性质过滤 → ~8,000 候选分子
    → 聚类分析(10簇)→ 10 代表性分子
         ↓
[阶段三] 实验验证
    3 个分子 → 反型 PSC 器件制备 → 光电性能表征

2.2 数据集构建(Data T0)

数据来源:系统性挖掘综述文章及相关一手文献,手动核实原始出版物。

数据预处理

  • • 去除重复结构,转化为规范 SMILES
  • • 提取初始/最终 PCE 值,计算归一化 PCE 提升量(ΔPCEnorm)
  • • 最终获得 314 个唯一标注分子

分类规则

  • Class 1(有效):ΔPCEnorm ≥ 0.10
  • Class 0(无效):ΔPCEnorm < 0.10

数据集特征分析

  • • 原子类型:以 C、O、N 为主,含 F、S、Cl 等卤素
  • • 分子大小:多数小于 20 个原子(最大达 60 原子)
  • • 化学空间(PCA/UMAP):有效与无效分子在化学空间中高度混叠,表明结构-活性关系极为复杂

2.3 判别模型:SMILES-X 分类器

模型架构:SMILES-X 直接以 SMILES 字符串为输入,无需人工特征提取,端到端映射至属性标签,遵循自然语言处理范式。

训练策略:五折交叉验证

性能指标

指标

数值

最优阈值(F1最大化)

0.47

F1 分数

0.80

精确率(平均)

0.82

召回率(平均)

0.82

PRC-AUC

0.86

ROC-AUC

0.88

混淆矩阵(5折汇总)

预测 Class 0

预测 Class 1

实际 Class 0

TN = 157

FP = 24

实际 Class 1

FN = 31

TP = 102

SMILES-X 与随机森林(Morgan 指纹)性能相当,但无需显式特征提取,可无缝集成至语言模型生成框架,因此被选为判别组件。

2.4 数据增强(Data T-aug)

由于 Data T0 规模过小(314条),不足以直接微调 LLM,研究采用以下策略扩增:

  • • 从 PubChem 检索与 Data T0 中 Class 1 高效分子(ΔPCEnorm > 0.16)Tanimoto 相似度 ≥ 80% 的分子
  • • 获得 15,540 个额外条目(Data T-aug)
  • • 其中约 70% 被 SMILES-X 分类为 Class 1
  • • 合并 Data T0 与 Data T-aug 中的 Class 1 分子,构成微调数据集 Data T1(>11,000 分子)

2.5 生成模型:GPT-2 迭代微调

模型选择:同时训练了 GPT-2 和 LLaMA-2(70亿参数),对比如下:

维度

GPT-2

LLaMA-2

训练损失

0.13

0.15

训练时长

基准

5× 更长

推理速度

基准

>100× 更慢

参数量

较小

70亿

最终选择

✓ 选用

✗ 未采用

迭代微调策略

  • Cycle 1:在 Data T1 上初次微调,生成约 30,000 个化学有效、唯一且新颖(CUN)分子
  • Cycle 2:将 Cycle 1 中的 Class 1 分子并入训练集,重新微调后生成量显著提升
  • Cycle 3:再次扩充训练集,CUN 分子总量突破 100,000

结果统计

  • • 总生成量(Data G-all):>100,000 个 CUN 分子
  • • 预测有效(Data G-class1):87,750 个(占比 >80%)
  • • 化学多样性:Tanimoto 相似度分析显示大多数生成分子与训练集具有中等相似度,而非简单复制——验证了模型真正在探索新化学空间

终止条件:第三轮后停止迭代,以维持约 10 万分子的可管理规模,并防止已被先前研究记录的"模型崩塌"(model collapse)现象。

2.6 多维物化性质过滤

对 87,750 个 Class 1 预测分子依次施加 7 项过滤准则:

过滤条件

阈值/要求

设计依据

合成可及性(SA 分数)

≤ 6

确保实际可合成

PAINS 子结构

排除

避免非特异性反应性

氢键供体(HBD)

0–2

平衡界面作用强度与分子稳定性

氢键受体(HBA)

2–5

同上

拓扑极性表面积(TPSA)

50–120 Ų

适合薄膜相容性的中等极性

能带隙

1.5–5.0 eV

有利于电子稳定性

偶极矩

1.5–4.0 D

促进方向性界面相互作用

过滤后保留约 8000 个候选分子(<10%)。

2.7 聚类与代表性分子选取

  • • 对 8000 个候选分子计算 Morgan 分子指纹
  • • 采用层次凝聚聚类算法分为 10 个簇
  • • 每簇随
  • 机选取 1 个代表性分子
  • • 经领域专家
  • 评估,选出 3 个进入实验验证

最终选出的 3 个分子

分子

来源

说明

DL-扁桃酸(S9)

商业现货

常用于抗菌/美容配方

4-马来酰亚胺丁酸(MBA,S10)

商业现货

药物-蛋白偶联试剂

马来酸单酰胺

商业类似物

S3 的结构类似物(Tanimoto = 85%),S3 本身需定制合成


实验结果怎么样?

3 个 AI 推荐的分子,全部在实际器件中展现出钝化效果,开路电压均有提升。其中,4-马来酰亚胺丁酸(MBA)的表现最为亮眼:

  • 开路电压提升:1.08→1.12 V
  • 平均光电转换效率:19.3%→22.2%
  • 迟滞指数大幅下降:0.160→0.036

冠军器件在反向扫描下甚至达到了 24.13% 的效率。研究团队还通过 XPS、光致发光、DFT 计算等多种手段,证实了 MBA 与钙钛矿表面 Pb²⁺ 位点的强配位作用,以及其对界面能级排列的优化效果。

生成式 AI 可以自主提出合成可及、功能有效的钝化分子,为材料加速发现提供了超越传统化学空间探索的全新范式。


写在最后

本研究展示了生成式 AI 在材料发现领域的一个清晰可行的范式:以极小的初始数据集为起点,通过语言模型驱动的迭代生成-筛选-验证闭环,系统性地探索此前人类难以涉足的化学空间。

科研提速的竞赛正在全面展开。从抗生素到电池材料,AI 正在把"试遍所有可能"从不可能变成现实。AI 可以不依赖人类直觉,主动探索未曾被涉足的化学空间,并给出可以直接进实验室验证的候选分子。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 为什么这件事很重要?
    • 生成式 AI 的范式转变
  • 这项研究做了什么?
    • 2.1 整体工作流程
    • 2.2 数据集构建(Data T0)
    • 2.3 判别模型:SMILES-X 分类器
    • 2.4 数据增强(Data T-aug)
    • 2.5 生成模型:GPT-2 迭代微调
    • 2.6 多维物化性质过滤
    • 2.7 聚类与代表性分子选取
  • 实验结果怎么样?
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档