带映射和带结构之间的机器学习路线

简介: 带映射和带结构之间的机器学习路线

电子能带结构和晶体结构是固态材料的两个相辅相成的标志。虽然方便的仪器和重建算法已经使大型经验晶体结构数据库成为可能,但从光电发射带映射(band mapping)数据中提取准粒子色散(与带结构密切相关)目前受到现有计算方法的限制。

为了应对不断增长的光发射数据的大小和规模,来自德国马克斯·普朗克计算机科学研究所(Max Planck Institute for Intelligent Systems)的研究团队开发了一个管道,包括概率机器学习和相关的数据处理、带结构重建的优化和评估方法,利用理论计算。该管道重构了半导体的所有 14 个价带,并在基准和其他材料数据集上显示出出色的性能。

重建揭示了以前在全球和局部尺度上无法获得的动量空间结构信息,同时实现了与材料科学数据库集成的路径。所提方法说明了结合机器学习和领域知识在多维数据中进行可扩展特征提取的潜力。

该研究以「A machine learning route between band mapping and band structure」为题,于 2022 年 12 月 30 日发布在《Nature Computational Science》上。

论文链接:https://www.nature.com/articles/s43588-022-00382-2

材料电子能带结构 (BS) 的建模和表征在材料设计和器件仿真中起着至关重要的作用。BS 存在于动量空间 Ωkx,ky,kz,E 中,并印记了周期性受限电子的能量(E)和动量(kx,ky,kz)之间的多维和多值函数关系。

使用动量和能量分辨光电子能谱 (PES),包括角度分辨 PES (ARPES) 和多维 PES 的光电子能带映射将 BS 测量为直接在 Ω 中的强度值多元概率分布。

近期硬件升级带来的能带映射数据集的激增及其公开可用性带来了理论和实验综合基准测试的可能性,这对于具有复杂能带色散的多带材料尤其具有挑战性。

解释光电子能谱的可用方法分为两类:基于物理的方法,需要对一维线形进行最小二乘拟合,命名为能量或动量分布曲线(EDC 或 MDC),以及分析模型。尽管基于物理的数据模型保证了高精度和可解释性,但由于有限的数值稳定性和效率,将逐点拟合(或估计)升级到动量空间中的大型密集采样区域(例如,包括 10^4 个或更多动量位置)会带来挑战。因此,它们的使用仅限于根据材料的物理知识和实验设置启发式确定的选定动量位置。基于图像处理的方法应用数据转换来提高分散特征的可见性。它们的计算效率更高,可以对整个数据集进行操作,但仅提供潜在带色散的视觉增强。它们不允许重建,因此不足以进行真正的定量基准测试或归档。

图 1:从带映射到 BS。(来源:论文)

平衡这两种方法的方法将以足够高的精度提取带色散,并可扩展到多维数据集,因此为从复杂的带映射数据中提取结构信息以及构建用于注释和理解光谱的有效工具提供了基础。

在这方面,研究人员提出了一个计算框架,用于将光发射(或准粒子)BS 全局重建为一组能量(或电子)带,由沿动量坐标连接的能量值(即带位点)形成。这种局部连通性假设比使用光发射强度的局部最大值更有效,因为局部最大值并不总是带位点的良好指标。基于概率机器学习模型,在该框架中利用理论与实验之间的联系来近似来自带映射实验的强度数据。该模型的要点植根于贝叶斯规则:

为了证明该方法的有效性,研究人员首先重建了半导体二硒化钨(WSe2)在投影的第一布里渊区(in (kx, ky, E)坐标)内所有 14 个价带的整个 3D 色散面 E(kx, ky),沿每个动量方向跨越 ~ 7ev 的能量和~3 Å^−1。还将信息学工具应用于 BS 数据,以在全球范围内对重建的 BS 和理论的 BS 进行采样和比较。使用合成数据和提取的局部结构参数以及逐点拟合验证了重建的准确性。可用数据和 BS 信息学能够以 <0.02Å^−1 的分辨率详细比较带色散。对其他材料和模拟数据的数据集进行了各种测试和基准测试,其中可以使用基准真相(ground truth)来评估准确性和计算效率。

此处描述的重建方法提供了从光电发射带映射获得的经验带色散 () 与通过各种动量相关「扰动」() 阶数的理论对应物 () 之间的定量联系。这种联系可以表示为:

在上式中,b 是能带指数,Σ 表示电子自能,零阶项()表示刚性位移,高阶项具有增加的动量依赖非线性。在这里的结果表明,该公式导致实际的能带重建,它为每个实验可分辨的能带恢复以上等式中的累积扰动(ΔEb)。当前重建精度和稳定性的结果应该有助于解释深层带,参数化多带哈密顿模型。从 3D 带映射数据到几何特征向量(方法)的数据大小减少了 5,000 多倍,促进了数据库集成。

除了好处之外,该重建方法存在三个局限性。首先,重建方法不能从头算,需要知道能带的数量。其次,当电子自能调制很大时,需要将所谓的裸带色散(即单粒子色散)与准粒子色散分开,以了解材料物理属性。第三,如果需要更高层次的理论(例如具有混合泛函和 GW 的 DFT),或者由于材料系统的复杂性,包括未确定的微观相互作用、样品缺陷或结构紊乱,以及 kz 色散造成的强强度模糊等,由于计算成本,适当的初始化可能是昂贵的或不可能获得。这些场景对于带重建仍然具有挑战性。

越来越多的来自材料科学界的可公开访问和可重复使用的数据集激发了未来对模型的扩展,使用其他类型的信息先验,在保持计算效率的同时考虑物理信号的全部复杂性。

总的来说,多学科方法提供了构建下一代高通量材料表征工具包的示例,将学习算法与物理知识相结合,以达到迄今为止无法实现的对材料特性的全面理解。

相关文章
|
7月前
|
机器学习/深度学习 算法
机器学习(八)经验风险与结构风险
机器学习(八)经验风险与结构风险
141 0
|
机器学习/深度学习 自然语言处理 算法
制定机器学习规划路线:从入门到专业
制定机器学习规划路线:从入门到专业
|
机器学习/深度学习
机器学习增强量子化学领域的新突破,用半经验量子力学方法的结构来构建动态响应的哈密顿量
机器学习增强量子化学领域的新突破,用半经验量子力学方法的结构来构建动态响应的哈密顿量
268 0
机器学习增强量子化学领域的新突破,用半经验量子力学方法的结构来构建动态响应的哈密顿量
|
机器学习/深度学习 编解码 测试技术
Absolut! 能不受约束地生成抗体-抗原结构,指导用于抗体特异性预测的机器学习方法
Absolut! 能不受约束地生成抗体-抗原结构,指导用于抗体特异性预测的机器学习方法
136 0
|
机器学习/深度学习 人工智能 算法
Mila唐建团队开源大分子机器学习平台TorchProtein:分析蛋白质序列及结构数据,仅需一两行代码
Mila唐建团队开源大分子机器学习平台TorchProtein:分析蛋白质序列及结构数据,仅需一两行代码
358 0
|
机器学习/深度学习 Python 容器
100天搞定机器学习|Day35 深度学习之神经网络的结构
100天搞定机器学习|Day35 深度学习之神经网络的结构
100天搞定机器学习|Day35 深度学习之神经网络的结构
|
27天前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
88 4
|
6天前
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
22 2
|
24天前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
39 1
|
1月前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络