AI4Science之分子材料成像调研洞察

简介: 分子成像在材料科学中意义重大,通过位形空间、频率空间和光谱学等成像方法,揭示材料微观结构与动态变化。结合AI技术,可深入理解材料特性,解决能源、环境等问题。然而,该领域数据复杂,尚无统一的数据集和Benchmark,模型也处于初期阶段。本文从成像方法、任务类型、机器学习模型、数据集与Benchmark、Python工具包及通用模型等多个维度进行了调研,探讨了多模态数据利用、大规模数据集构建等关键问题,并列举了相关参考论文。

分子成像在材料科学中具有重要的意义。以位形空间成像为例,通过观察材料内部分子的分布和相互作用,可以辅助科研人员揭示材料微观结构和组成,研究材料的表界面性质,探索材料的动态变化和相变过程,评估功能材料的性能,指导新材料的设计和优化。分子成像技术与大数据和AI的结合可以更深入地理解材料的本质特性,为解决能源、环境等领域的关键问题提供新的思路和解决方案。

相比传统的深度学习任务,分子材料成像任务庞大繁杂,且数据结构、种类跨度极大,与AI的结合仍处于初期阶段,尚无业界认可的"包罗万象"的数据集,新提出的模型方法也没有公认的可以刷点对标的"benchmark",更没有 "大一统" 的AI模型,但考虑到分子材料成像领域的重要程度,或许在不久的将来,会有大量研究机构布局,科研人员扎堆,将“AI+分子材料成像”领域从做成类似于当下【AI+分子生成】、【AI+分子属性预测】的"红海"。

本篇文章从成像方法(位形空间、频率空间、光谱学),任务类型(1D/2D分类、2D/3D重建、分割识别、模拟生成等),机器学习模型(CNN、VAE、GP、Transformer等),数据集与Benchmark,python工具包,通用模型(Segment Anything Model)等多个维度和角度对分子材料成像领域进行了调研。

1. 从成像方法出发,从位形空间、频率空间、光谱学三个角度展开调研。其中,位形空间成像包括光学显微镜、电子显微镜、扫描探针显微镜;频率空间成像包括X射线衍射、电子衍射、中子衍射。

  • 位形空间成像
  • 光学显微镜
  • 包括二维纳米结构光学识别,形貌图象的模拟实验数据生成,基于光学显微镜的晶体取向绘制等
  • 电子显微镜
  • 包括晶界原子坐标识别,原子缺陷的聚类分析,应力分布的预测,基于局部坐标信息的化学演变探索等
  • 扫描探针显微镜
  • 包括化学短程有序(CSRO)的定量三维成像,探索相变和构建相图,手性模式的识别,位点定位等
  • 频率空间成像
  • X射线衍射
  • 包括衍射图片分类,相分析,相变分析,晶体结构分析,缺陷及应力分析,单晶信号分离,衍射重建等
  • 电子衍射
  • 包括图像去噪、筛选、分割,电镜的自动化位点选取、参数设置等
  • 中子衍射
  • 利用经过物体的单像素信号和参考光场间的相干性的图像解析
  • 光谱学
  • 原子发射光谱(OES/AES)、原子吸收光谱(AAS)、X射线荧光光谱(XRF)、X射线能量色散谱法(EDX)、俄歇电子能谱法(AES)、X射线光电子能谱法(XPS)、拉曼光谱、核磁共振谱等
  • 包括核磁共振谱的峰值定位、理论和实验匹配,基于拉曼谱成像的空间分割,拉曼光谱去噪及特征提取等

2. 从任务类型出发,将调研的研究论文中使用的方法划分如下:1D/2D分类,回归,聚类,定位,分割,检测,去噪,数据筛选,超分,模拟生成,2D/3D重建

3. 从模型角度出发,识别阐述了上述分类中常用的机器学习模型,并列举了经典/SOTA的论文应用。以电子显微镜STEM(Scanning Transmission Electron Microscopy)为例:

  • 卷积神经网络CNN:
  • Identify atom column positions
  • Cluster atom positions and characteristic of defects
  • Denoise (e.g., Noise2Atom)
  • 高斯过程Gaussian Process:
  • Predict strain distribution by reconstructing the atomic positions more accurately
  • 变分自编码器Auto Encoders:
  • Image reconstruction
  • Exploration of the chemical evolution based on local structural changes (e.g., rVAE)
  • Learn relationships between structure in an image and property in spectral data (e.g., im2spec)
  • 生成对抗网络GAN:
  • Create realistic STEM image with small data difference between experiments (e.g., CycleGAN)
  • k均值聚类算法K-means:
  • Reveal unexpected deformations across a large sample area

4. 从数据集与Benchmark角度,本篇文章搜集了如下业界常用的:

  • 电子显微镜降噪:EM_Denoise
  • 5GB的仿真数据集,由256x256像素的图片构成
  • 电子显微镜分割:EM-stellar
  • 通用图像分割识别:MicroNet,MicroLite
  • 数据集介绍:
  • MicroNet包含54 种材料的110861张显微镜图像,每张图像的分辨率为1048×741 像素。图片来自光学显微镜,扫描电镜,穿透式电镜。数据集包含不同种类的材料,如metals, polymers, ceramics, composites
  • Benchmark模型:
  • 分类模型,包括基于CNN的模型,如VGG (with and without batch normalization), DenseNet, dual path networks (dpn), EfficientNet, ResNet, Inception-V4, Inception-Resnet-V2, Xception, MobileNet-V2, ResNeXt, and SE-Net;以及基于Transformer的模型,如CNN与SwinTransforer的结合(如下图)
  • 分割模型,包括Unet, Unet++, Linknet, FPN, PSPNet, PAN, and DeepLabV3+

5. 从python工具包角度,本篇报告整理了业界广泛使用的,针对不同数据类型又很多plugins的工具包:

  • HyperSpy
  • Atomap:针对atomic resolution image analysis
  • LumiSpy:针对luminescence spectroscopy data analysis
  • pyxem:针对4D-STEM data analysis
  • Python-based Pycroscopy Ecosystem
  • STEMTools
  • AtomAI library:包含deep kernel learning, invariant representation learning
  • PyTEMLib library:针对基于模型的定量化分析

6. 除了针对单一领域的模型与应用,通用模型是近年来的研究热潮。分类、分割、识别模型有一定通用性,交互式分割的应用场景很广,存在基于通用图像分割大模型SAM (Segment Anything Model) 的研究。不需要为任务、数据集进行专门的训练、微调,可直接用预训练模型和prompt完成分割。下图为SAM在四种材料显微图像数据集上的零样本分割表现。第二行为SAM 输出的不同分割区域的掩码结果,第三行为经过连通域处理后得到的二值掩码图。该结果表明通用领域数据集获得的对目标边界的知识可以应用到材料显微组织、晶粒等图像上。

值得讨论的问题:

  1. 如何在分子材料成像领域有效的利用多模态、跨度大、结构种类多的数据?
  2. 构建业界广泛认可的大规模数据集和Benchmark测试存在哪些技术难点?
  3. 通用图像分割识别模型在分子材料成像领域的应用潜力?
  4. 去噪的任务跟实验设备相关性较强,建立通用模型是否不可行?

参考论文:

  • UHRED Unsupervised hyperspectral stimulated Raman microscopy image enhancement: denoising and segmentation via one-shot deep learning
  • SEDCNN A machine learning model for textured X-ray scattering and diffraction image denoising
  • CystalMELA a new crystallographic machine learning platform for crystal system determination
  • CNN-SPI Evaluation of the performance of classification algorithms for XFEL single-particle imaging data
  • MLP-SFX Data reduction for X-ray serial crystallography using machine learning
  • Artifact Identification Artifact Identication in X-ray Diraction Data using Machine Learning Methods
  • NMR peak shift DP4-AI automated NMR data analysis: straight from spectrometer to structure
  • 2DCCNN Complex imaging of phase domains by deep neural networks
  • 3DCCNN Three-dimensional coherent X-ray diffraction imaging via deep convolutional neural networks
  • ECDFormer Deep peak property learning for efficient chiral molecules ECD spectra prediction
  • EM_Denoise Deep denoising for scientific discovery: A case study in electron microscopy
  • MicroNet Microstructure segmentation with deep learning encoders pre-trained on a large microscopy dataset
  • MicroLite Transfer learning for microstructure segmentation with CS-UNet: A hybrid algorithm with transformer and CNN encoders
  • Autonomous scanning Autonomous scanning probe microscopy investigations over WS2 and Au{111}
  • AtomSegNet TEMImageNet training library and AtomSegNet deep‑learning models for high‑precision atom segmentation, localization, denoising, and deblurring of atomic‑resolution images
  • APT 3D A machine-learning enhanced approach to break the inherent resolution limits of atom probe tomography enabling three-dimensional imaging of multiple CSROs (Chemical short-range order)
  • Data augmentation Data augmentation in microscopic images for material data mining
相关文章
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
|
5月前
|
SQL 人工智能 自然语言处理
数据驱动的下一站:AI Agent实现洞察与行动的自动闭环​
2025年,AI Agent正推动商业智能从“被动查询”迈向“主动决策”。本文系统解析AI Agent核心技术、应用场景与实施路径,助力企业构建以语义层为核心的智能分析体系,实现从数据洞察到自动行动的闭环,全面提升决策效率与数据ROI。
1001 11
|
5月前
|
人工智能 异构计算
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
|
6月前
|
人工智能 安全 算法
2025 WAIC探展合合信息展台:AI鉴伪技术洞察“看不见”的伪造痕迹
2025 WAIC世界人工智能大会上,合合信息展台展示了多项AI鉴伪黑科技,涵盖图像、视频和文档篡改检测,能毫秒级识别AI伪造内容,广泛应用于金融、保险、社交媒体等多个领域,助力构建安全可信的AI生态。
243 0
2025 WAIC探展合合信息展台:AI鉴伪技术洞察“看不见”的伪造痕迹
|
5月前
|
人工智能 开发者
外滩大会报名 | 破局 AI 时代,洞察大模型开源开发全景、趋势与机遇
当 AI 浪潮以肉眼可见的速度重塑全球技术格局,大模型的迭代如浪涌般此起彼伏,开发者们在开源社区的每一次代码提交、每一次项目引用,都在悄然勾勒着行业未来的走向。如何在纷繁复杂的技术演进中,看清 AI 生态的全景与未来?一场围绕大模型开源开发趋势的深度对话已蓄势待发。
152 0
|
7月前
|
人工智能 搜索推荐 程序员
从产品经理视角深度解析五款热门AI产品:洞察创新与用户价值
本文从产品经理视角深度解析五款热门AI产品,包括ChatGPT、Midjourney、Notion AI、Perplexity与GitHub Copilot,剖析其成功要素与不足,总结AI产品设计的核心方法论,如用户体验优先、场景化落地、信任机制构建等,为AI时代的产品创新提供实践启示。
815 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
AI时代职业新风口:调研报告揭示57.2%受访者向往AI领域,生成式人工智能(GAI)认证成职场新宠
人工智能(AI)正成为职场新宠,57.2%受访者考虑从事相关职业。AI领域不仅薪资优厚、前景广阔,还充满创新挑战。生成式人工智能(GAI)认证逐渐成为衡量AI技能的重要标准,助力求职者掌握核心知识、提升实战能力及增强合规意识。面对AI时代的机遇与挑战,持续学习、关注行业动态和拓展人脉将成为职场竞争的关键。让我们共同迎接AI带来的美好未来!
|
机器学习/深度学习 数据采集 人工智能
AI在用户行为分析中的应用:实现精准洞察与决策优化
AI在用户行为分析中的应用:实现精准洞察与决策优化
1755 15
|
存储 人工智能 运维
AI + 可观测最佳实践:让业务从“看见”到“洞察”
本文介绍了AI Ops的概念及其在提升系统运维效率、洞察力和可观测性方面的作用。主要内容分为三个部分:一是监控、观测与洞察的区别及挑战,强调了数据整合和语义对齐的重要性;二是AI与计算如何重塑可观测性,通过UModel数字图谱和多模态存储分析架构实现数据联通;三是最佳实践与未来展望,展示了阿里云AI Stack可观测解决方案的应用案例,并总结了可观测性的四个发展阶段,最终愿景是借助AI力量让每个人成为多领域的专家。