AI4Science之分子材料成像调研洞察

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 分子成像在材料科学中意义重大,通过位形空间、频率空间和光谱学等成像方法,揭示材料微观结构与动态变化。结合AI技术,可深入理解材料特性,解决能源、环境等问题。然而,该领域数据复杂,尚无统一的数据集和Benchmark,模型也处于初期阶段。本文从成像方法、任务类型、机器学习模型、数据集与Benchmark、Python工具包及通用模型等多个维度进行了调研,探讨了多模态数据利用、大规模数据集构建等关键问题,并列举了相关参考论文。

分子成像在材料科学中具有重要的意义。以位形空间成像为例,通过观察材料内部分子的分布和相互作用,可以辅助科研人员揭示材料微观结构和组成,研究材料的表界面性质,探索材料的动态变化和相变过程,评估功能材料的性能,指导新材料的设计和优化。分子成像技术与大数据和AI的结合可以更深入地理解材料的本质特性,为解决能源、环境等领域的关键问题提供新的思路和解决方案。

相比传统的深度学习任务,分子材料成像任务庞大繁杂,且数据结构、种类跨度极大,与AI的结合仍处于初期阶段,尚无业界认可的"包罗万象"的数据集,新提出的模型方法也没有公认的可以刷点对标的"benchmark",更没有 "大一统" 的AI模型,但考虑到分子材料成像领域的重要程度,或许在不久的将来,会有大量研究机构布局,科研人员扎堆,将“AI+分子材料成像”领域从做成类似于当下【AI+分子生成】、【AI+分子属性预测】的"红海"。

本篇文章从成像方法(位形空间、频率空间、光谱学),任务类型(1D/2D分类、2D/3D重建、分割识别、模拟生成等),机器学习模型(CNN、VAE、GP、Transformer等),数据集与Benchmark,python工具包,通用模型(Segment Anything Model)等多个维度和角度对分子材料成像领域进行了调研。

1. 从成像方法出发,从位形空间、频率空间、光谱学三个角度展开调研。其中,位形空间成像包括光学显微镜、电子显微镜、扫描探针显微镜;频率空间成像包括X射线衍射、电子衍射、中子衍射。

  • 位形空间成像
  • 光学显微镜
  • 包括二维纳米结构光学识别,形貌图象的模拟实验数据生成,基于光学显微镜的晶体取向绘制等
  • 电子显微镜
  • 包括晶界原子坐标识别,原子缺陷的聚类分析,应力分布的预测,基于局部坐标信息的化学演变探索等
  • 扫描探针显微镜
  • 包括化学短程有序(CSRO)的定量三维成像,探索相变和构建相图,手性模式的识别,位点定位等
  • 频率空间成像
  • X射线衍射
  • 包括衍射图片分类,相分析,相变分析,晶体结构分析,缺陷及应力分析,单晶信号分离,衍射重建等
  • 电子衍射
  • 包括图像去噪、筛选、分割,电镜的自动化位点选取、参数设置等
  • 中子衍射
  • 利用经过物体的单像素信号和参考光场间的相干性的图像解析
  • 光谱学
  • 原子发射光谱(OES/AES)、原子吸收光谱(AAS)、X射线荧光光谱(XRF)、X射线能量色散谱法(EDX)、俄歇电子能谱法(AES)、X射线光电子能谱法(XPS)、拉曼光谱、核磁共振谱等
  • 包括核磁共振谱的峰值定位、理论和实验匹配,基于拉曼谱成像的空间分割,拉曼光谱去噪及特征提取等

2. 从任务类型出发,将调研的研究论文中使用的方法划分如下:1D/2D分类,回归,聚类,定位,分割,检测,去噪,数据筛选,超分,模拟生成,2D/3D重建

3. 从模型角度出发,识别阐述了上述分类中常用的机器学习模型,并列举了经典/SOTA的论文应用。以电子显微镜STEM(Scanning Transmission Electron Microscopy)为例:

  • 卷积神经网络CNN:
  • Identify atom column positions
  • Cluster atom positions and characteristic of defects
  • Denoise (e.g., Noise2Atom)
  • 高斯过程Gaussian Process:
  • Predict strain distribution by reconstructing the atomic positions more accurately
  • 变分自编码器Auto Encoders:
  • Image reconstruction
  • Exploration of the chemical evolution based on local structural changes (e.g., rVAE)
  • Learn relationships between structure in an image and property in spectral data (e.g., im2spec)
  • 生成对抗网络GAN:
  • Create realistic STEM image with small data difference between experiments (e.g., CycleGAN)
  • k均值聚类算法K-means:
  • Reveal unexpected deformations across a large sample area

4. 从数据集与Benchmark角度,本篇文章搜集了如下业界常用的:

  • 电子显微镜降噪:EM_Denoise
  • 5GB的仿真数据集,由256x256像素的图片构成
  • 电子显微镜分割:EM-stellar
  • 通用图像分割识别:MicroNet,MicroLite
  • 数据集介绍:
  • MicroNet包含54 种材料的110861张显微镜图像,每张图像的分辨率为1048×741 像素。图片来自光学显微镜,扫描电镜,穿透式电镜。数据集包含不同种类的材料,如metals, polymers, ceramics, composites
  • Benchmark模型:
  • 分类模型,包括基于CNN的模型,如VGG (with and without batch normalization), DenseNet, dual path networks (dpn), EfficientNet, ResNet, Inception-V4, Inception-Resnet-V2, Xception, MobileNet-V2, ResNeXt, and SE-Net;以及基于Transformer的模型,如CNN与SwinTransforer的结合(如下图)
  • 分割模型,包括Unet, Unet++, Linknet, FPN, PSPNet, PAN, and DeepLabV3+

5. 从python工具包角度,本篇报告整理了业界广泛使用的,针对不同数据类型又很多plugins的工具包:

  • HyperSpy
  • Atomap:针对atomic resolution image analysis
  • LumiSpy:针对luminescence spectroscopy data analysis
  • pyxem:针对4D-STEM data analysis
  • Python-based Pycroscopy Ecosystem
  • STEMTools
  • AtomAI library:包含deep kernel learning, invariant representation learning
  • PyTEMLib library:针对基于模型的定量化分析

6. 除了针对单一领域的模型与应用,通用模型是近年来的研究热潮。分类、分割、识别模型有一定通用性,交互式分割的应用场景很广,存在基于通用图像分割大模型SAM (Segment Anything Model) 的研究。不需要为任务、数据集进行专门的训练、微调,可直接用预训练模型和prompt完成分割。下图为SAM在四种材料显微图像数据集上的零样本分割表现。第二行为SAM 输出的不同分割区域的掩码结果,第三行为经过连通域处理后得到的二值掩码图。该结果表明通用领域数据集获得的对目标边界的知识可以应用到材料显微组织、晶粒等图像上。

值得讨论的问题:

  1. 如何在分子材料成像领域有效的利用多模态、跨度大、结构种类多的数据?
  2. 构建业界广泛认可的大规模数据集和Benchmark测试存在哪些技术难点?
  3. 通用图像分割识别模型在分子材料成像领域的应用潜力?
  4. 去噪的任务跟实验设备相关性较强,建立通用模型是否不可行?

参考论文:

  • UHRED Unsupervised hyperspectral stimulated Raman microscopy image enhancement: denoising and segmentation via one-shot deep learning
  • SEDCNN A machine learning model for textured X-ray scattering and diffraction image denoising
  • CystalMELA a new crystallographic machine learning platform for crystal system determination
  • CNN-SPI Evaluation of the performance of classification algorithms for XFEL single-particle imaging data
  • MLP-SFX Data reduction for X-ray serial crystallography using machine learning
  • Artifact Identification Artifact Identication in X-ray Diraction Data using Machine Learning Methods
  • NMR peak shift DP4-AI automated NMR data analysis: straight from spectrometer to structure
  • 2DCCNN Complex imaging of phase domains by deep neural networks
  • 3DCCNN Three-dimensional coherent X-ray diffraction imaging via deep convolutional neural networks
  • ECDFormer Deep peak property learning for efficient chiral molecules ECD spectra prediction
  • EM_Denoise Deep denoising for scientific discovery: A case study in electron microscopy
  • MicroNet Microstructure segmentation with deep learning encoders pre-trained on a large microscopy dataset
  • MicroLite Transfer learning for microstructure segmentation with CS-UNet: A hybrid algorithm with transformer and CNN encoders
  • Autonomous scanning Autonomous scanning probe microscopy investigations over WS2 and Au{111}
  • AtomSegNet TEMImageNet training library and AtomSegNet deep‑learning models for high‑precision atom segmentation, localization, denoising, and deblurring of atomic‑resolution images
  • APT 3D A machine-learning enhanced approach to break the inherent resolution limits of atom probe tomography enabling three-dimensional imaging of multiple CSROs (Chemical short-range order)
  • Data augmentation Data augmentation in microscopic images for material data mining
相关文章
|
3月前
|
机器学习/深度学习 数据采集 人工智能
AI在用户行为分析中的应用:实现精准洞察与决策优化
AI在用户行为分析中的应用:实现精准洞察与决策优化
317 15
|
3月前
|
存储 人工智能 运维
AI + 可观测最佳实践:让业务从“看见”到“洞察”
本文介绍了AI Ops的概念及其在提升系统运维效率、洞察力和可观测性方面的作用。主要内容分为三个部分:一是监控、观测与洞察的区别及挑战,强调了数据整合和语义对齐的重要性;二是AI与计算如何重塑可观测性,通过UModel数字图谱和多模态存储分析架构实现数据联通;三是最佳实践与未来展望,展示了阿里云AI Stack可观测解决方案的应用案例,并总结了可观测性的四个发展阶段,最终愿景是借助AI力量让每个人成为多领域的专家。
|
2月前
|
存储 数据采集 算法
构建AI数据管道:从数据到洞察的高效之旅最佳实践
本文探讨了大模型从数据处理、模型训练到推理的全流程解决方案,特别强调数据、算法和算力三大要素。在数据处理方面,介绍了多模态数据的高效清洗与存储优化;模型训练中,重点解决了大规模数据集和CheckPoint的高效管理;推理部分则通过P2P分布式加载等技术提升效率。案例展示了如何在云平台上实现高性能、低成本的数据处理与模型训练,确保业务场景下的最优表现。
|
3月前
|
人工智能 Cloud Native 数据管理
数据+AI融合趋势洞察暨阿里云OpenLake解决方案发布
Forrester是全球领先的市场研究与咨询机构,专注于新兴技术在各领域的应用。本文探讨如何加速现代数据管理,推动人工智能与客户业务的融合创新。面对数据标准缺乏、多云环境复杂性、新兴业务场景及过多数据平台等挑战,Forrester提出构建AI就绪的数据管理基石,通过互联智能框架、全局数据管理和DataOps、端到端数据管理能力、AI赋能的数据管理以及用例驱动的策略,帮助企业实现数据和AI的深度融合,提升业务价值并降低管理成本。
|
5月前
|
机器学习/深度学习 人工智能 自动驾驶
2024.10|AI/大模型在机器人/自动驾驶/智能驾舱领域的最新应用和深度洞察
本文介绍了AI和大模型在机器人、自动驾驶和智能座舱领域的最新应用和技术进展。涵盖多模态大语言模型在机器人控制中的应用、移动机器人(AMRs)的规模化部署、协作机器人的智能与安全性提升、AR/VR技术在机器人培训中的应用、数字孪生技术的优化作用、Rust语言在机器人编程中的崛起,以及大模型在自动驾驶中的核心地位、端到端自动驾驶解决方案、全球自动驾驶的前沿进展、智能座舱的核心技术演变和未来发展趋势。
480 2
|
6月前
|
人工智能 安全 网络安全
AI洞察-202409
Gartner报告显示,AI与生成式AI技术的发展预计将使2025年全球信息安全投资增长15%,主要体现在应用安全、数据安全及基础设施保护等领域。此外,2024年调查显示,58%的金融企业已采用AI技术,显著高于2023年的37%,且这一趋势持续上升。[来源:Gartner]
|
5月前
|
人工智能
AI洞察-202410
### 监管动态 ### AI动态
|
7月前
|
数据采集 人工智能 自然语言处理
阿里云Elasticsearch AI语义搜索:解锁未来搜索新纪元,精准洞察数据背后的故事!
【8月更文挑战第2天】阿里云Elasticsearch AI场景语义搜索最佳实践
322 5
|
7月前
|
人工智能 数据处理 Python
🔍数据侦探的AI助手:Prompt技巧大公开,洞察商业先机不手软
【8月更文挑战第1天】在数据驱动时代,AI助手作为数据侦探的强大伙伴,通过精心设计的AI Prompt技巧帮助解析复杂市场。案例中,一电商平台欲进入新兴市场,面临数据挑战。初始Prompt聚焦消费者偏好及影响因素分析。为进一步深化洞察,Prompt加入节假日购物模式、商品类别偏好及社交媒体影响等细节。结合领域知识,优化Prompt关注价格敏感度与定制化营销策略。最终,AI助手生成的报告揭示了消费者行为模式,并提出市场策略建议,助力电商成功布局新兴市场。此过程展示了AI Prompt在商业洞察中的关键作用,预示着其在未来洞察之旅中的广阔前景。
146 2
|
10月前
|
人工智能 搜索推荐 大数据
【视频】如何用人工智能AI、大数据打动消费者洞察PPT|报告分享
【视频】如何用人工智能AI、大数据打动消费者洞察PPT|报告分享