机器学习赋能扫描透射电镜：重新理解原子-竞赢科仪-广州竞赢科学仪器有限公司

作者：孙千本文转载自公众号：老千和他的朋友们。原文地址：https://mp.weixin.qq.com/s/sVbZ2ZNgoeafZ2IlOT_o5A

扫描透射电镜（STEM）是材料科学、凝聚态物理与催化化学领域原子尺度表征的金标准，依托像差校正技术的革命性突破，它实现了个位数皮米级的原子定位精度，能直接看清固体材料中单个原子与原子列的排布。

但随着四维STEM（4D-STEM）、动量分辨电子能量损失谱（q-EELS）等多维表征技术的普及，STEM每秒产出的海量高维数据——仅4D-STEM单次实验就能生成包含数百万个衍射图的数据集，早已远超人工分析的极限，在数据采集与科学发现之间形成了难以突破的瓶颈。

机器学习的加入，绝非简单提升数据处理效率，而是重构了STEM的核心能力——将它从一台只能被动拍摄原子图像的观测设备，升级为可自动分析、智能解读、精准操控原子的全自主科研平台。本文将讨论机器学习与STEM的融合逻辑、对基础科研的颠覆性价值，同时梳理领域现存的关键挑战与发展方向。

原子观测的金标准

STEM的工作原理并不复杂：设备在高真空环境下，将30kV-300kV加速电压下的电子束聚焦成极细的探针，在厚度小于10纳米的超薄样品上逐点扫描，探测器捕捉与样品作用后散射的电子信号，最终重构出原子级清晰的图像。电子束像差校正技术是这一设备的核心突破，传统圆形电磁透镜无法消除像差，而校正器采用非圆形多极透镜组合，将电子探针的半高宽缩小至50皮米以下，这一尺寸甚至小于氢原子的玻尔半径（53皮米），让人类首次实现了稳定的单原子可视化观测。

值得注意的是，样品厚度超过约10nm时，电子会在样品内部发生多次动态散射，还会出现沿原子列传播的通道效应——电子更倾向于沿着原子密度高的区域穿行，导致图像中原子列的强度分布失真，让直接定量解析变得复杂，这也是高精度观测必须严控样品厚度的核心原因，通常需通过机械抛光、聚焦离子束（FIB）减薄等技术将样品处理至目标厚度。

现代STEM整合了电子发射源、电磁聚光镜、像差校正器、像素化探测器与谱学模块，支持多探测器并行采集信号，能像素级比对互补信息，同步获取材料的结构、化学、电子态等多维数据，不再局限于单一的图像拍摄。根据成像机制，STEM可分为相干成像与非相干成像，高角环形暗场（HAADF）成像属于典型的非相干成像，不同原子的散射信号无干涉干扰，信号强度仅与原子自身特性相关，是原子观测的主流模式。

在成像模式上，STEM有分工明确的技术体系：高角环形暗场（HAADF）成像依靠 Z 衬度效应，信号强度与原子序数 Z 的 1.7 次方成正比，原子越重图像上越亮，专门用于观测金属原子等重元素；环形明场（ABF）成像突破了传统技术的局限，能清晰捕捉碳、氧、氮等轻原子；差分相衬（DPC）成像利用四分段环形探测器，可分离表征静电场与磁场，精准绘制原子尺度的电场、磁场分布；4D-STEM 则通过像素化探测器，在每个扫描点记录完整的二维衍射图样，相当于为原子结构拍摄了四维立体影像，解锁了纳米衍射、叠层成像的新能力，其数据具备高冗余特性，是机器学习降噪与重构的天然基础；电子能量损失谱（EELS）借助单色器将能量分辨率提升至毫电子伏级，可检测零损失峰、声子振动、等离子体激发、原子内层核心损失边等信号，还能通过非接触式 aloof 光谱、电子能量增益谱，无参数测量样品的局域温度。

近年来，电子束工程技术进一步发展，研究人员可通过特殊的电子光学元件制备涡旋束、贝塞尔束、高斯束等特殊形态的电子束，其中涡旋束带有轨道角动量，可用于磁性探测，能检测垂直方向的磁场；贝塞尔束则具有更长的景深，适合纳米衍射与应变分析，让STEM的探测能力从传统的结构表征延伸到磁性、晶体对称性、轨道角动量等量子特性领域。

640-64

图 1 | 作为定量表征工具的扫描透射电镜（STEM）

STEM的结构及不同探测器配置示意图。在 STEM 中，电子源发出的电子束经聚焦形成探针，在超薄样品上进行扫描。本图中电子源位于镜筒底部，是 VG 与 Nion 电镜的典型设计，而多数厂商会将电子源置于镜筒顶部。探测器平面处于衍射空间，可搭载多组探测器或像素化探测器（即4D-STEM）。机器学习（ML）技术的应用，让材料表征从仅提取目标特征的定性成像，升级为可解析材料结构、电子态、集体激发及其色散、磁性与自旋效应的定量工具。嵌入式机器学习方法进一步实现了电镜自动校准、图像优化、自主探索与新材料发现，还能通过电子束改性实现原子级精准组装。EELS 为电子能量损失谱。

传统分析的固有缺陷

在机器学习应用之前，将STEM的图像与数据转化为物理、化学规律的过程，始终受限于传统分析方法的固有缺陷，难以满足原子尺度研究的精准需求。

原子定位依赖人工进行二维高斯拟合——由于原子列的强度分布近似符合高斯函数，研究人员需手动设定初始参数，通过迭代计算拟合出原子的准确位置，还会通过残差分析验证拟合精度，即在拟合后的图像与原始图像之间做差值，若残差呈随机分布，说明拟合效果较好。这种方法在高信噪比、经多次校正平均的图像中能达到亚皮米精度，但在低电子剂量的单帧模糊图像中，误差会直接升至15皮米，且全程需手动操作，分析一张图像就要花费数小时，效率极低。

对于高维数据处理，主成分分析（PCA）、非负矩阵分解（NMF）等线性降噪方法是主流选择，但它们存在天然局限：PCA会优先保留数据中占比最大的信号，而缺陷、界面、位错等关键科研信息在数据中占比通常较小，容易被晶体的周期性信号主导，最终被当作无效噪声剔除；NMF虽能保证分解结果的非负性，更符合物理信号的实际情况，但同样难以区分微弱的局部信号与随机噪声。此外，样品的热漂移、实验台的机械振动、电子束的抖动等因素都会引发图像畸变，传统校正方法需通过旋转扫描、希尔伯特空间填充曲线等特殊扫描模式采集多组数据，再手动对齐校正，流程繁琐且易引入人为误差，根本无法满足原子尺度的精准测量需求。

面对4D-STEM、EELS谱图等海量高维数据时，这些问题被无限放大：科研人员不仅要花费数月时间处理数据，还可能因方法局限遗漏关键信息，更难以可靠量化分析结果的不确定性——比如无法准确判断原子位置的测量误差范围、谱学信号的置信度等。STEM虽一直是强大的观测工具，却始终缺少将原始数据转化为有效科学知识的“智能大脑”，严重制约了科研效率与发现潜力。

机器学习：重构数据处理

机器学习恰好填补了这一空白，为STEM赋予了超越人眼的识别能力与远超人工的计算效率。除了常用的卷积神经网络、变分自编码器，原文核心提及的贝叶斯优化、强化学习、深度核学习、流形学习等算法，共同构成了STEM的智能分析体系，针对不同的数据分析需求提供精准解决方案。

依托模拟数据与实验图像训练、并通过数据增强优化的卷积神经网络（CNN），是原子定位与缺陷识别的核心工具。训练过程中，研究人员会结合密度泛函理论（DFT）计算生成大量模拟STEM图像——这些图像的原子位置、缺陷类型均已知，可作为“标准答案”，再搭配真实实验中标注的图像，让模型学习原子与缺陷的特征；数据增强则通过添加不同强度的噪声、旋转图像、模拟畸变等方式，扩大训练数据的多样性，让模型更鲁棒。经过训练的CNN，即便在噪声极强、畸变明显的单帧图像中，也能实现亚皮米级原子定位，还能自动识别点缺陷、位错、晶界、拓扑缺陷等微观结构，分析一张图像仅需几秒，速度比人工快上万倍。

640-68

图 3 | 从 STEM 图像中识别原子与原子列位置

变分自编码器（VAE）尤其是旋转不变变体，擅长处理高维数据与无序材料分析。它通过编码器将高维的STEM图像压缩为少量隐变量——这些隐变量可理解为“结构特征的简化描述”，比如石墨烯的缺陷类型、原子排列的畸变程度都能通过几个隐变量来表征，其中旋转不变VAE会专门设计前三个隐变量，用于抵消输入图像中结构的旋转与平移，确保模型关注结构本身的变化而非姿态；再通过解码器将隐变量重构回图像，过程中自动剔除随机噪声，同时保留缺陷、界面等关键结构。这种方式不仅能完成非线性降噪与高维数据降维，还能在无序材料、玻璃、弛豫铁电体中无监督挖掘隐藏的结构基元与动态演化规律，比如自动区分玻璃中不同的原子团簇结构。

640-65

图 4 | 变分自编码器在石墨烯中的应用

a | 旋转不变变分自编码器（rVAE）的简化结构。编码器（推理网络）将输入图像数据压缩为少量隐变量，默认前三个隐变量用于抵消输入图像中结构的旋转与平移，其余隐变量（z）用于拆解结构本身的变化，前缀 s 代表空间编码 / 解码模块。b、c | 电子束辐照下石墨烯结构转变的单帧 STEM 图像中，每个原子的编码角度（b）与其中一个隐变量分布（c）。d | 变分自编码器通过无监督学习从数据中得到的隐空间流形。

机器学习还能实时修正图像的空间与时间畸变，无需人工干预即可稳定原子级观测的精度——它通过分析连续帧图像中原子位置的变化，自动计算漂移速度与方向，实时调整扫描路径，抵消漂移与振动的影响。

针对谱学数据，机器学习可自动完成EELS的傅里叶去卷积（去除多重散射带来的信号失真）、背景扣除（剔除低能量损失的连续谱干扰）、信号分解与元素映射，精准捕捉淹没在噪声中的微弱信号，实现单原子级的化学成分分析；对于动量分辨EELS（q-EELS），机器学习还能平衡动量分辨率与空间分辨率的核心物理权衡——动量分辨率越高需越大的束会聚角，但这会降低空间分辨率，模型通过学习两者的关联规律，自动优化实验参数，突破传统分析的局限。

640-67

图 2 | 角度依赖型 STEM-EELS、4D-STEM 与电子束工程

a | 角度依赖型STEM-EELS的一种散射几何结构示意图。该装置通过将 EELS 谱仪入射（收集）光阑（图中红色重叠小圆示意）沿光轴矢量 q’ 偏移，实现角度分辨；实验中通过电镜样品后电子学系统，将谱仪入射光阑中心投影至明场盘实现该偏移。光阑随动量 q 增大逐步偏移，q 为散射波矢（q=k₁−k₀，k₀为入射波矢，k₁为散射波矢），图中光轴与入射波矢 k₀重合。动量分辨率 Δq 由电子束会聚半角 α 与谱仪收集角 β 决定，束会聚角过大会导致衍射盘宽化重叠，限制谱学数据的动量空间分辨率。b | 4D-STEM 中，每个探针位置同步采集 STEM 图像与二维衍射图，生成高冗余度的四维数据集，包含样品的丰富结构信息。c–f | STEM 中结构化照明与探测的应用示例。c | 涡旋束可用于磁性探测，大轨道角动量涡旋束能检测垂直方向磁场。d | 匹配照明与探测器干涉（MIDI）-STEM 可通过线性衬度表征轻元素材料。e | 高斯探针可简化电子束在晶体中的传播过程。f | 贝塞尔探针扫描可用于纳米衍射与应变分析。

从观测到解读：原子尺度的物理化学规律

除了基础的数据处理，机器学习更让STEM从单纯观测升级为定量解读原子尺度的物理与化学规律，挖掘出传统方法无法触及的科研信息。

在铁电材料研究中，机器学习可提取皮米级的原子位移——通过分析原子列在图像中的位置偏差，精准反演材料的极化序参量场，进而解析金兹堡–朗道自由能、挠曲电张量等关键物理参数，其中金兹堡–朗道自由能描述了极化序参量的能量变化规律，挠曲电张量则反映了应变与极化之间的耦合关系，这些参数是理解铁电材料畴壁运动、相变机制的核心，传统方法难以精准测量，而机器学习通过海量数据拟合实现了定量提取。

640-66

图 7 | 铁电材料的自下而上结构分析

a | 镧掺杂铁酸铋（La-doped BiFeO₃）的实验STEM图像。b | 从卷积神经网络输出结果中提取的、以某一亚晶格原子为中心的不同尺寸局部描述子（子图像）。c | 对所有提取的局部描述子（子图像）做主成分分析（PCA）的碎石图，展示不同尺寸子图像对应的主成分数量与方差解释率的关系。d | 局部描述子的四组分主成分分解结果，上行为主成分本征模（对应结构畸变），下行为对应的载荷图（显示畸变在图像中的位置）。

在晶界分析中，机器学习结合高通量密度泛函理论（DFT）计算、Stillinger-Weber原子势与盆跳算法，搭配结构相似性指数（SSIM）图像对比，解出传统模型无法推导的晶界三维原子结构。

Stillinger-Weber原子势是描述原子间相互作用的经验模型，能快速计算原子组态的能量；盆跳算法则通过随机扰动与能量筛选，高效寻找最低能量的原子排列；SSIM则用于对比模拟STEM图像与实验图像的相似度，确保计算出的结构与实验观测一致。这种“计算–模拟–实验验证”的闭环，让科研人员首次看清了复杂晶界的原子排布，发现其并非简单的位错核心模型，而是存在独特的原子组态。

640-70

图 5 | 晶界的 HAADF 成像

在单原子催化研究中，机器学习可全程追踪铂、金等单原子在二维硫化钼表面的扩散、空位捕获、成核与反应过程——通过连续帧STEM图像，模型能自动识别单原子的位置变化，分析其迁移路径与能量障碍，直接建立原子结构与催化活性的关联；还能辅助观测分子构象的动态变化，比如在偶氮苯衍生物的光开关实验中，模型通过识别铂标记原子的间距变化，精准捕捉分子从反式结构到顺式结构的异构化过程，间距从约2.1nm缩小至1.4nm。

640-69

图 6 | STEM 在化学领域的应用示例

对于玻璃、弛豫体等无序体系，机器学习能从杂乱无章的原子排列中，挖掘出隐藏的结构序参量，比如玻璃中原子团簇的尺寸分布、弛豫铁电体中极化纳米区域的形状与分布，打通微观观测与宏观物理模型的连接通道。

从被动到主动：自主实验与原子级制造落地

最具颠覆性的是，机器学习打通了数据采集–分析–主动操控的完整闭环，让自驱动显微镜、自主实验与原子级制造从科研构想变成现实。

贝叶斯优化与强化学习算法，可自动完成电镜的像差校正、单色器调试、探测器参数优化，将原本数小时的人工校准过程缩短至几分钟；螺旋、随机、希尔伯特空间填充曲线等非传统扫描模式，结合压缩感知技术，既能大幅减少电子束对样品的辐照损伤，低电压成像可进一步规避敲除损伤，又能提升成像效率；边缘计算机直接连接电镜主机，实现数据的实时处理与反馈，引导电子束精准完成单原子移动、掺杂、空位制造、异质分子组装，真正实现逐原子构筑材料的目标。这一转变让 STEM 从被动成像设备，变成了主动操控物质的原子制造平台，开辟了材料合成与量子物态工程的全新研究领域。

技术落地的基石

机器学习与STEM的深度融合与规模化应用，离不开标准化、开放化的科研基础设施支撑。

实验数据必须遵循FAIR 原则（可发现、可访问、可互通、可复用），完整记录加速电压、电子探针会聚角、扫描步长、驻留时间、探测器内外角、样品倾角等全部元数据，采用 hdf5、ASCII 等开源格式存储；软件层面覆盖商用工具（GMS、Velox、ESPRIT）与开源生态（HyperSpy、AtomAI、py4DSTEM、LiberTEM、Pycroscopy），还有 abTEM、Prismatic、QSTEM 等专业模拟软件，依托 GPU 加速实现高效仿真，替代了厂商封闭的黑箱工具，让全球科研人员可自由修改、协作开发算法；硬件层面可搭载树莓派、NVIDIA Jetson 等边缘计算硬件，匹配数据处理需求；材料数据设施（MDF）、材料数据库（MDB）等共享平台，既保障了实验的可重复性，也为机器学习模型提供了海量高质量的训练数据。这些基础工作并非细枝末节，而是推动整个领域持续进步、从孤立研究走向协同创新的核心保障。

现存核心挑战与破局方向

尽管机器学习赋能STEM已取得跨越式进展，但领域仍面临三大核心技术难题，需要电镜研究者、计算科学家、仪器厂商的深度协作才能攻克。

其一，机器学习模型存在“分布偏移”问题——训练集与实验集的参数分布不匹配，比如模型基于硅材料的STEM图像训练，当应用于石墨烯样品时，由于两者的原子间距、散射信号特性不同，模型的识别精度会大幅下降。破局关键在于开发融入物理先验知识的智能模型，将原子散射规律、晶体对称性等物理约束嵌入模型设计，减少对特定数据的依赖，提升泛化能力。

其二，商用STEM的控制接口普遍封闭，多数厂商为保护知识产权，不开放底层控制协议，仅Nion Swift、JEOL PyJem等少数工具提供有限的控制权限，导致科研人员无法实现自定义扫描序列、实时反馈控制等自主实验功能。解决这一问题需要厂商与科研界的协同，推动开放软件架构的普及，比如采用LabView等通用控制平台，允许科研人员开发自定义实验流程。

其三，4D-STEM等海量高维数据的实时处理仍面临算力瓶颈，尽管边缘计算硬件已有所发展，但面对每秒生成的数百万衍射图，数据处理延迟仍难以满足原子制造的快速闭环需求，可能导致操控精度下降。未来需升级硬件算力，同时优化算法效率，开发轻量化模型，在保证精度的前提下降低计算复杂度。

展望未来，机器学习与 STEM 的融合，是原子尺度科学研究的新模式。像差校正技术让 STEM 能看见原子，机器学习则让它能读懂原子、操控原子。完全自主的自动驾驶电镜已不再是科学幻想，它可自主探索材料体系、发现全新结构、制备原子级器件，全程无需人工干预。这场技术变革将辐射凝聚态物理、材料科学、催化化学、量子技术等多个核心领域，催生传统观测手段永远无法实现的全新科研发现。

正如物理学家费曼在原文中的表述：“What I cannot make, I cannot understand（我不能创造的，我就无法理解）”，在机器学习的加持下，人类能在原子尺度上，同时实现对物质的深度理解与精准创造，解锁微观世界的奥秘。

参考资料

Kalinin, S. V. et al. Machine learning in scanning transmission electron microscopy. Nat. Rev. Methods Primers 2, 11 (2022).

机器学习赋能扫描透射电镜：重新理解原子

类别