南开大学现代光学研究所及单分子科学研究中心团队
JPCL | 机器学习揭示海量数据中小概率隐藏事件
背景介绍
单分子电子学以分子作为电路中的功能单元,为器件进一步微型化提供了新的可能。扫描隧道显微镜断裂结 (STM-BJ) 技术能够在单分子尺度上反复构筑金属-分子-金属结,并获得大量电导轨迹数据,因此已成为研究单分子电输运行为的重要手段。然而在实验获得的大量数据中,往往包含不同类型的电导轨迹,这些轨迹在统计中相互混杂。传统的数据分析方法主要依赖电导直方图等统计手段,往往只能提取出占据统计主导地位的电导特征,从而容易掩盖那些同样具有重要物理意义的小概率事件。如何从海量轨迹中自动识别这些隐藏事件,并进一步解析其对应的分子构型及电输运行为,一直是单分子电子学研究中的关键问题。
近年来,机器学习方法为单分子电输运数据分析带来了新的思路。其中,无监督聚类尤其适合处理缺乏标签的实验数据。但聚类结果高度依赖输入特征的质量,而已有很多特征工程方法往往带有较强的经验性,容易受研究者主观选择影响,也可能忽略小概率事件。针对这一问题,南开大学现代光学研究所及单分子科学研究中心研究团队建立了针对性的数据驱动特征筛选框架,并以此为基础提出了一种基于连续小波变换(CWT)的无监督聚类方法,为从复杂单分子结数据中提取隐藏信息提供了一条新路径。
文章简介
在这项工作中,研究团队首先构建了一个分层的数据驱动特征筛选与评估框架,对数据进行预处理、特征提取、特征筛选与组合评价,从数百个候选特征中自动找出最适合用于聚类分析的关键特征。结果表明,最有效的特征全部与连续小波变换相关。基于这一发现,团队进一步建立了CWT聚类方法,并在模拟数据集上实现了100% 的分类准确率。随后,该方法被用于分析二硫苏糖醇 (DTT) 和对苯二胺 (PPD) 单分子结的实验数据,不仅区分出传统直方图中难以识别的低概率事件,还揭示了分子结在偏压反转过程中的构型变化行为。

图1. 数据驱动的特征筛选框架:(a) 特征筛选与评估工作流程。(b) 利用STM-BJ技术进行DTT分子测量示意图。(c) DTT分子结的二维电导-位移直方图。(d) 利用TSFRESH库从单条轨迹中提取多个特征。(e) CH指数随聚类数目的变化关系图。
研究团队首先以 DTT 分子结的实验数据为例,建立了完整的特征筛选流程,如图1所示。团队先对每条电导轨迹预处理,再利用 TSFRESH 工具库从每条轨迹中提取大量不同类型特征。经过多轮筛选与组合评价后,研究人员发现表现最好的关键特征全部来自连续小波变换。这说明在众多候选的特征中,CWT相关特征表现出了最强的区分度。论文中的 CH 指数分析还表明,对于该数据集四类划分对应最优聚类数。

图 2. 基于模拟数据集的优化 CWT 聚类方法验证:(a) 四类模拟数据的典型轨迹,为清晰起见,轨迹沿位移轴进行了平移。(b) 整个模拟数据集的二维直方图。(c-f) 使用优化后的 CWT 参数聚类获得的四个独立簇的二维直方图。(g) 聚类结果的一维电导直方图。(h) 使用尺度为32的mexh小波对图 a 中标签1轨迹进行处理得到的小波变换系数图。
为了确定适用于分子实验数据的小波参数,团队构建了包含四类典型行为的模拟数据集,并利用已知标签作为评价标准,对不同小波参数进行系统测试,如图2所示。综合聚类效果与计算复杂度后,研究人员选择mexh小波及一组优化尺度参数作为后续分析条件。在这一参数设置下,模拟数据被准确分成四个独立类别,分类准确率接近100% 。这一结果充分验证了该无监督聚类方法的可靠性,为后续解析真实实验数据中更为复杂的微观动态行为奠定了坚实基础。

图 3. 应用于 DTT 分子结电导-位移轨迹的聚类结果:(a-d) 四个簇的二维电导-位移直方图;插图为各簇对应的平台长度分布,各分布的峰中心通过高斯拟合确定。(e-h) 分别与图 a-d 结果对应的四种分子构型在费米能级处的透射本征态分布;为便于比较,等值线统一取为 0.05;图 g 中的虚线表示 O--H 键。(i) 四种构型分子结的透射谱。 (j) 不同特征空间与聚类算法组合的 DB 评分热图;红框突出了 CWT-Kmeans 的性能表现。
在完成方法验证后,研究团队将CWT 聚类方法应用于 DTT 分子结的实验数据。传统二维电导-位移直方图只能模糊地显示出两条主要电导平台,难以清晰判断其中究竟包含了哪些具体事件。经过 CWT 聚类后,全部轨迹被分成四个独立簇,如图3所示。其中,第一类表现为较高电导平台,可归属于单体 DTT 分子结;第二类表现为较低电导平台和更长的平台长度,对应于通过 S-S 键形成的二聚体分子结。更重要的是,该方法还成功识别出了两类小概率事件:第三类轨迹呈现两个连续平台,经过理论计算,推测对应于单体与 S-S 二聚体平行连接在电极之间的构型;第四类几乎没有明显平台,但仍可观察到短而倾斜的特征段,结合理论计算,可归因于通过分子间氢键形成的二聚体分子结。
这些结果表明,DTT 分子结在实验中并不只对应一种简单的断裂过程,而是可能经历多种构型演化路径。值得注意的是,论文中也强调,这些统计子群体及其构型归属仍需结合更多实验与独立分析进一步确认,但 CWT 聚类已经为揭示这些隐藏事件提供了强有力的证据。与此同时,团队还系统比较了不同特征空间与多种聚类算法的组合效果,结果说明CWT特征在分离度和稳定性方面均具有明显优势。

图 4. CWT 聚类方法应用于 PPD 分子结:(a) 利用全部电导轨迹构建的总二维直方图以及 (b) 一维电导直方图。(c-f) 四个分离簇的二维和一维电导直方图。插图展示了分子结相应的分子构型:(c) 无分子的隧穿结,(d) PPD 单体结,(e) 二聚体结,以及 (f) 三聚体结。
为了进一步检验该方法在不同分子体系中的适用性,研究团队又将其应用到经典的 PPD 分子结数据分析中,如图4所示。以往研究通常只能在传统直方图中看到 PPD 单体和二聚体的高、中电导状态,而更低电导的三聚体状态往往被整体统计淹没。通过 CWT 聚类,PPD 数据被清晰地区分为四类:第一类对应无分子参与的隧穿事件;第二类对应单体分子结;第三类对应二聚体分子结;第四类则呈现一个位于更低电导区域的平台,这一特征在总体直方图中几乎不可见。结合空白对照实验和理论计算,研究团队认为,该低电导子群体可归属于 PPD 三聚体分子结。这一结果说明,在低偏压条件下,PPD 不仅能够形成单体和二聚体,还可能形成此前被忽略的稳定三聚体结构。

图5. CWT 聚类方法在应用于PPD 分子结 I-V 数据。(a) 1644 条 I-V 曲线的二维分布图。(b-d) 基于 CWT 聚类得到的三类不同 I-V 数据,分别对应 (b) 高电导态(单体)、(c) 中电导态(二聚体)和 (d) 低电导态(三聚体)。箭头表示偏压由 1 V 扫描至 -1 V 的方向。
除了电导-位移轨迹之外,研究团队还将 CWT 聚类方法拓展到 PPD 分子结的 I-V 曲线分析中。对全部稳定分子结的 I-V 数据进行聚类后,研究人员成功得到三类不同的电流-电压响应,分别可对应于 PPD 单体、二聚体和三聚体分子结,如图5所示。其中最引人注意的是三聚体分子结:当偏压扫描方向由正向切换为反向时,其电流增长表现出明显不同于单体和二聚体的特征,说明三聚体结的构型会受到外加电场方向变化的显著影响。进一步的微分电导分析还显示,在负偏压下三聚体存在负微分电阻相关特征,表明其构型在偏压反转过程中可能发生了动态调整。相比之下,单体和二聚体分子结则表现得更加稳定,对外场反转不那么敏感。由此可见,该方法不仅能从电导轨迹中识别隐藏态,也能够从 I-V 数据中直接捕捉分子结在外场作用下的内在性质。
结论
综上所述,研究团队构建并验证了一套数据驱动的单分子结特征筛选框架,明确指出连续小波变换相关特征是高精度无监督聚类的关键。基于此提出的 CWT 聚类方法,不仅在模拟数据上实现了 100% 分类准确率,还在 DTT 和 PPD 两类真实分子体系中成功识别出传统统计方法难以发现的低概率事件与隐藏构型。这项工作表明,单分子电子学中的大量实验数据不仅能反映整体的统计平均结果,借助数据驱动与机器学习方法,还可以从中解析出更细致且蕴含深刻物理意义的隐藏信息。该研究不仅为单分子结数据分析提供了新的自动化工具,也为理解复杂分子结的动态演变过程打开了新的视角。
该研究工作于2026年2月23日以 ”Wavelet Transform-Based Clustering Decoding the Dynamical Properties of Single Molecular Junctions” 为题发表于《The Journal of Physical Chemistry Letters》.文章的第一作者为南开大学现代光学研究所及单分子科学中心的硕士研究生李东杰。此外,课题组与合作伙伴聚焦纳电子及纳米光子,近期取得的成果还包括:J. Am. Chem. Soc., 2026, 148, 9829; Laser & Photonics Reviews, 2026, 0, e02689; Phys. Rev. Lett. 2025, 135, 218001; Angew. Chem. Int. Ed. 2025, 64, e202507894; Nat. Sci. Rev. 2025, 12, nwaf251; Angew. Chem. Int. Ed. 2025, 64, e202511115; Chem. Sci. 2025, 16, 17850; Angew. Chem. Int. Ed., 2025, e202514789; PhotoniX, 2025, 6, 28.
原文链接:https://pubs.acs.org/doi/10.1021/acs.jpclett.6c00141