1. 项目概述当机器学习遇见动能密度泛函在计算材料科学和凝聚态物理的世界里密度泛函理论DFT无疑是我们的“第一性原理”罗盘它指引我们从薛定谔方程的复杂海洋中找到预测材料电子结构和性质的可靠路径。其中Kohn-ShamKSDFT因其在精度和效率间的良好平衡成为了处理数百原子体系的标准工具。然而它的“阿喀琉斯之踵”也显而易见计算复杂度随着体系增大呈三次方增长。当你面对一个包含数千甚至上万个原子的纳米器件或复杂合金时KSDFT的计算成本会变得令人望而却步对角化哈密顿量以获取KS轨道的过程成为了主要的计算瓶颈。这时无轨道密度泛函理论OFDFT就像一把锋利的奥卡姆剃刀它提出了一个更直接、更经济的思路——为什么不绕过复杂的KS轨道直接从电子密度出发来计算所有物理量呢OFDFT的核心优势在于其标度性理想情况下可以达到线性或准线性这为大规模模拟打开了大门。但天下没有免费的午餐OFDFT的精度几乎完全押注在一个关键组件上动能密度泛函。这个泛函负责从电子密度中“变”出非相互作用电子的动能。对于像自由电子气这样的简单金属我们有一些不错的近似。但一遇到半导体特别是那些存在强局域化共价键的体系传统解析形式的KEDF就常常“失灵”无法准确描述电子密度在原子间区域的精细分布。过去几十年人们尝试了各种局域、半局域和非局域的解析KEDF但一个能同时精准描述金属和半导体的“通用”泛函始终是镜花水月。直到机器学习ML的浪潮席卷计算科学领域事情出现了转机。ML的强大之处在于其从数据中学习复杂映射关系的能力这正好契合了构建精确但形式未知的KEDF的需求。我们之前的工作提出了一种基于机器学习的物理约束非局域KEDFMPN KEDF它在简单金属及其合金上表现优异。但当我们将目光转向半导体时MPN模型却显得有些力不从心。问题的根源在于半导体电子结构的双重性既有高度局域在共价键区域的电子也有相对离域的电子。单一尺度的描述符难以同时捕捉这两种特征。于是一个很自然的想法产生了如果我们不是用一个“镜头”去观察电子密度而是用一组具有不同焦距即不同空间尺度的“镜头”同时去观察是不是就能看得更全面、更清晰这就是本文要介绍的多通道机器学习物理约束非局域动能密度泛函CPN KEDF的核心思想。通过构建一个多通道架构让模型同时集成从不同空间尺度收集的特征信息我们成功地将MPN KEDF的适用性扩展到了半导体体系。这篇文章我将为你深入拆解CPN KEDF的设计思路、实现细节、在硅和一系列二元半导体上的测试表现并分享在构建和训练此类ML-DFT模型过程中的关键考量与避坑经验。无论你是刚接触OFDFT的研究生还是正在寻找高性能计算方案的资深开发者相信都能从中获得启发。2. 核心思路拆解为什么需要“多通道”要理解CPN KEDF的价值我们得先回到OFDFT动能计算的核心公式。总的非相互作用动能通常被分解为冯·魏茨泽克动能和泡利动能之和。其中泡利动能是体现电子交换关联效应的关键部分也是传统近似误差的主要来源。在ML-KEDF框架下我们的目标是训练一个神经网络输入是描述电子密度分布的描述符输出是泡利增强因子进而计算出泡利动能。2.1 半导体电子结构的独特挑战简单金属如铝、镁的电子密度分布相对平缓接近均匀电子气模型。描述这种平滑变化的密度单一尺度的非局域描述符或许就足够了。但半导体如硅、砷化镓则截然不同。观察硅的共价键你会发现电子密度在原子核附近急剧峰值在键中心区域有一个显著的积累键电荷而在原子间的空旷区域则迅速衰减。这种同时包含尖锐局域特征和缓变离域特征的密度分布对描述符提出了更高的要求。想象一下用相机拍照。如果你只用长焦镜头对应大尺度核函数你能捕捉到整体的轮廓和趋势但会丢失键中心的精细细节。如果你只用微距镜头对应小尺度核函数你能看清原子附近的每一个“毛孔”但却无法把握整个化学键的全局形态。对于半导体你需要同时使用多个镜头并将它们拍摄的照片信息融合起来才能得到一张既清晰又完整的“电子密度写真”。这就是多通道架构的直观物理图景每个通道对应一个特定空间尺度的核函数专门负责提取该尺度下的密度特征。2.2 从MPN到CPN架构的演进我们之前提出的MPN KEDF已经是一个成功的ML-KEDF范例。它通过一个精心设计的非局域描述符结合了局域梯度和卷积信息和三个严格的物理约束标度律、自由电子气极限、泡利能密度非负性在简单金属上取得了接近传统非局域泛函的精度。然而它的描述符本质上源于一个固定尺度的核函数。当把这个单一尺度的模型直接应用到半导体时其预测的晶体能量-体积曲线会出现不光滑甚至失真的情况对电荷密度尤其是共价键电荷的预测误差较大。CPN KEDF的改进正在于此。它不再满足于单一视角而是引入了多个并行的“通道”。每个通道独立工作输入原始的电子密度通过一个具有特定缩放因子的核函数进行卷积操作生成一组该尺度下的非局域描述符。这些来自不同通道的描述符随后被拼接成一个更长的特征向量再输入到后续的神经网络中。这样神经网络在做出决策时就能同时“看到”从原子尺度到键长尺度甚至更远距离的电子密度关联信息。这种信息融合能力是模型能够同时处理局域和离域特征的关键。2.3 物理约束确保模型不“跑偏”在机器学习模型中引入物理知识是提升其可迁移性和稳定性的不二法门。CPN KEDF完整继承了MPN模型的三大物理约束并将其融入到神经网络结构和损失函数的设计中标度律约束动能泛函需要满足特定的标度变换关系。我们通过将神经网络的输出构造成一个满足齐次标度律的形式将这一约束“硬编码”到模型架构里。自由电子气极限当电子密度趋于均匀时泡利增强因子必须趋近于1。我们在损失函数中显式地加入了这一项的惩罚确保模型在均匀极限下的行为正确。泡利能密度非负性这是一个全局性的约束。我们通过一个特定的后处理函数如Softplus函数对神经网络的原始输出进行变换保证最终计算出的泡利能密度处处非负。这些约束就像给一匹强大的“机器学习野马”套上了缰绳确保它学习到的映射关系不仅在训练集上表现好还能遵循基本的物理规律从而在未见过的体系测试集上也有可靠的预测能力。缺少这些约束模型很容易过拟合到训练数据的噪声上或者产生物理上荒谬的结果如负的动能密度。3. 模型构建与实现细节理解了“为什么”之后我们来看看“怎么做”。CPN KEDF的实现是一个将物理洞察、数值计算和机器学习技术紧密结合的过程。下面我将分步拆解其工作流程和关键实现要点。3.1 多通道描述符的生成这是CPN模型区别于前作的创新核心。整个过程可以看作一个特征工程流水线核函数与通道定义我们选择一个基础的非局域核函数它通常是某种衰减函数用于衡量空间两点间电子密度的关联强度。然后我们通过一个缩放因子来“拉伸”或“压缩”这个核函数。具体来说定义缩放后的核函数其中是一个正实数。每一个特定的值就定义了一个“通道”。越大核函数衰减得越快作用范围越局域对应更小的空间尺度越小核函数越平缓作用范围越广对应更大的空间尺度。在CPN5模型中我们使用了五个通道分别对应五个不同的值。描述符计算对于每个通道我们利用缩放后的核函数对电子密度或其变换进行卷积操作生成三个核心的非局域描述符与密度1/3次方的卷积有关反映了该尺度下的平均密度环境。对进行再次卷积引入了更远距离的非局域关联信息。对另一个与密度梯度相关的局域量进行卷积捕捉该尺度下的梯度变化信息。 此外还有一个与密度梯度相关的纯局域描述符它不依赖于通道为模型提供最基础的局域信息。特征向量拼接假设我们有个通道每个通道产生3个描述符再加上1个局域描述符总共会生成个描述符。对于三维空间网格上的每一个点我们都计算这m个描述符的值并将其打包成一个m维的特征向量。这个向量就是输入神经网络的“原材料”。实操心得通道数与缩放因子的选择通道数不是越多越好。增加通道意味着模型参数和计算成本上升。我们的实验表明从CPN1单通道即原MPN模型到CPN3性能提升显著从CPN3到CPN5仍有明显提升但继续增加通道数收益会递减。五个通道的选择是在精度和效率间的一个较好权衡。缩放因子的取值也需谨慎。它们应该覆盖从化学键长度~1-2 Å到几个晶格常数尺度的范围。我们的选择是基于对半导体典型键长和电子密度衰减长度的先验分析并通过网格搜索初步确定了一个有效区间。3.2 神经网络架构与训练得到描述符向量后下一步就是构建一个神经网络将其映射到我们想要的泡利增强因子。网络结构我们采用了一个相对标准的前馈神经网络。输入层神经元数量等于描述符向量的维度m。中间是三个隐藏层每层100个神经元使用双曲正切函数作为激活函数。输出层只有一个神经元输出一个原始值后续会经过物理约束处理得到最终的。损失函数设计这是训练成功的关键。损失函数必须同时驱动模型学习正确的能量和势能。我们的损失函数包含三部分能量项衡量预测的泡利增强因子与KSDFT计算得到的“真实”值之间的相对误差。势能项衡量预测的泡利势与KSDFT计算得到的“真实”泡利势之间的相对误差。这一项至关重要因为在实际的OFDFT自洽计算中泛函的导数即势能直接决定了电子密度的演化。只有能量项准确而势能项不准自洽迭代很可能无法收敛或收敛到错误的结果。自由电子气极限项一个额外的惩罚项强制模型在均匀密度极限下的输出趋近于理论值。 通过精心平衡这三项的权重在我们的实现中它们以相对误差的形式自然结合我们确保了模型不仅学习了正确的能量面还学习了正确的能量面梯度即势能。训练数据准备我们使用KSDFT作为“黄金标准”来生成训练数据。选取了十个半导体晶体结构作为训练集包括立方金刚石结构的硅和九种立方闪锌矿结构的III-V族半导体。对于每个结构我们在一个的实空间网格上计算其基态电子密度并通过KS轨道解析计算出每个格点上的泡利能密度和泡利势。同时我们也计算出每个格点对应的所有描述符向量。这样我们就得到了一个庞大的数据集其中每个样本是标签是。注意事项数据质量与一致性训练数据的质量直接决定模型的上限。必须确保KSDFT计算使用高精度设置高平面波截断能、密集k点采样以获得可靠的“真实值”。同时用于生成描述符的电子密度必须与用于计算标签的电子密度来自完全相同的KSDFT计算且格点设置需完全一致任何偏差都会引入噪声影响训练效果。我们使用ABACUS软件包进行KSDFT计算并利用其接口直接输出网格数据保证了数据的一致性。3.3 在OFDFT框架中的集成与自洽计算训练好的CPN KEDF最终需要集成到OFDFT计算程序中进行真正的材料模拟。我们将其实现到了ABACUS软件包中并利用LibTorch库来调用训练好的PyTorch模型。能量与势能计算在OFDFT自洽循环的每一步给定一个试探电子密度程序会在实空间每个格点上根据当前密度计算描述符向量。将描述符向量输入神经网络得到该点的。根据公式计算泡利动能密度进而积分得到总泡利动能。最关键的一步通过自动微分或预先设计的公式计算泡利动能对密度的泛函导数即泡利势。由于我们的神经网络是光滑可微的并且损失函数中包含了势能项这保证了我们能得到一个光滑、物理的势能。将泡利势与交换关联势、外势等相加得到总有效势用于驱动电子密度向基态演化。计算稳定性ML模型的引入可能带来数值噪声。为确保自洽迭代稳定我们采用了可靠的混合方案来更新电子密度并设置了严格的收敛判据。得益于物理约束的引入和势能项的训练CPN KEDF在测试的所有半导体结构中都能稳健收敛。4. 性能测试与结果分析模型好不好要靠数据说话。我们设计了一套系统的测试方案来全面评估CPN KEDF的精度、可迁移性和稳定性。4.1 测试体系与对比基准我们构建了两个数据集训练集10个结构包括立方金刚石CD硅和9种立方闪锌矿ZB结构半导体AlP, AlAs, AlSb, GaP, GaAs, GaSb, InP, InAs, InSb。测试集10个结构包括六方金刚石HD硅和9种六方纤锌矿WZ结构半导体同上9种材料但晶体结构不同。测试集的结构在训练中从未出现过这可以严格检验模型的可迁移性。我们将CPN KEDF包括CPN1, CPN3, CPN5与几种主流的解析KEDF进行对比半局域泛函TFλvWThomas-Fermi λ*von Weizsäcker和LKTLuo-Karasiev-Trickey泛函。它们计算快但精度通常有限。非局域泛函WGCWang-Govind-Carter泛函和HCHuang-Carter泛函。其中HC泛函是专门为半导体设计的被认为是当前最好的解析非局域KEDF之一。评估指标我们主要看两个总能和电荷密度。总能的误差直接关系到预测晶格常数、体模量等性质的能力电荷密度的误差则反映了泛函描述电子分布细节的能力这对于理解化学键合至关重要。4.2 能量预测从失准到逼近KSDFT首先看硅的能量-体积曲线。下图清晰地展示了不同方法的差异 此处应有一幅对比图显示KSDFT、HC、WGC、CPN1、CPN3、CPN5的能量-体积曲线。图中CPN1曲线不平滑且偏离大CPN3接近但仍有差距CPN5几乎与HC和KSDFT重合。CPN1单通道曲线非常不平滑且在平衡体积附近严重偏离KSDFT结果。这说明原MPN模型完全无法处理硅的共价键。CPN3三通道曲线变得光滑且整体趋势与KSDFT一致但仍有系统性偏差。这证明了多通道架构的有效性。CPN5五通道其预测的曲线与专门为半导体设计的HC泛函以及KSDFT基准几乎完全重合。这表明通过五个不同尺度的通道融合信息ML模型已经能够以极高的精度再现半导体的能量面。WGC泛函作为为简单金属设计的非局域泛函它在半导体上表现很差预测的平衡体积严重偏离。HC泛函表现优异与KSDFT高度一致这印证了其设计的成功。为了量化比较我们计算了所有半导体相对于硅的相对能量差的平均绝对相对误差。KEDF 类型训练集 (ZB结构) MARE (%)测试集 (WZ结构) MARE (%)说明TFλvW (半局域)6.36.2系统性高估相对能量LKT (半局域)8.99.0系统性高估相对能量WGC (非局域)9.7不收敛对半导体不适用HC (非局域)1.41.5专为半导体设计精度高CPN1 (ML, 单通道)16.412.6严重低估性能差CPN3 (ML, 三通道)5.95.6显著改善接近半局域泛函CPN5 (ML, 五通道)2.63.2接近HC泛函精度展现优秀可迁移性从表格中可以得出几个关键结论多通道架构的效果是颠覆性的从CPN1到CPN5误差下降了一个数量级。CPN5在训练集和测试集上都达到了与HC泛函媲美的精度且使用同一套参数而HC泛函通常需要为不同材料调整参数。CPN KEDF成功地将原本适用于金属的ML模型扩展到了半导体领域并且保持了良好的可迁移性训练集和测试集误差接近。4.3 电荷密度预测攻克共价键难题能量准确是基础但电荷密度才是真正考验泛函“视力”的指标。我们计算了所有20个结构的基态电荷密度并与KSDFT结果对比。电荷密度的MARE结果更加令人振奋。KEDF 类型训练集平均MARE (%)测试集平均MARE (%)TFλvW18.8218.93LKT33.7234.23WGC11.99N/AHC8.828.96CPN135.7634.15CPN313.9824.78CPN53.237.59CPN5在训练集上的电荷密度误差3.23%远低于所有对比的解析泛函包括HC泛函8.82%在测试集上CPN57.59%也略优于HC泛函8.96%。这意味着CPN5不仅总能算得准它“看”到的电子分布也更接近量子力学计算的真实图景。更直观地我们来看一条穿过硅晶格共价键的电荷密度线图。 此处应有一幅图对比KSDFT、HC、CPN1、CPN3、CPN5在Si共价键路径上的电荷密度分布。图中应显示HC泛函在键中心严重低估电荷密度CPN1完全失真CPN3有所改善但仍不足CPN5的曲线与KSDFT几乎完全重叠准确再现了键中心的电荷峰值。这幅图清晰地揭示了传统泛函和ML泛函在描述共价键时的根本差异HC泛函虽然总能预测得准但其电荷密度在共价键中心区域被显著低估。这是一个已知的缺陷源于其泛函形式在描述强局域化特征时的固有局限。CPN5 KEDF几乎完美地复现了KSDFT的电荷密度曲线准确捕捉到了键中心的电荷积累。这强有力地证明了多通道架构让ML模型学会了如何同时描述原子核附近的陡峭峰和键中心的宽峰这是处理共价键的核心。4.4 通道与描述符的重要性分析我们通过“消融实验”来深入理解每个通道和描述符的贡献。具体方法是从CPN5模型使用的16个描述符中每次剔除一个重新训练一个模型然后观察其在训练集和测试集以CD-Si和HD-Si为例上电荷密度预测误差的变化。此处应有一幅柱状图横轴为被剔除的描述符名称纵轴为电荷密度MARE。包含两条系列CD-Si训练集和HD-Si测试集。图中用虚线标出完整CPN5模型的误差水平。分析图表我们可以发现对精度训练集最重要的描述符主要来自具有中等缩放因子如λ2/3, 1/2的通道。这些通道可能对应着共价键的典型尺度对准确描述键合区域至关重要。对可迁移性测试集最重要的描述符除了上述通道一些来自更大或更小尺度的通道的描述符也显得重要。这表明要很好地泛化到未见过的结构模型需要集成更广泛的尺度信息。整体重要性没有一个描述符是绝对无关紧要的。剔除任何一个都会导致误差上升只是幅度不同。更重要的是如果我们同时剔除构成CPN3或CPN1模型的那些描述符子集误差会急剧增大。这从反面证明了多通道架构是一个有机整体其优势来自于不同尺度信息的协同作用而非单个特征的功劳。5. 局限、挑战与未来方向尽管CPN5 KEDF在测试的半导体体系上取得了成功但我们必须清醒地认识到其当前的局限性和面临的挑战这也是未来研究需要着力突破的方向。5.1 当前模型的局限性相图预测能力不足CPN KEDF目前还无法正确再现硅等材料在不同压强下的相变序列如从金刚石结构到β-Sn金属相。这主要是因为我们的训练数据只包含了半导体相在平衡体积附近的结构。要预测相变模型必须学习到能量随体积和结构剧烈变化的复杂势能面这需要将金属相的高压结构也纳入训练集。各向异性信息缺失我们目前使用的核函数是球对称的。这意味着描述符只包含了径向的平均信息而丢失了角度方向的各向异性细节。对于具有方向性共价键或复杂电子结构的体系这可能成为一个瓶颈。例如在描述层状材料或一维链状结构时球对称核函数可能无法充分捕捉其电子分布的方向性特征。训练数据依赖性与成本模型的性能上限受限于KSDFT训练数据的质量和广度。生成高精度的KSDFT数据特别是对于大体系或需要密集k点采样的体系计算成本依然很高。如何用更少、更智能选取的数据训练出高性能模型是一个重要课题。计算效率虽然OFDFT本身是线性标度但CPN KEDF中在每个实空间格点上进行多通道卷积和神经网络前向传播引入了额外的开销。相比简单的解析泛函其单点计算成本更高。优化描述符计算和神经网络评估的效率是实现真正大规模模拟的前提。5.2 实操中的挑战与应对策略在实际实现和训练CPN KEDF模型时我们遇到了不少坑这里分享一些经验挑战一训练不稳定损失函数震荡现象在训练初期损失函数特别是势能项波动很大难以收敛。根源泡利势的数值范围可能远大于泡利增强因子且其在实空间的变化可能非常剧烈特别是在原子核附近。解决策略数据标准化不要直接使用原始的泡利势和增强因子作为标签。我们采用相对误差形式即用预测值与真实值的差除以该批数据中真实值的平均值。这能平衡能量和势能项的量级。梯度裁剪在训练神经网络时对损失函数反向传播的梯度进行裁剪防止因个别样本的异常梯度导致优化过程不稳定。分阶段训练可以先只用能量项进行预训练让模型初步学习能量面的轮廓然后再加入势能项进行微调。挑战二模型在自洽计算中发散现象将训练好的模型放入OFDFT程序进行自洽迭代时电子密度振荡无法收敛。根源神经网络预测的势能可能存在数值噪声或不光滑点这会在求解KS方程在OFDFT中是有效势方程时被放大。解决策略势能平滑性约束在损失函数中显式加入对势能平滑性的正则项如势能梯度的L2范数虽然我们当前工作未使用但这是一个有效的思路。使用更稳定的混合器在OFDFT的自洽场迭代中采用Broyden或Pulay等高级混合方法而不是简单的线性混合可以更好地处理由ML模型引入的势能噪声促进收敛。确保泛函导数的正确实现必须通过自动微分或手动推导确保从神经网络输出的到最终泡利势的整个计算链的导数都是精确的。一个微小的导数误差在自洽迭代中会被不断累积放大。挑战三模型泛化到未知元素或化合物现象模型在训练集包含的元素和结构类型上表现好但对包含新元素或全新晶体结构的体系预测误差大。根源当前的描述符是基于电子密度本身构建的理论上应该具有可迁移性。但训练数据的分布可能未能覆盖足够的化学和结构空间。解决策略构建更全面的训练集主动学习Active Learning是一个强大工具。可以先用一个初步模型进行预测找出模型不确定性高的区域如新的晶格常数、新的成分然后只对这些区域进行昂贵的KSDFT计算将新数据加入训练集迭代地改进模型。开发更具物理意义的描述符除了当前使用的密度和梯度卷积可以探索引入更多与化学环境相关的特征例如借鉴原子势或轨道信息但需注意保持OFDFT的无轨道精神或者使用图神经网络直接处理原子位置和种类信息构建更强大的“元素无关”描述符。5.3 未来展望CPN KEDF的成功为OFDFT领域乃至整个基于机器学习的密度泛函开发指明了一条富有前景的道路迈向统一的“全能”KEDF下一步最直接的目标是将金属和半导体的训练数据结合起来训练一个既能处理简单金属、合金又能处理半导体甚至绝缘体的通用ML-KEDF。这需要精心设计训练集覆盖从金属到半导体、从均匀到高度局域化的各种电子密度形态。架构创新引入非球对称的核函数或更灵活的张量描述符以捕捉各向异性特征。探索注意力机制等更先进的神经网络架构让模型能自适应地关注不同区域、不同尺度的信息。与交换关联泛函的融合当前的ML努力主要集中在动能泛函上。一个更宏伟的愿景是开发同时学习动能和交换关联能的ML泛函。两者协同优化有望在保持OFDFT计算效率的同时达到甚至超越KSDFT的精度。高通量材料发现一旦一个高精度、高效率的ML-OFDFT模型成熟它将彻底改变材料筛选和设计的方式。我们可以在数小时或数天内完成对数千种候选材料的大规模筛选而无需诉诸昂贵的KSDFT计算极大地加速新材料的发现进程。回过头看从MPN到CPN的演进本质上是从“单一眼光”到“多维视角”的升级。半导体复杂的电子结构要求我们的计算模型必须具备多尺度感知能力。CPN KEDF通过其多通道架构巧妙地实现了这一点不仅显著提升了精度更重要的是它提供了一种可扩展的框架。随着训练数据的不断丰富和机器学习技术的持续进步一个真正通用、精准、高效的无轨道计算时代或许已不再遥远。对于我们这些身处一线的计算者来说这既是一个令人兴奋的机遇也意味着需要不断学习在物理原理、数值方法和数据科学交叉的前沿领域持续探索。