来源论文: https://arxiv.org/abs/2606.04279v1 生成时间: Jun 04, 2026 18:50

基于导数信息感知的高效交换相关泛函学习深度解析

0. 执行摘要

在现代计算化学和材料科学中，密度泛函理论（Density Functional Theory, DFT）是电子结构计算的绝对基石。然而，DFT 的预测精度几乎完全受限于交换相关（Exchange-Correlation, XC）泛函的近似质量。传统的杂化泛函（如 B3LYP）虽然精度高，但其计算复杂度随体系大小呈 $O(N^4)$ 标度，严重制约了大规模分子体系的模拟。近年来，机器学习交换相关泛函（ML-XC）作为一种替代传统人工设计泛函的方案展现出巨大潜力，但现有的 ML-XC 泛函在实际应用中往往无法稳定超越传统的杂化泛函。

本研究提出了一套全新的杂化泛函蒸馏（Hybrid-Distillation）框架。作者设计了一种名为导数感知交换相关损失（Derivative Informed XC-Loss, DI-Loss）的联合损失函数，不仅在常规的基态能量和密度上进行监督，更首次在不可压缩密度矩阵的 Grassmannian 流形上，引入了能量对密度的一阶导数（梯度）与二阶导数（Hessian）的直接监督。该方法成功将高成本的 $O(N^4)$ 标度杂化泛函（B3LYP/def2-SVP）知识，高效“蒸馏”到了仅有 $O(N^3)$ 标度的半局部机器学习泛函（如 NNmGGA, XCdiff, Skala-mGGA）和非局部泛函（EG-XC）中。

核心突破：

精度大幅提升：在四种主流的 ML-XC 架构中，引入 DI-Loss 后，总能量平均绝对误差（MAE）相比于传统的“能量+密度”监督基线降低了 66%。对于非局部架构 EG-XC，总能量误差更是暴降 80%。
加速自洽场（SCF）收敛：蒸馏得到的 ML-XC 泛函产生的自洽密度质量极高。将其作为传统 B3LYP 计算的初始猜想（Initial Guess），可使 B3LYP 的 SCF 迭代步数减少高达 50%，在实际应用中带来了显著的墙钟时间（Wall-clock time）加速。
激发态预测跃升：由于在训练中显式监督了表征能量面局部曲率的二阶 Hessian 矩阵，蒸馏泛函在下游的时变密度泛函理论（TDDFT）计算中表现优异。在 XCdiff 架构上，其前五个激发态能量的预测 MAE 显著降低了 19% 至 35%。

1. 核心科学问题、理论基础、技术难点与方法细节

1.1 核心科学问题与挑战

传统的 DFT 计算通过求解自洽的 Kohn-Sham（KS）方程来避开多体薛定谔方程的指数级复杂度：

$$\{h_{\text{core}}(\mathbf{r}) + v_{\text{C}}[\rho](\mathbf{r}) + v_{\text{xc}}[\rho](\mathbf{r})\} \varphi_i = \varepsilon_i \varphi_i$$

其中，交换相关势 $v_{\text{xc}}(\mathbf{r}) = \frac{\delta E_{\text{xc}}}{\delta \rho(\mathbf{r})}$ 是未知的。为了提高精度，杂化泛函（如 B3LYP）通过引入一定比例的 Hartree-Fock 精确交换项（Exact Exchange, EXX）来修正自相互作用误差：

$$E_{\text{xc}}^{\text{hybrid}} = a E_{\text{x}}^{\text{HF}} + (1-a) E_{\text{x}}^{\text{DFT}} + E_{\text{c}}^{\text{DFT}}$$

然而，精确交换项的计算涉及到四中心双电子积分的变换，使得计算复杂度跃升至 $O(N^4)$（甚至在部分大基组下达到 $O(B^4)$），这成为限制大规模高精度 DFT 模拟的最大瓶颈。机器学习半局部泛函（如 meta-GGA 级别，其标度仅为 $O(N^3)$）虽然计算极其迅速，但在直接拟合高精度耦合簇（如 CCSD(T)）或实验数据时，由于缺乏非局部信息，往往会出现“过拟合”或“物理外推失败”的问题。

本研究探讨的核心科学问题是：能否将 $O(N^4)$ 杂化泛函在基态附近的丰富物理响应信息，高效且无损地蒸馏到 $O(N^3)$ 的机器学习泛函中？

1.2 理论基础：Grassmannian 流形上的轨道旋转

在有限基组 $\{\chi_\mu\}_{\mu=1}^B$ 下，Kohn-Sham 轨道可表示为系数矩阵 $C \in \mathbb{R}^{B \times B}$。对于闭壳层体系，若有 $O = N_{\text{elec}}/2$ 个占据轨道，其余 $V = B - O$ 个为虚轨道。我们可以将 $C$ 拆分为 $C_{\text{occ}} \in \mathbb{R}^{B \times O}$ 和 $C_{\text{virt}} \in \mathbb{R}^{B \times V}$。此时，体系的电子密度矩阵定义为：

$$P = C_{\text{occ}} C_{\text{occ}}^T$$

显然，密度矩阵 $P$ 在占据轨道内部的任意幺正旋转以及虚轨道内部的任意幺正旋转下是保持不变的（即不改变物理可观测的电子密度 $\rho(\mathbf{r})$）。这意味着，真正具有物理效应的自由度并不在整个 $\mathbb{R}^{B \times B}$ 空间中，而是在一个特殊的流形上——Grassmannian 流形 $\text{Gr}(O, B) \cong O_{\text{basis}} / (O_{\text{occ}} \times O_{\text{virt}})$。

任意一个合法的（幂等的、满足粒子数守恒的）新系数矩阵 $C(\theta_{\text{ov}})$ 都可以通过在正交基下应用一个反对称矩阵的指数映射来唯一定义：

$$C(\theta_{\text{ov}}) := C_0 \exp \begin{pmatrix} 0 & \theta_{\text{ov}} \\ -\theta_{\text{ov}}^T & 0 \end{pmatrix}$$

其中 $\theta_{\text{ov}} \in \mathbb{R}^{O \times V}$ 为轨道旋转角（Orbital Rotation Angles），构成了 Grassmannian 流形在 $C_0$ 处的切空间局部坐标。这一几何视角为定义物理上合法的能量导数提供了最严谨的基础。

1.3 技术难点与过拟合陷阱

在先前的 ML-XC 训练中（例如直接拟合 $E_{\text{tot}}$ 或 $\rho$），主要存在以下难点：

势能面的不物理波动（Medvedev Challenge）：仅拟合基态能量和密度，会导致泛函在远离平衡位置时产生剧烈的虚假震荡。这是因为神经网络具有极强的非线性拟合能力，可以在基态点产生正确的能量，但该点处能量的一阶导数（对应于自洽场中的有效势）和二阶导数（对应于响应性质）完全是错的。
SCF 轨迹的不稳定性：在自洽迭代过程中，ML-XC 泛函的微分性质如果不好，会导致 SCF 过程发散、震荡或收敛到错误的亚稳态。这类似于深度均衡模型（DEQ）中定点迭代的不稳定性。
OEP（优化有效势）求解的极度困难：若想直接将轨道依赖的杂化泛函映射为局部势，传统上需要求解复杂的 Optimized Effective Potential (OEP) 方程，这涉及到 Fredholm 第一类积分方程的求解，在数值上是高度病态（ill-posed）且计算极其昂贵的。

1.4 方法细节：DI-Loss 的数学构建

为了彻底解决上述难题，作者提出了DI-Loss，其总损失函数定义为：

$$\mathcal{L}_{DI} = \alpha_E \mathcal{L}_E + \alpha_\rho \mathcal{L}_\rho + \alpha_{\nabla} \mathcal{L}_{\nabla} + \alpha_H \mathcal{L}_H$$

1.4.1 能量与密度监督（$\mathcal{L}_E$, $\mathcal{L}_\rho$）

对于能量项，使用均方误差（MSE）。对于密度项，为了确保对电荷密度的全局及局部细微结构均有良好的约束，作者通过消融实验选定了单电子 $L^1$ 实空间密度误差（详见公式 8）：

$$\mathcal{L}_\rho^{(j)} = \frac{1}{N_{\text{elec}}} \int |\Delta \rho(\mathbf{r})| d\mathbf{r}$$

1.4.2 Grassmannian 一阶导数（梯度）监督（$\mathcal{L}_{\nabla}$）

能量对轨道旋转角 $\theta_{ia}$（$i$ 为占据轨道，$a$ 为虚轨道）的一阶导数可以表示为：

$$g_{ia}^{(\text{xc})} [\rho] := \left. \frac{\partial E_{\text{xc}}[\rho(\mathbf{r}; \theta)]}{\partial \theta_{ia}} \right|_{\theta=0} = -2(C^T V_{\text{xc}} C)_{ia}$$

由于在自洽点处，总能量对物理旋转的梯度必须为零，但在非平衡的 SCF 轨迹上，该梯度驱动着密度的演化。因此，通过监督占据-虚（$O \times V$）块的势矩阵元素，我们能够直接指导模型在偏离平衡态时的受力方向。梯度损失函数定义为：

$$\mathcal{L}_{\nabla}^{(j)} = \frac{1}{N_{\text{elec}}} \left\| \left( C^{(j)} \right)^T \Delta V_{\text{xc}}^{(j)} C^{(j)} \right\|_{ia, F}$$

通过仅约束 $O \times V$ 块，模型可以避免在无物理物理意义的占据-占据（$O \times O$）和虚-虚（$V \times V$）块上浪费表达容量。这比起 Kanungo 等人仅使用电荷密度加权势误差的方法（其仅能约束单一标度），提供了 $O \times V$ 个独立的物理约束。

1.4.3 Grassmannian 二阶导数（Hessian）监督（$\mathcal{L}_H$）与随机线性响应

二阶导数（Hessian 矩阵）决定了体系的激发态响应（TDDFT）以及 SCF 的动力学稳定性：

$$H_{ia, jb} = \left. \frac{\partial^2 E_{\text{xc}}}{\partial \theta_{ia} \partial \theta_{jb}} \right|_{\theta=0}$$

然而，Grassmannian Hessian 的维度为 $(O \cdot V) \times (O \cdot V)$，对于中等大小的分子，显式存储该矩阵将导致内存爆炸。为此，作者巧妙地引入了随机线性响应监督，利用**雅可比-向量积（Jacobian-Vector Products, JVP）**高效计算 Hessian 与随机扰动向量的乘积：

$$\delta g_{\mu i}^{(\text{xc})} = \left. \frac{\partial g_{\mu i}^{(\text{xc})}}{\partial \theta_{vj}} \right|_{\theta=0} \delta \theta_{vj}$$

为了将监督重点放在对线性响应和低能激发贡献最大的低能带隙跃迁上，作者提出了一个极具物理启发性的能隙加权（Gap-weighting）采样方案：

$$\delta \theta_{ia} \propto \frac{z_{ia}}{\varepsilon_a - \varepsilon_i}, \quad z_{ia} \sim \mathcal{N}(0, 1)$$

这一权重的物理意义在于，它正比于独立粒子近似下的静态 Kohn-Sham 响应函数 $\chi_s$。因此，这种采样机制实质上是在对由随机外加势场激发的自洽电荷响应进行匹配，从而实现了高效且物理图像清晰的 Hessian 监督。最后，Hessian 损失函数定义为归一化后的蒙特卡洛期望值：

$$\mathcal{L}_H = \mathbb{E}_{\delta \theta} \left[ \frac{\| \Delta \delta g^{(\text{xc})} \|_F^2}{\| \delta g^{(\text{xc})} \|_F^2} \right]$$

在每个训练步中，仅需采样 $T=8$ 个方向，即可获得极其丰富的二阶曲率约束。

2. 关键 Benchmark 体系、计算所得数据与性能分析

2.1 训练与评估数据集设计

为了严谨评估模型的泛化性能与大小外推（Size Extrapolation）能力，作者采用了以下数据集划分：

QM9 分子集：过滤掉氟（F）元素（因其过于稀少且在重原子划分中缺乏代表性）。将数据集按重原子（Heavy Atoms）个数拆分，训练集仅包含重原子数 $\le 7$ 的超小分子，而在重原子数等于 $7, 9$ 的子集上进行测试。这构成了一个极具挑战性的尺寸外推基准。
QM40 数据集：包含高达 40 个重原子的大型有机分子，用于测试模型在外推到极其遥远的非同分布（Out-Of-Distribution, OOD）场景下的表现。同样过滤掉了氟（F）、硫（S）和氯（Cl）元素，以排除元素外推带来的干扰。

2.2 核心能量性能数据分析

作者在多种经典神经网络泛函架构（NNmGGA, XCdiff, Skala-mGGA, EG-XC）上，对比了不同的损失函数配置（基线 $E+\rho$ vs. 梯度监督 $+\nabla$ vs. 完整导数感知 $+\nabla+H$）。

下表汇总了蒸馏自 B3LYP/def2-SVP 的模型在 QM40 测试集上的表现（提取自论文 Table 8 关键部分）：

架构 (Model)	损失函数配置 (Loss)	总能量 $E_{\text{tot}}$ MAE (mEh)	密度能 $E_\rho$ MAE (mEh)	交换相关能 $Exc$ MAE (mEh)	偶极矩差 $\mu_\rho$ MAE	密度 $L_2$ 误差 ($10^{-5}$)	$E_{\text{B3LYP}}$ MAE (mEh)
NNmGGA	$E+\rho$ 基线	$4.2 \pm 0.6$	$1.4 \pm 0.2$	$3.0 \pm 0.4$	0.0180	1.0e-5	0.9
	$+ \nabla + H$ (DI-Loss)	$2.9 \pm 0.5$	$0.9 \pm 0.2$	$2.6 \pm 0.4$	0.0189	1.2e-5	0.7
Skala-mGGA	$E+\rho$ 基线	$15.8 \pm 1.8$	$1.2 \pm 0.1$	$14.6 \pm 1.8$	0.0176	9.1e-6	0.9
	$+ \nabla + H$ (DI-Loss)	$3.6 \pm 0.2$	$0.7 \pm 0.0$	$3.7 \pm 0.2$	0.0182	1.1e-5	0.7
XCdiff	$E+\rho$ 基线	$8.9 \pm 0.9$	$1.2 \pm 0.1$	$7.9 \pm 1.0$	0.0182	9.8e-6	0.9
	$+ \nabla + H$ (DI-Loss)	$5.5 \pm 1.6$	$0.7 \pm 0.0$	$5.5 \pm 1.6$	0.0187	1.1e-5	0.7
EG-XC	$E+\rho$ 基线	$15.9$	1.0	15.6	0.0182	1.0e-5	0.9
(非局部)	$+ \nabla + H$ (DI-Loss)	$3.1$	1.0	$3.4$	0.0181	9.2e-6	0.7

数据结论解析：

总能量误差的断崖式下跌：对于表现最差的 Skala-mGGA 基线，其总能量误差为 15.8 mEh，而一旦使用完整 DI-Loss，误差瞬间收缩至 3.6 mEh，降幅达 77%！而非局部 EG-XC 更是录得 80% 的降幅（从 15.9 mEh 降至 3.1 mEh）。平均而言，所有架构的总能量 MAE 降低了 66%。
物理能分量的自洽性：衡量电荷密度分布合理性的关键指标——密度能误差 $E_\rho$（Gould 2023）在所有半局部架构中均有显著改善，从平均 1.2 mEh 降低至 0.8 mEh。这证明一阶梯度监督能够迫使自洽场收敛至物理图像更正确的定点密度。

2.3 下游自洽场加速性能（RIC）

将蒸馏出的 ML-XC 半局部泛函作为“前置预处理器”，先进行几步低成本的 $O(N^3)$ 迭代以产生的高精度电子密度，再作为初始猜想喂给高成本的 $O(N^4)$ B3LYP 杂化泛函计算。其加速效果极为显著：

RIC 降至 50%：无论是哪种架构，相比于传统默认的 MINAO 初始猜测，使用蒸馏泛函初始猜测可使后续 B3LYP 达到收敛所需的迭代步数（Relative Iteration Count, RIC）直接腰斩（减少约 50%）。这超越了传统 SCAN 泛函（约 65%）的表现（参见论文 Figure 3）。
实际墙钟加速比：在包含 35 个重原子的 QM40 分子体系上，先运行 6 圈 NNmGGA 计算，再启动 B3LYP，整体计算时间相比于直接运行 B3LYP 实现了 1.35倍的净加速。这一加速比在大基组（如 def2-TZVPD）和更大分子上由于 EXX 占比成本的剧增将进一步扩大。

2.4 TDDFT 激发态能谱Benchmark

Hessian 矩阵的精确监督给 TDDFT 激发态带来了最直接的红利。作者测试了 QM9（7重原子、9重原子）及 QM40（12重原子、14重原子）在不同训练策略下的前五个垂直激发能误差（MAE，单位为 meV）：

一阶梯度监督的副作用：仅添加梯度监督（$+\nabla$）由于缺乏对曲率的控制，有时会导致势能面过于平坦，在 TDDFT 中的激发能 MAE 反而会比基线变差（例如在 XCdiff 上，7重原子的 MAE 从 303 meV 上升至 346 meV）。
Hessian 的决定性修正：一旦引入随机 Hessian 监督（$+\nabla+H$），误差大幅逆转。在最强架构 XCdiff 上：
- 7重原子（分子内）：平均激发能 MAE 降至 218 meV（相比基线降低 28%）。
- 14重原子（极端外推）：平均激发能 MAE 从 447 meV 降至 361 meV（降低 19%）。
- 特别是高阶激发（如第 5 激发态），XCdiff 7重原子误差从 356 meV 被强力压缩至 233 meV（降低 35%），极大拓宽了半局部泛函在光化学模拟中的应用前景。

3. 代码实现细节与复现指南

本工作的算法核心在于：如何在主流计算化学框架（如 PySCF）中利用现代自动微分技术（如 JAX）高效、数值稳定地实现 Grassmannian 上的梯度与 Hessian 向量积（HVP）。

3.1 核心依赖与开源库

本工作建立在以下核心库之上：

PySCF (Python Chemistry Framework)：提供底层的量子化学基组定义、积分计算、重叠矩阵 $S$ 和自洽场（SCF）求解器接口。
JAX (Autograd and XLA)：用于实现分子轨道的指数映射旋转、神经网络前向传播以及核心的 HVP 自动求导。
EG-XC 官方库 / Skala 官方库：提供相关的神经网络特征提取（网格特征、局部及非局部嵌入）架构。

3.2 DI-Loss 计算的核心伪代码实现

以下代码展示了如何在训练循环中实现 Grassmannian 梯度与基于 HVP 的能隙加权 Hessian 监督：

import jax
import jax.numpy as jnp
from jax import grad, jvp

# 1. 轨道旋转参数化：将 theta 映射到正交变化的系数矩阵 C
def rotate_orbitals(C0, theta_ov, O, V):
    """
    C0: 形状为 (B, B) 的初始系数矩阵
    theta_ov: 形状为 (O, V) 的 Grassmannian 局部坐标
    """
    B = C0.shape[0]
    # 构造反对称矩阵 Delta
    upper = jnp.zeros((O, O))
    lower = jnp.zeros((V, V))
    # 拼接形成 (B, B) 矩阵
    Delta = jnp.block([
        [upper, theta_ov],
        [-theta_ov.T, lower]
    ])
    # 使用矩阵指数映射进行幺正旋转
    U = jax.scipy.linalg.expm(Delta)
    return jnp.dot(C0, U)

# 2. 梯度计算函数
def compute_xc_gradient(theta_ov, C0, O, V, model, grid_features):
    """
    计算 Exc 对旋转角 theta_ov 的一阶导数
    """
    C = rotate_orbitals(C0, theta_ov, O, V)
    # 通过模型计算交换相关能量 Exc
    Exc = model.evaluate(C, grid_features)
    return Exc

# 3. 雅可比-向量积 (JVP) 实现快速 Hessian-Vector Product
def compute_hvp_loss(C0, O, V, eps_occ, eps_virt, model, grid_features, key, T=8):
    """
    使用能隙加权采样和前向自动微分计算 Hessian 损失
    """
    # 轨道能级 gap 矩阵
    gap = eps_virt[None, :] - eps_occ[:, None] # 形状 (O, V)
    
    hvp_errors = []
    # 梯度函数
    grad_fn = jax.grad(compute_xc_gradient, argnums=0)
    
    for t in range(T):
        key, subkey = jax.random.split(key)
        # 采样标准正态分布
        z = jax.random.normal(subkey, shape=(O, V))
        # 物理启发式能隙加权扰动
        delta_theta = z / gap 
        
        # 核心：利用 jax.jvp 在 theta=0 处计算 H * delta_theta
        zero_theta = jnp.zeros((O, V))
        _, delta_g = jax.jvp(grad_fn, (zero_theta,), (delta_theta,))
        
        # 计算预测与真实的扰动响应之差 (假设 target_delta_g 已由杂化泛函提供)
        # loss = ||delta_g_pred - delta_g_target||^2 / ||delta_g_target||^2
        # hvp_errors.append(loss)
        
    return jnp.mean(jnp.array(hvp_errors))

3.3 复现要点与坑点提示

极小能隙带来的数值发散：在公式 15 中，当体系存在近简并轨道时，分母 $\varepsilon_a - \varepsilon_i$ 趋近于 0，这会导致采样扰动角 $\delta \theta_{ia}$ 异常偏大，引发求导数值崩溃。复现时，务必对能隙分母加上微小的截断标量（如 jnp.clip(gap, min=1e-4)）。
PySCF 积分对齐问题：深度学习框架（JAX）与 PySCF 的实空间网格、数值积分权重必须完全对齐。特别是径向和角向网格的剪枝（Pruning）策略必须一致，否则一阶势能梯度监督将引入严重的系统偏差。
非确定性固定点：SCF 的不收敛性经常干扰梯度回传。务必使用本文提出的自适应训练稳定化机制（Adaptive Training Stabilization），通过 Metropolis-like 接受-拒绝机制过滤掉可能破坏 SCF 稳定性的参数更新。

4. 关键引用文献与局限性评论

4.1 关键参考文献

本项工作紧密建立在以下几篇里程碑式文献之上：

Becke, A. D. (1993) ¹：提出了 B3LYP 杂化泛函，确立了精确交换项在化学精度中的统治地位，是本工作蒸馏的目标源头。
Nagai, R., et al. (2020) ²：开创了在 SCF 循环中端到端训练 ML-XC 泛函的先河，但当时使用的是无梯度的 Metropolis-Hastings 扰动训练，效率极低。
Li, L., et al. (2021) ³：系统阐述了将 Kohn-Sham 自洽迭代本身作为物理正则化器（SCF-as-a-Regularizer）的构想，为自动微分训练泛函奠定了基础。
Gao, N., et al. (2024) ⁴：提出了 EG-XC 非局部泛函架构，本工作成功在该前沿架构上验证了 DI-Loss 的威力。
Luise, G., et al. (2025) ⁵：开发了 Skala 架构，本工作证明了 DI-Loss 能有效缓解其严重的泛化和蒸馏过拟合问题。

4.2 本工作局限性剖析

尽管表现优异，作为前沿学术成果，它依然存在以下不容忽视的局限性：

严格受限于闭壳层体系（Closed-Shell Restriction）：论文目前的方法细节和公式推导均假设体系为限制性闭壳层（Restricted Closed-Shell，占据轨道偶数填满）。而在物理和化学实际中，大量的过渡金属催化剂、自由基反应和化学键断裂过程涉及到非限制性开壳层（Unrestricted Open-Shell）状态。将其推广至开壳层时，Grassmannian 流形需拆分为自旋向上（Alpha）和自旋向下（Beta）两个独立流形，对应的 Hessian 交叉项在数学和计算上会显著变复杂。
物理表达力的天然上限（Expressivity Bottleneck）：$O(N^3)$ 的半局部 meta-GGA 泛函（其特征仅依赖于局部网格上的密度、梯度和动能密度）是否在物理上有可能完美复刻包含长程非局部精确交换作用（EXX）的杂化泛函？答案大概率是否定的。即使二阶导数对齐得再完美，由于特征空间的局限，meta-GGA 在面对高度非定域的电荷转移激发态时仍会出现本质性系统误差。这在一定程度上解释了为何非局部架构 EG-XC 在引入 DI-Loss 后误差能下降 80%，而半局部架构的下降空间相对受限。
蒸馏泛化的边界问题：本方案是一种“蒸馏（Distillation）”而非“从头发现（Ab Initio Discovery）”。它极度依赖于一个现成的高精度参考源（如 B3LYP）。如果我们希望拟合更高精度的 CCSD(T) 参考数据，由于 CCSD(T) 无法给出便宜且自洽的一阶和二阶 Grassmannian 导数（除非借助极昂贵的反向 DFT 技术），DI-Loss 将退化或无法直接使用。

5. 补充理论探索：OEP 渊源、DEQ动力学与自适应稳定机制

为了帮助研究人员更透彻地理解本工作背后的深层物理与应用数学机理，以下对三大关键机制进行补充推导和剖析。

5.1 DI-Loss 与 Optimized Effective Potential (OEP) 的深刻渊源

在 DFT 历史上，如何利用局部势 $V_{\text{xc}}(\mathbf{r})$ 来逼近轨道依赖的非局部算符 $\Sigma_{\text{xc}}(\mathbf{r}, \mathbf{r}')$ 是一个经典难题，其标准解法是 OEP 方法（详见附录 G）。

经典的 OEP 条件由 Sharp-Horton 变分原理给出：总能量对局部 Kohn-Sham 势 $V_{\text{KS}}(\mathbf{r})$ 的一阶变分为零：

$$\frac{\delta E_{\text{tot}}}{\delta V_{\text{KS}}(\mathbf{r})} = 0$$

利用链式法则并代入体系的静态响应函数 $\chi_s(\mathbf{r}, \mathbf{r}')$，可推导出著名的 OEP 积分方程：

$$\int \chi_s(\mathbf{r}, \mathbf{r}') V_{\text{xc}}^{\text{OEP}}(\mathbf{r}') d\mathbf{r}' = \Lambda(\mathbf{r})$$

其中，通过一系列复杂的代数变换（Kummel & Kronik, 2008），该方程可在占据（$i$）-虚（$a$）轨道空间中展开为：

$$\sum_i^{\text{occ}} \sum_a^{\infty} \frac{\left[ \langle a | V_{\text{xc}}^{\text{OEP}} | i \rangle - \langle a | \Sigma_{\text{xc}} | i \rangle \right]}{\varepsilon_i - \varepsilon_a} \phi_i^*(\mathbf{r}) \phi_a(\mathbf{r}) + \text{c.c.} = 0$$

观察上式，若要满足该积分方程，最直接也最强力的Term-by-Term 匹配条件就是使每一对占据-虚轨道的矩阵元相等：

$$\langle a | V_{\text{xc}} | i \rangle = \langle a | \Sigma_{\text{xc}} | i \rangle, \quad \forall i, a$$

这正是本工作设计的Grassmannian 梯度损失 $\mathcal{L}_{\nabla}$（公式 12）在最小二乘意义下的体现！这意味着，DI-Loss 不需要显式求解病态且昂贵的 OEP 积分方程，仅仅通过在神经网络的损失函数中加入占据-虚块的梯度对齐，就在隐式地迫使机器学习泛函去逼近严谨的变分 OEP 局部势。这是一个极其优雅的理论巧合与计算简化。

5.2 深度均衡模型（DEQ）视角下的 SCF 动力学与 Hessian 稳定器

自洽场（SCF）的求解过程本质上是一个非线性定点迭代问题。定义定点映射 $f_\theta$：

$$P^{(t+1)} = \text{SCF}_{\text{step}}(P^{(t)}) := f_\theta(P^{(t)})$$

在深度学习领域，这类结构被称为深度均衡模型（Deep Equilibrium Models, DEQ）。DEQ 能够成功收敛的前提是该定点映射在吸引域内满足收缩映射原理，即其雅可比矩阵的谱半径小于 1：

$$\rho\left( \frac{\partial f_\theta}{\partial P} \right) < 1$$

如果机器学习泛函的物理微分性质很差，在训练更新参数 $\theta$ 的过程中，该雅可比谱半径极易超过 1，导致 SCF 发散或产生剧烈震荡。此时反向传播梯度会完全崩溃。

Hessian 监督（$\mathcal{L}_H$）在此扮演了“动力学稳定器”的关键角色。通过强制约束能量表面的二阶局部曲率（Hessian）与真实的、物理上高度稳定的 B3LYP 势能面曲率一致，DI-Loss 实际上是在直接约束和优化该定点映射的雅可比矩阵性质。它确保了在训练过程中，基态定点始终是一个宽阔且具有强吸引力的“盆地（Stable Attractor）”，从根本上消除了 ML-XC 训练中常见的 SCF 崩溃问题。

5.3 自适应训练稳定化机制（Adaptive Training Stabilization）

为了彻底防止不稳定的参数更新彻底毁掉训练进程，作者实现了一套巧妙的 Metropolis-inspired 接受-拒绝机制（附录 H）：

计算相对损失变化率：
$$\Delta l_t = \frac{L_t - L_{t-1}}{L_{t-1}}$$
维护未中心化标准差的指数移动平均（EMA）：
$$\hat{\sigma}_t^2 = \beta \hat{\sigma}_{t-1}^2 + (1-\beta)(\Delta l_t)^2$$
为了防止由于极小波动导致更新过于敏感，对标准差进行裁剪得到 $\tilde{\sigma}_t = \text{clip}(\hat{\sigma}_t, \sigma_{\text{min}}, \sigma_{\text{max}})$。
计算归一化偏差并构建余弦衰减接受概率：定义偏差 $z_t = \frac{\Delta l_t}{\tilde{\sigma}_t}$。当 $z_t < h_t$（$h_t$ 为动态设定的容忍度半宽）时，100% 接受更新；而当偏差过大时，按余弦衰减概率拒绝该步更新：
$$p_t = \frac{1}{2} \left[ 1 + \cos\left( \pi \frac{\text{clip}(z_t - h_t, 0, h_t)}{h_t} \right) \right]$$
拒绝后的动量重置：如果连续发生拒绝，训练算法不仅会回滚权重，还会对优化器的动量（Momentum）进行按比例衰减（如乘以 0.7），从而彻底浇灭导致不自洽的“坏梯度”累积。这一工程创新确保了模型能够直接从标准的 MINAO 粗糙初始猜想开始平稳训练，无需像前人工作那样依赖预先收敛的高精度密度。

Becke, A. D. Density-functional thermochemistry. iii. the role of exact exchange. The Journal of Chemical Physics, 1993. ↩︎
Nagai, R., et al. Completing density functional theory by machine learning hidden messages from molecules. npj Computational Materials, 2020. ↩︎
Li, L., et al. Kohn-Sham Equations as Regularizer: Building Prior Knowledge into Machine-Learned Physics. Physical Review Letters, 2021. ↩︎
Gao, N., et al. Learning Equivariant Non-Local Electron Density Functionals. ICLR, 2024. ↩︎
Luise, G., et al. Accurate and scalable exchange-correlation with deep learning. arXiv, 2025. ↩︎