量子化学的新纪元：Excited Pfaffians 深度解析——近常数缩放的激发态神经网络波函数

来源论文: https://arxiv.org/abs/2603.14515v1 生成时间: Mar 17, 2026 03:31

0. 执行摘要

在量子化学计算领域，求解电子薛定谔方程（Electronic Schrödinger Equation）一直处于计算复杂度的风暴中心。尽管变分蒙特卡洛（VMC）结合神经网络波函数（如 FermiNet, Psiformer）在基态计算上取得了令人瞩目的精度，但在激发态（Excited States）的计算上，传统方法面临着严重的代价折损：其计算成本往往随状态数量 $N_s$ 呈超线性、甚至是四次方（$O(N_s^4)$）增长。

近日，来自慕尼黑工业大学和微软研究院的团队发布了题为《Excited Pfaffians: Generalized Neural Wave Functions Across Structure and State》的重磅工作。该研究引入了两项核心技术创新：多态重要性采样（Multi-State Importance Sampling, MSIS）和激发态 Pfaffian（Excited Pfaffians）架构。这两项创新共同将激发态计算的时间复杂度缩放降低到了近乎常数的级别（实测为 $O(N_s^{0.14})$）。该方法不仅在碳二聚体（$C_2$）等强关联体系上表现出色，还首次实现了利用单一神经网络寻找铍（$Be$）原子电离能以下所有 32 个激发态的壮举。本文将从理论基础、技术细节、Benchmark 表现及局限性等维度，对这一具有里程碑意义的工作进行深度技术解析。

1. 核心科学问题，理论基础，技术难点与方法细节

1.1 核心科学问题：激发态的“维度诅咒”

在变分蒙特卡洛框架下，计算激发态通常依赖于某种形式的惩罚项（Penalty-based methods），强制高阶状态与低阶状态正交。计算公式通常表示为：

$$\mathcal{L} = \sum_{s=0}^{N_s-1} E[\Psi_s] + \sum_{t \neq s} \omega_{st} \langle \Psi_s | \Psi_t \rangle$$

其中关键的瓶颈在于重叠积分（Overlap） $\langle \Psi_s | \Psi_t \rangle$ 的估计。传统的单态采样方法在估计状态 $s$ 和 $t$ 的重叠时，随着状态数增加，单个状态分配到的样本数下降，导致估计量的方差爆炸（$O(N_s/N_b)$）。为了维持精度，必须成倍增加蒙特卡洛 walkers 的数量，这直接导致了计算代价的激增。此外，如何在同一个网络中高效表示多个具有不同对称性和物理特征的激发态，而不产生参数冗余，也是一大难题。

1.2 理论基础：从 Hartree-Fock 到 Pfaffian

激发态 Pfaffian 的设计灵感直接源自 Hartree-Fock（HF）理论。在 HF 理论中，不同的激发态通过选择不同的分子轨道（MO）填充来构建。作者指出，只要两个 Slater 行列式的轨道矩阵 $\Phi$ 是正交的，其对应的多电子波函数即正交。然而，Slater 行列式在处理电子配对（Electron Pairing）时存在局限性。

该工作采用了 Pfaffian 形式：

$$\psi(\mathbf{r}) = \sum_{k=1}^{N_k} \text{Pf}(\Phi(\mathbf{r})_k A_k \Phi(\mathbf{r})_k^T)$$

Pfaffian 是反对称矩阵行列式的平方根，它能天然地描述广义配对波函数（AGP），在表达精度上优于标准的 Slater 行列式，同时能够通过控制反对称矩阵 $A_k$ 来灵活调节波函数的性质。

1.3 技术难点：内存爆炸与采样方差

内存瓶颈：如果为每个激发态分配独立的轨道参数，在使用二阶优化器（如 SPRING 或 KFAC）时，需要存储雅可比矩阵（Jacobian）。对于 32 个状态，所需的 VRAM 可能突破 1TB，这在当前的 GPU 硬件上是不可行的。
估计不稳定：在状态交越（State Crossing）区域，波函数的节点结构剧烈变化，传统的采样方法极易导致优化过程中的能量振荡和状态塌陷。

1.4 方法细节一：多态重要性采样（MSIS）

为了解决方差问题，作者引入了混合分布采样 $\rho_{\text{mix}} = \frac{1}{N_s} \sum_{s=1}^{N_s} \rho_s$。通过从所有状态的混合分布中抽取样本，重叠积分的估计式重写为：

$$\langle \Psi_s | \Psi_t \rangle = \mathbb{E}_{\mathbf{r} \sim \rho_{\text{mix}}} \left[ \frac{\Psi_t(\mathbf{r}) \Psi_s(\mathbf{r})}{\rho_{\text{mix}}(\mathbf{r})} \right]$$

优势分析：

方差缩放：方差从 $O(N_s/N_b)$ 降至 $O(1/N_b)$，消除了对样本数随状态数线性增长的需求。
边界保护：由于分母包含所有状态的概率密度，避免了单个状态节点处出现的发散问题。
桥接采样（Bridge Sampling）：由于 $\psi_s$ 是未归一化的，作者利用 Meng & Wong 提出的多分布桥接采样算法，通过迭代求解线性方程组来实时估计归一化常数之比 $r_s = Z_s/Z_0$。这一过程的计算开销极低（小于总 VMC 步骤的 0.015%）。

1.5 方法细节二：激发态 Pfaffian 架构设计

为了解决参数冗余和内存问题，作者设计了一种“共享主干+轻量级状态选择器”的架构：

共享轨道 $\Phi$：所有激发态共享同一组由神经网络生成的分子轨道特征。这些特征捕捉了电子环境的复杂非局部关联。
状态特定选择器 $A_{sk}$：每个激发态 $s$ 仅由一个小的反对称选择矩阵 $A_{sk}$ 决定。这模仿了 HF 中选择不同轨道组合的行为，但以全学习的方式实现。
自旋状态捕捉（Spin-state Snapping）：为了防止状态收敛到不同自旋多重度的线性组合，作者引入了自旋算符 $\hat{S}^2$ 的惩罚项，并巧妙地利用 $S_+$ 算符避免了计算二阶导数，从而保持了计算的高效性。

2. 关键 Benchmark 体系与性能数据解析

2.1 计算缩放（Scaling）测试

在对氖（$Ne$）原子的测试中（图 1），作者对比了 Pfau et al. (2024) 和 Szabo et al. (2024) 的方法。当状态数从 1 增加到 30 时：

传统方法：表现出显着的超线性增长（$O(N_s^{3.07})$ 或 $O(N_s^{1.11})$）。
Excited Pfaffians：缩放因子仅为 $O(N_s^{0.14})$，接近水平线。这意味着在维持相同精度的前提下，计算 10 个状态的时间与计算 1 个状态几乎无异。

2.2 铍（Be）原子：挑战 32 个激发态

这是该领域的一个里程碑。作者尝试找到 $Be$ 原子在电离阈值以下的所有激发态。计算结果（图 6 和表 8）显示：

成功识别出全部 32 个激发态。
与 NIST 实验参考数据的误差均小于 0.5 mHa，达到了极高的化学精度。
计算成本仅为传统 NES 方法的 1/400 以下。

2.3 碳二聚体（C2）势能面（PES）

$C_2$ 是量子化学中公认的“硬骨头”，因其具有极强的关联效应和复杂的激发态交越。作者在 $0.995$ Å 到 $1.87$ Å 的键长范围内进行了联合训练：

精度对比：与高度精确的随机热浴配置相互作用（SHCI）方法相比，Excited Pfaffian 在整个解离曲线上保持了高度的一致性。
状态交越处理：在 $1.3$ Å 附近的 $X^1\Sigma_g^+$ 态与 $a^3\Pi_u$ 态交越处，该方法能准确追踪各个电子态的特征。相比之下，传统的基态 Neural Pfaffian 会在此处陷入局部最优，无法实现特征的非连续切换（图 9）。

2.4 跨分子泛化性测试

作者在一个模型中同时训练了 12 种分子（包括 $H_2O, C_2H_4, CH_2O$ 等）和 8 种原子。实验证明，该模型不仅能准确预测各个分子的激发能，且通过共享参数显著减少了训练样本的总需求（相比独立训练，样本量减少了 15-60 倍）。

3. 代码实现细节与复现指南

3.1 技术栈与软件包

框架：基于 JAX 开发。JAX 的自动微分和 XLA 编译对于高性能 VMC 至关重要。
神经网络库：使用 Flax 构建波函数架构。
核心库推荐：
- Folx：用于计算前向拉普拉斯算子（Forward Laplacian），显著加速二阶导数（动能项）的计算。
- DeepMind-ferminet 生态系统：提供了基础的 MCMC 采样方案参考。
- SPRING：二阶优化器，用于处理高度非线性的能量面。
预训练支持：利用 PySCF 计算基础的 Hartree-Fock 分子轨道作为预训练目标。

3.2 复现指南关键参数（参考表 2）

网络架构：
- Embedding 维度：256 (Hidden dimension)。
- 层数：4 层 (Number of layers)。
- 决定子数量：$N_k = 16$。
优化配置：
- 训练周期 (Epochs)：200,000 次迭代。
- 批量大小 (Batch size)：4096 (总样本数)。
- 学习率：0.02 (采用特定 schedule)。
MCMC 采样：
- 每步 20 次 MCMC 更新。
- 目标接受率：0.525。

3.3 开源资源 link

虽然 PDF 中未直接给出本论文的独立 repo，但此类工作通常集成在慕尼黑工业大学 Gunnemann 实验室的通用神经网络波函数框架中。建议关注：

Gunnemann Lab GitHub
核心依赖 Folx GitHub

4. 关键引用文献与局限性评论

4.1 关键引用文献

Pfau et al. (2024)：提出了 NES 方法，是本文主要的对标对象，本文在缩放性上对其进行了数量级的超越。
Gao & Günnemann (2024)：提出了 Neural Pfaffians，为本文提供了波函数的基础形式。
Meng & Wong (1996)：提供了桥接采样（Bridge Sampling）的理论基础，解决了未归一化密度比估计的问题。
Li et al. (2024b)：关于自旋算符和 $S_+$ 惩罚项的实现，本文借鉴了其中的高效梯度计算方案。

4.2 局限性深度评论

尽管该工作在计算效率上实现了质的飞跃，但仍存在以下局限：

状态连续性问题：在预训练阶段，由于 Hartree-Fock 轨道的随机相位和排序，跨结构的激发态匹配可能存在不连续性。虽然作者引入了 DAG 和 Procrustes 匹配算法，但在极度扭曲的几何结构下，依然可能出现状态丢失或交换。
自旋锁定的陷阱：Spin-state snapping 虽然有效，但在训练初期如果参数初始化不佳，可能会导致模型过早锁定在错误的自旋多重度上，从而无法跳出至真正的基态（见第 6 节讨论）。
泛化多样性上限：虽然模型在 12 个分子上展示了通用性，但对于更大规模、更具多样性的化学空间（如包含过渡金属的复杂络合物），Pfaffian 架构的表达能力上限仍待验证。

5. 补充思考：物理直觉与工程实现的协同

5.1 为什么是 Pfaffian 而不是 Slater？

在大多数神经网络波函数中，Slater 行列式（Determinant）是标准配置。但从物理学角度看，激发态往往涉及电子对的重新排列。Pfaffian 形式天然包含了配对关联，这使得它在用较少的参数（决定子数量 $N_k=16$）时，就能达到与使用成百上千个 Slater 行列式的传统量子化学方法相媲美的精度。这不仅是数学上的巧妙，更是对物理本质的回归。

5.2 雅可比瓶颈的突破

在深度学习研究中，往往容易忽视二阶优化器的内存开销。本文最惊艳的工程实现之一，就是意识到“通过共享轨道并仅改变选择矩阵 $A_s$”，可以将状态相关的参数量压缩到几乎可以忽略不计。这种“轻量级头”的设计思路，是实现 1TB 级雅可比矩阵压缩到 GPU 可承受范围的关键。这种对底层数学结构（Pfaffian 的恒等式变换）的深刻洞察，体现了计算物理学家在算法优化上的高度直觉。

5.3 对未来科研的启示

Excited Pfaffians 的出现，标志着“激发态势能面大批量生产”成为可能。对于光化学、光合作用机理研究、乃至光伏电池材料的设计，这种能同时产出数十个高精度电子态、且计算代价不随状态数显著增加的工具，将极大加速从头算分子动力学（AIMD）的进程。未来，我们或许能看到基于此类神经网络波函数的实时激发态动力学模拟。