来源论文: https://arxiv.org/pdf/2602.12993 生成时间: Feb 21, 2026 02:05
超越 VMC:神经网络量子态(NQS)在选定构型下的范式演进
0. 执行摘要
在现代量子化学的计算疆界中,神经网络量子态(Neural Quantum States, NQS)凭借其极强的函数表达能力,已成为解决强相关多体问题的有力工具。然而,传统 NQS 的能量评估几乎完全依赖于变分蒙特卡洛(Variational Monte Carlo, VMC)采样,这在面对电子哈密顿量(Electronic Hamiltonians)时表现出严重的局限性:高度尖锐的概率分布导致采样效率低下、随机梯度噪声巨大以及收敛极其缓慢。
近日,ETH Zürich 的 Marco Julian Solanki、Lexin Ding 和 Markus Reiher 在其论文《Neural Quantum States Based on Selected Configurations》中,提出并系统评估了基于选定构型(Selected Configurations, SC)的 NQS 框架。研究表明,NQS-SC 在处理无论是静态相关(Static Correlation)占主导的拉伸氮气(Stretched N2),还是动态相关(Dynamical Correlation)占主导的水分子(H2O)时,其精度和效率均远超传统的 VMC 采样方法。本深度解析旨在从理论基础、benchmark 数据、实现细节及未来局限性等维度,全方位解构这一可能重塑电子结构计算范式的技术进展。
1. 核心科学问题,理论基础,技术难点,方法细节
1.1 核心科学问题:VMC 的瓶颈与 NQS 的“表达困境”
自 2017 年 Carleo 和 Troyer 将受限玻尔兹曼机(RBM)引入多体量子问题以来,NQS 的研究大多遵循“采样-优化”的逻辑。但电子系统与简单的自旋链不同,其哈密顿量包含长程相互作用和复杂的费米子反对称性。VMC 在此面临三大挑战:
- 采样噪声:电子波函数的概率分布通常极其“尖锐”,只有极少数构型占据绝大部分权重。Metropolis-Hastings 采样在这些体系中经常陷入高拒绝率(甚至低至 0.1%)。
- 自回归采样(Autoregressive Sampling)的局限性:虽然自回归模型解决了拒绝率问题,但它依赖于特定的轨道排序(Orbital Ordering),且难以直接强制物理对称性(如总粒子数、总自旋磁化强度),通常需要后置的掩码处理。
- 动态相关的捕捉:捕捉动态相关需要处理海量的“长尾”构型,VMC 很难在有限采样量下稳定提取这部分微弱但关键的能量贡献。
1.2 理论基础:NQS-SC 的数学框架
NQS-SC 方案(由 Li 等人最初提出,Reiher 组在此工作中进行了深度变分验证)的核心思想是:不再通过随机采样来近似希尔伯特空间,而是主动“选定”最重要的构型集合 $\mathcal{S}_{select}$。其能量评估公式从 VMC 的期望值近似:
$$ E_{\theta}^{MC} \approx \sum_{|n\rangle \in \mathcal{S}_{MC}} E_{\theta}^{loc}(n) $$演变为基于选定空间的截断求和:
$$ E_{\theta}^{SC} \approx \sum_{|n\rangle \in \mathcal{S}_{select}} P_{\theta}^{SC}(n) E_{\theta}^{loc}(n) $$为了恢复变分性,作者引入了两种关键的评估方式:
- 对称化评估($E_{\theta}^{SC-SYM}$):通过在截断空间内进行对称化的能量期望计算,确保遵循变分原理。
- 精确对角化($E^{SCI}$):在选定空间 $\mathcal{S}_{select}$ 内直接求解哈密顿矩阵的最小特征值。这不仅利用了 NQS 筛选构型的能力,还利用了传统 SCI 的线性优化优势。
1.3 技术难点:构型选择策略与网络架构
实现 NQS-SC 的关键难点在于如何动态更新 $\mathcal{S}_{select}$。作者采用了一种受 SCI 启发的方法:
- 从 Hartree-Fock 构型出发,生成与之相连的扩展集 $\mathcal{S}_{extend} = \hat{H} \mathcal{S}_{select}$。
- 利用 NQS 预测这些外部构型的振幅,挑选概率最大的构型进入新的 $\mathcal{S}_{select}$。
- 架构选择:作者选用了 Neural Backflow (NBF) 架构。NBF 通过神经网络将每一个占据数矢量(ONV)映射到一个依赖于位置的轨道系数矩阵 $C^{(n)}$,然后计算行列式值: $$ \Psi_{\theta}^{NBF}(n) = \sum_{i=1}^{D} \det C_i^{(n)}(n) $$ 这种架构天然捕捉了费米子反对称性,且其多行列式形式能够学习极复杂的电子相关性。
1.4 方法细节:从单行列式到神经网络反流
传统的 Slater 行列式(SD)仅使用固定矩阵 $C$。NBF 的创新在于,它使用一个 $K$ 层的深度前馈网络来处理输入 $n$,最后一层的输出维度为 $D \times 2L \times N$,从而为每一个构型生成独特的、可变形的“轨道矩阵”。这意味着 NBF 不仅仅是在选定空间内进行线性组合(CI 的思路),更是在通过非线性参数化不断调整基函数本身的形态。在训练过程中,NQS-SC 的非随机性极大地稳定了梯度下降,使得模型能够稳定地落入全局最小值,而不会被 VMC 的随机游走所干扰。
2. 关键 benchmark 体系,计算所得数据,性能数据
作者选择了几个具有代表性的挑战体系,对比了 NBF-VMC(采用 Exact Monte Carlo 采样,排除采样算法本身的误差)和 NBF-SC。
2.1 强静态相关体系:拉伸 $N_2$
在 $2.25 \text{\AA}$ 的键长下,$N_2$ 呈现出典型的强相关特性,HF 轨道生成的振幅分布呈现显著的平台期。
- 数据表现:NBF-SC 仅需 $2^6 = 64$ 个构型就能将能量误差降至化学精度(1.6 mHa)以下。当构型数增加到 $2^{10}$ 时,误差降至 $11.4 \mu Ha$。
- SCI 对比:令人震惊的是,在 $n_{select} \ge 2^{11}$ 时,$E^{SCI}$ 的误差几乎归零($5 \cdot 10^{-11}$ Ha),这表明 NQS-SC 成功定位了希尔伯特空间中所有关键的行列式,即使网络预测的系数不完美,通过对角化也能得到精确解。
- VMC 的失败:相比之下,NBF-VMC 直到样本量达到 $2^{13}$(接近全空间维数 14,400)时才勉强达到化学精度,且在平台期构型的捕捉上表现极差。
2.2 强动态相关体系:$H_2O$
在 6-31G 基组下,$H_2O$ 拥有超过 165 万个构型,且其相关性以动态相关为主,分布呈现缓慢衰减的长尾。
- 数据表现:NBF-SC 需要约 $2^{11} = 2048$ 个构型达到化学精度。尽管动态相关比静态相关更难通过“选定”来覆盖,但 NBF-SC 依然展现了稳健的系统改进性(Systematic Improvability)。
- 性能极限:NBF-VMC 在此体系中彻底溃败。即使样本量达到 $2^{17}$,由于无法有效采样到长尾构型,其能量误差依然徘徊在数百 mHa 之外,且存在频繁的非收敛现象。
2.3 扩展体系性能表汇总(Table 1 解析)
| 分子体系 | 基组 | 空间维度 $\dim(\mathcal{H})$ | 达标所需 $n_{select}$ | 占比 $n_{select}/\dim(\mathcal{H})$ |
|---|---|---|---|---|
| $N_2$ (平衡) | STO-3G | 14,400 | $2^7$ | 0.889% |
| $N_2$ (拉伸) | STO-3G | 14,400 | $2^6$ | 0.444% |
| $LiCl$ | STO-3G | 1,002,001 | $2^7$ | 0.013% |
| $H_2O$ | 6-31G | 1,656,369 | $2^{11}$ | 0.124% |
| $C_2H_4$ | STO-3G | 9,018,009 | $2^{13}$ | 0.091% |
| $Li_2O$ | STO-3G | 41,409,225 | $2^{10}$ | 0.002% |
数据清晰地表明,随着体系规模增大,NQS-SC 达到化学精度所需的构型占比呈指数级下降,证明了其在大规模电子结构计算中的潜力。
3. 代码实现细节,复现指南,所用的软件包及开源 repo link
本研究的复现依赖于现代 JAX 生态系统,主要使用了以下开源工具:
3.1 核心框架:NetKet 3
NetKet 是 NQS 领域的工业标准框架。作者利用 NetKet 提供的变分优化接口,结合自定义的 NBF 架构进行训练。
- Repo: https://github.com/netket/netket
- 实现细节:NBF 的每一层通过
Flax实现,其前馈网络处理占据数向量输出到行列式矩阵的转换过程需要精细的张量变换(Reshape)。
3.2 量子化学积分与参考值:PySCF
用于生成哈密顿量的单电子和双电子积分,以及进行 FCI 和 MP2 的基准测试。
- Repo: https://github.com/pyscf/pyscf
- 使用流程:通过 PySCF 计算得到的分子轨道系数和积分被导出并读入 NetKet 环境。作者强调了使用自然轨道(Natural Orbitals,如 MP2 自然轨道)对于加速构型收敛的重要性。
3.3 能量变分评估:PyCI
为了实现式 (8) 和 (9) 中的对称化能量评估和精确对角化,作者使用了 PyCI。
- Repo: https://github.com/mreifher/pyci (注:这是 Reiher 组维护的工具)
- 关键逻辑:在每一轮 NQS 参数更新后,将当前 $\mathcal{S}_{select}$ 中的构型及其系数提取出来,构建子空间哈密顿矩阵进行对角化。
3.4 复现指南建议
- 初始化:必须从 Hartree-Fock (HF) 构型作为 Seed。对于拉伸 $N_2$ 等强相关体系,建议初始空间包含 HF 及其单、双激发(SD)构型。
- 优化器:作者使用了
Stochastic Reconfiguration (SR)算法的确定性变体。对于 NQS-SC,由于没有采样噪声,学习率可以设置得更大。 - 内存管理:在处理如 $H_2O$ 在 6-311G 基组下的情形时,$n_{select}$ 达到 $2^{14}$ 会导致 NetKet 内存溢出,需注意 GPU 显存的分配策略。
4. 关键引用文献,以及对这项工作局限性的评论
4.1 关键参考文献
- Carleo & Troyer (Science 2017): NQS 的开山之作,确立了 VMC 作为默认评估框架的地位。
- Luo & Clark (PRL 2019): 首次提出神经网络反流(NBF)架构,为捕捉费米子相关性提供了强大工具。
- Li et al. (JCTC 2023): NQS-SC 方法的原始提出者,本论文在其基础上进行了严格的变分对比评估。
- Reh et al. (Phys. Rev. B 2023): 对 NQS 设计选择的系统优化研究,提供了超参数设置的参考。
4.2 局限性评论
尽管 NQS-SC 表现卓越,但仍存在以下不容忽视的问题:
- 动态相关的“死穴”:正如作者所言,无论是 SC 还是 VMC,在面对纯粹的动态相关(即需要极大量微小系数构型贡献时)效率依然不够高。NQS-SC 实际上是把 NQS 变成了一个极其聪明的“构型筛选器”。
- 非变分风险:公式 (7) 的原始 SC 能量评估是非变分的。虽然作者通过 $E_{SC-SYM}$ 解决了这个问题,但在训练过程中,如果优化目标仍是 $E^{SC}$,可能会导致模型偏向于产生能量低估的非物理系数分布。
- 轨道依赖性:尽管 NBF 架构本身比自回归模型对轨道排序更鲁棒,但构型选择过程(特别是扩展集的构建)仍然深受所选分子轨道(HF 轨道 vs 自然轨道)的影响。如果初始轨道很差,NQS 可能需要极大的 $n_{select}$ 才能纠正错误。
- 算力平衡点:当 $n_{select}$ 接近 $\dim(\mathcal{H})$ 时,NQS-SC 的计算成本会迅速上升,超过传统的 SCI 方法,此时 NQS 的参数化表达可能变得冗余。
5. 其他补充:从“随机采样”到“确定性选定”的哲学转变
这项工作最深刻的启示在于:在量子化学领域,希尔伯特空间的“稀疏性”是比“可采样性”更重要的资产。
5.1 NQS 的角色重新定义
过去,我们把 NQS 看作是一个能够“模拟整个波函数”的黑盒。而在 Reiher 组的这个框架下,NQS 的角色发生了一个微妙的变化——它变成了一个高效的启发式搜索算法。它利用神经网络的泛化能力,在巨大的、未知的外部空间 $\mathcal{S}_{extend}$ 中寻找那些概率最大的构型。这实际上是将人工智能的“判别能力”而非“生成能力”置于核心位置。
5.2 对未来混成方法的启示
作者在结论中提到,既然 NQS-SC 擅长静态相关,而对动态相关略显乏力,未来的终极方案可能是 NQS-PT2 或 NQS-CC。即:
- 使用 NQS-SC 捕获活跃空间内的强相关性(替代 CASSCF 或 DMRG)。
- 在 NQS 产生的波函数之上,应用多构型微扰理论(CASPT2 风格)或耦合簇理论(Tailored CC)来处理长尾的动态相关。 这种“混成架构”将结合神经网络的非线性表达力和传统量子化学方法的微扰精确性,有望彻底解决 50 电子以上体系的强相关难题。
5.3 对计算资源的思考
VMC 之所以流行,是因为其计算代价与体系大小的标度较好。然而,如果为了达到化学精度需要指数级的采样量,那么这种标度优势就是虚假的。NQS-SC 虽然在单步迭代中更重,但其“系统可改进性”为科研人员提供了一个清晰的精度阶梯。在高性能计算(HPC)环境中,这种可预测的收敛性往往比随机采样的不确定性更有价值。
总结而言,Solanki、Ding 和 Reiher 的这项工作通过详尽的数据宣告:在电子结构领域,VMC 不再是 NQS 的唯一选择。NQS-SC 配合 NBF 架构,正成为神经网络量子态迈向实用化的新基准。