无基组神经网络 Geminal 与 Jastrow 因子：变分蒙特卡洛波函数构造的深度解析

来源论文: https://arxiv.org/abs/2605.17083v1 生成时间: May 20, 2026 05:56

0. 执行摘要

在量子化学计算中，精确描述电子关联（包括静态相关与动态相关）始终是核心挑战。传统的变分蒙特卡洛（VMC）方法通常依赖于 Slater-Jastrow 或 Jastrow-Antisymmetrized Geminal Power (JAGP) 波函数，其精确度在很大程度上受限于有限基组的完备性。本文深度解析了一篇发表于 2026 年（基于 arXiv 编号推测）的前沿论文，该研究提出了一种“无基组”（Basis-free）的神经网络波函数方案。通过使用前馈神经网络（FFNN）直接代替传统的原子轨道基组展开，作者构造了 NNAGP（神经网络双生子幂）与两种不同形式的 NNJF（神经网络 Jastrow 因子）。这一方法不仅提升了波函数的表达能力，更重要的是提供了一个清晰的理论框架，用于区分源自节点曲面（由 AGP 部分决定）的误差与源自动态相关（由 Jastrow 部分决定）的误差。在 $H_2$ 分离曲线与 $H_4$ 矩形体系的测试中，该方案展现了亚毫哈特里（sub-millihartree）级的精度，为未来的大尺度、高精度量子蒙特卡洛模拟奠定了基础。

1. 核心科学问题，理论基础，技术难点与方法细节

核心科学问题

电子结构计算中的两大堡垒是费米子反对称性与电子关联。传统的 Slater 行列式方法在处理动态相关时往往需要极大的行列式展开，计算代价随体系规模指数增长。JAGP 方案虽然通过双生子函数（Geminal）引入了配对机制，能更好地描述静态相关，但其性能仍高度依赖于 LCAO（原子轨道线性组合）基组的选择。本工作的核心问题在于：能否完全摆脱基组限制，利用神经网络的万能逼近能力，构建一个既具有物理解释性（保留配对结构）又具有极致灵活性的波函数？

理论基础：从 AGP 到 NNAGP

双生子幂（AGP）波函数可以看作是固定电子数的 BCS 态（超导理论中的配对态）。其数学形式为：

$$\Psi_{\text{AGP}}(1, \dots, N) = \text{det} [\Psi_G(i, j)]$$

其中 $\Psi_G$ 是双生子函数。在传统方法中，$\Psi_G$ 被展开为：

$$\Psi_G(\mathbf{r}_1, \mathbf{r}_2) = \sum_{\mu\nu} G_{\mu\nu} \phi_{\mu}(\mathbf{r}_1) \phi_{\nu}(\mathbf{r}_2)$$

本研究提出 NNAGP，直接用神经网络 $F_{NN}$ 定义 $\Psi_G$：

对称性构造：由于 AGP 要求 $\Psi_G$ 在单线态下是对称的，作者采用了乘积形式： $$\Psi_G(\mathbf{r}_1, \mathbf{r}_2) = F_{NN}(\mathbf{r}_1, \mathbf{r}_2) F_{NN}(\mathbf{r}_2, \mathbf{r}_1)$$
输入特征：输入不再是基函数，而是电子-电子、电子-核之间的欧几里得距离。这使得模型天生具有旋转平移不变性的潜力。

Jastrow 因子的神经网络化 (NNJF)

为了处理动态相关，作者设计了两种 NNJF 结构：

Pairing-NNJF ($\Psi_{JF,P}$)：仅考虑双体相互作用，使用对称化的 FFNN。其数学形式类似于传统的 Jastrow，但相关函数由 NN 学习。
All-body-NNJF ($\Psi_{JF,A}$)：这是一个更激进的方案，使用一个接收所有电子坐标的全局神经网络。理论上，只要 NN 足够深，它可以捕捉任意高阶的相关效应。作者指出，通过约束输出层为正值（使用指数激活函数），Jastrow 部分不会改变由 AGP 确定的节点曲面（Nodal Surface）。

技术难点：变分优化与节点限制

随机梯度噪声：在 VMC 中，能量梯度是通过蒙特卡洛采样获得的，具有极大的随机性。作者引入了 Adam 优化器 配合指数移动平均（EMA）来稳定数千个神经网络参数的训练。
节点曲面问题：虽然 NN 增强了波函数的灵活性，但如果 AGP 的函数形式本身无法描述真实的节点曲面（例如在某些强关联的拓扑结构下），无论 Jastrow 因子多么强大，都无法达到精确解。这一“节点限制”是本工作重点诊断的对象。

2. 关键 Benchmark 体系与性能数据

体系一：$H_2$ 分离曲线

$H_2$ 是验证静态与动态相关平衡的试金石。随着键长拉伸，$H_2$ 从动态相关主导转变为静态相关（配对）主导。

精度表现：使用 80x80 的隐藏层单元，NNWF 在整个势能曲线上与精确解（Pachucki 2010）几乎完全重合。
误差分析：相对误差保持在 0.001% 左右。在平衡位置附近，主要误差源于短程动态相关；在拉伸区域，NNAGP 表现出极强的稳定性，未出现传统单参考方法常见的虚假能量峰值。

体系二：矩形 $H_4$ 四聚体

这是一个极具挑战性的体系，常用于评估多参考特征（Multireference character）。作者固定 $r_y=2.4$ Bohr，改变 $r_x$。

数据对比（见原文表 I）：
- 当 $r_x=2.188$ 时，NNWF(A) 能量为 -2.12932(1) Ha，极度接近 FCI 值 -2.1297 Ha。
- 相比之下，传统的基于基组的 JAGP(V) 能量仅为 -2.1307(1) Ha（注意此体系下 AGP 精度较高，但 NN 仍提供了更优的变分下限）。
节点误差诊断：在 $\theta=90^\circ$（即正方形 $H_4$）时，作者观察到即使是最强的 All-body-NNJF，其能量仍高出 FCI 约 2 mHa。这明确指出了 AGP 的节点曲面在正方形结构下存在局限性，需要引入 Backflow 变换或多行列式来修正。

性能缩放 (Scaling)

作者详细给出了计算耗时与隐藏单元数（$N_G, N_J$）的关系公式（见原文 Eq 15 附近）：

$$T(N_G, N_J) = T_0 + a_G N_G + b_G N_G^2 + a_J N_J + b_J N_J^2$$

实验发现，增加 NNAGP 的尺寸比增加 NNJF 更昂贵，因为 AGP 涉及行列式求导。然而，在实际应用中，增加 NNJF 的尺寸往往对能量收敛的边际贡献更大，这意味着“大 Jastrow + 中等 AGP”是一个高效的组合策略。

3. 代码实现细节与复现指南

软件架构

该研究基于作者开发的内部 VMC 代码实现，核心计算逻辑如下：

编程语言：推测为 Python (PyTorch/JAX) 或 C++（考虑到效率），利用反向模式自动微分 (Reverse-mode AD) 获取波函数参数梯度。
采样算法：Metropolis-Hastings 算法，使用高斯全粒子移动。每 4 步采样一次能量以降低关联性。
优化算法：Adam。参数设置为 $\alpha=0.0005, \beta_1=0.8, \beta_2=0.95, \epsilon=10^{-8}$。正则化系数 $\lambda_r = 0.05$。这一高正则化值是为了防止神经网络在采样空间不足时陷入局部极小值。

复现步骤建议

预训练 (Pre-fitting)：不要直接开始 VMC。首先通过最小二乘法，让 NNAGP 拟合一个局域高斯函数，确保初始节点曲面是合理的。
循环优化：进行约 600 个 Adam 循环，每个循环包含 250 次迭代。采样数应随训练进程翻倍（初始 $40 \times 2^{10}$，后期增至 $40 \times 2^{13}$）。
正则化选择：$L_2$ 正则化对于稳定 NN 权重至关重要，特别是当隐藏单元数超过 40 时。

开源资源链接

虽然论文本身未直接给出 GitHub 链接，但此类研究通常与以下框架相关：

FermiNet (DeepMind): github.com/google-deepmind/ferminet (思想类似，可作对比参考)
NetKet: github.com/netket/netket (支持神经网络量子态的通用框架)
TurboRVB: github.com/sorella/turborvb (传统 JAGP 的标杆，本论文的对比基准)

4. 关键引用文献与局限性评论

关键文献分析

Casula & Sorella (2003) [Ref 4]：JAGP 的鼻祖级工作，确立了 Jastrow 与 AGP 结合的范式。
FermiNet (2020) [Ref 27]：证明了端到端神经网络在处理全电子体系中的统治力，本工作可视为其更具“化学解释性”的变体。
Pachucki (2010) [Ref 44]：提供了 $H_2$ 势能面的金标准参考数据。

局限性评论

尽管本研究达到了极高的精度，但仍存在以下局限：

尺寸一致性 (Size Consistency)：论文明确提到，目前的 NNWF 在形式上不具备自动的尺寸一致性。在 dissociation 极限下，$E_{AB} \neq E_A + E_B$。这在大分子计算中是一个潜在的致命伤，需要引入 Block-separable（块分离）的 Geminal 结构。
计算开销：相比于传统高斯基组，神经网络在推理（Inference）阶段的耗时显著更高。在处理数百个电子的大体系时，矩阵元构造的复杂度可能会成为瓶颈。
节点曲面的僵化性：AGP 虽然比 Slater 行列式灵活，但依然是一种单行列式形式。对于像“拉伸的正方形 $H_4$”这种涉及多个占据轨道切换的体系，AGP 必须配合 Backflow 或多行列式才能真正解决节点误差问题。

5. 补充内容：从 RVB 视角看 NNAGP

为了让读者更好地理解该研究的物理内涵，我们需要回到共振海森堡键 (RVB) 理论。Pauling 在 1930s 提出的化学共振概念，在 Anderson 1987 年的强关联晶格模型中得到了数学升华。NNAGP 实际上是在连续空间中实现了 RVB 思想的“最强单体表达”：

Geminal 与化学键：双生子函数可以看作是两个电子构成的化学键。NNAGP 允许系统自动学习最优的化学键形状，而不是被局限在 $s, p, d$ 轨道的线性组合中。
万能逼近器的诊断力：本工作最惊艳的贡献在于其“诊断功能”。在量子化学中，我们经常分不清误差是来自基组不够大，还是来自理论模型（如行列式限制）不对。由于 NNJF 已经具备了“逼近任何正函数”的能力，如果 NNWF 还是算不准，那么原因有且只有一个：节点曲面错了。这种清晰的归因分析，是传统量子化学软件（如 Gaussian 或 VASP）难以提供的。

总结：Jan Kessler 等人的这项工作不仅是算法的改进，更是对变分蒙特卡洛理论框架的梳理。它告诉我们，神经网络不仅仅是用来刷精度的工具，更是用来探测物理模型局限性的精密“手术刀”。