来源论文: https://arxiv.org/abs/2606.13912v1 生成时间: Jun 15, 2026 15:12

攻克量子多体计算的相位之墙：基于直接/自适应混合相位梯度学习的神经网络量子态优化新范式

0. 执行摘要

自2017年Carleo和Troyer将人工神经网络引入量子多体物理表征以来，神经网络量子态（Neural-Network Quantum States, NQS）已发展为量子多体物理与量子化学领域最具前景的变分求解工具之一。然而，在处理包含非平凡负号结构（Sign Structure）或复数相位结构（Complex Phase Structure）的量子态时——如存在人工规范场、时间反演对称性破缺、阻挫磁性或费米子统计的系统——NQS的优化常常陷入难以收敛的泥潭。

近期，来自南京大学、马萨诸塞大学阿默斯特分校和叶里温物理研究所的研究团队发表了题为《Direct/adaptive-mixture phase-gradient learning for neural-network quantum states with complex phase structure》的前沿研究。该工作首次深入揭示了复杂相位系统变分崩溃的根源：这并非由于神经网络的表达能力（Expressiveness）不足，而是源于变分蒙特卡洛（VMC）中传统相位梯度估计器的统计性质极其恶劣，即在接近收敛前，相位梯度的信噪比（Signal-to-Noise Ratio, SNR）便已发生指数级崩溃。

为解决这一根本瓶颈，研究团队提出了一种全新的相位梯度求解范式：

直接局域能量导数估计器 ($g_{\text{dir}}$)：利用振幅-相位分离架构，避免对波函数分布进行求导，而是直接在固定的采样配置下对局域能量（Local Energy）求导。该估计器在数学上与传统梯度等价（无偏），但在复杂相位区域的方差大幅降低。
自适应混合梯度估计器 ($g_{\text{mix}}$)：将标准得分函数估计器（$g_{\text{std}}$）与直接估计器（$g_{\text{dir}}$）在线进行自适应凸组合。研究团队严格证明了其具有“终点控制”（Endpoint-domination）性质，确保其方差在任何时候都不会劣于两者中较好的那一个。

在100位点磁通梯子（Flux Ladder）及手征 XXX 自旋链（Chiral XXX Chain）等强阻挫、非平凡规范场基态计算中，这一方法展现出了压倒性的优势：小规模网络即可轻松突破标准梯度的变分极限，将相对能量误差从十几个百分点降至 1% 以下，且计算开销几乎没有增加。这一突破为破解复数波函数优化的“相位之墙”提供了全新的理论和算法利器。

1. 核心科学问题、理论基础、技术难点与方法细节

1.1 核心科学问题：为什么复杂相位系统的变分蒙特卡洛会失效？

在变分蒙特卡洛（VMC）中，我们通常采用随机重构（Stochastic Reconfiguration, SR）或自然梯度下降法来更新变分参数 $\theta$。对于实数波函数（例如无规范场、无阻挫的玻色子系统），NQS能以极高的精度逼近基态。然而，当系统引入复数 hoppings、手征相互作用或费米子统计时，波函数 $\psi_{\theta}(x)$ 的相位项 $\phi_{\theta}(x)$ 会变得极为复杂，形成所谓的“相位结构”。

长久以来，物理学界的普遍直觉是：当NQS优化停滞时，应通过增大网络宽度、加深网络层数或引入更复杂的模型（如 Transformer、Graph Neural Networks）来提升其表征能力。然而，本工作以详实的数据否定了这一假设。研究表明，即使目标基态完全在神经网络的表征能力范围内，标准的梯度估计器也无法在有限的蒙特卡洛样本下提供有效的更新方向。问题不在于“网络装不下这个物理态”，而在于“梯度估计器在统计上噪声太大，导致网络无法学到正确的相位”。

1.2 理论基础与公式推导：两种梯度估计器的统计异质性

为了量化这一现象，我们首先引入振幅-相位分离架构（Separated Amplitude-Phase Parameterization）。对于离散基底配置 $x$，我们将复数波函数表示为：

$$\psi_{\theta}(x) = \exp\left[u_{\theta_1}(x) + i \phi_{\theta_2}(x)\right]$$

其中，$\theta_1$ 是用于拟合对数振幅（Log-amplitude）的网络参数，$\theta_2$ 是用于拟合相位（Phase）的网络参数。对应的局域能量定义为：

$$E_{\text{loc}}(x) = \sum_{y} H_{xy} \frac{\psi_{\theta}(y)}{\psi_{\theta}(x)} = \sum_{y} H_{xy} \exp\left[u_{\theta_1}(y) - u_{\theta_1}(x) + i (\phi_{\theta_2}(y) - \phi_{\theta_2}(x))\right]$$

1.2.1 标准梯度估计器 ($g_{\text{std}}$) 的局限

变分能量 $E(\theta) = \langle H \rangle_{\lvert\psi\rvert^2}$ 对实变分参数 $\theta$ 的标准梯度公式为：

$$\partial_{\theta} E = 2 \text{Re} \left\langle (E_{\text{loc}}(x) - E) O^*_{\theta}(x) \right\rangle_{\lvert\psi\rvert^2}$$

其中，$O_{\theta}(x) = \partial_{\theta} \log \psi_{\theta}(x)$ 是对数算符。带入振幅-相位分离架构后，对于振幅参数 $\theta_1$ 和相位参数 $\theta_2$，其对应的标准梯度估计器分别给出：

$$g_{\theta_1}^{\text{amp}} = 2 \left\langle \left[\text{Re } E_{\text{loc}}(x) - E\right] \partial_{\theta_1} u_{\theta_1}(x) \right\rangle_{\lvert\psi\rvert^2}$$$$g_{\theta_2}^{\text{std}} = 2 \left\langle \text{Im } E_{\text{loc}}(x) \partial_{\theta_2} \phi_{\theta_2}(x) \right\rangle_{\lvert\psi\rvert^2}$$

这里揭示了两个完全不同的统计估算问题：

振幅梯度 $g_{\theta_1}^{\text{amp}}$ 包含 $\text{Re } E_{\text{loc}}(x) - E$。根据变分原理的零方差性质（Zero-variance Principle），当试探波函数逼近真正的哈密顿量本征态时，$\text{Re } E_{\text{loc}}(x) \to E$ 处处成立，因此该项的涨落（方差）会自动趋于零。这使得振幅梯度的收敛具有自稳定机制。
相位梯度 $g_{\theta_2}^{\text{std}}$ 包含的是 $\text{Im } E_{\text{loc}}(x)$ 与对数算符的协方差。尽管在精确基态下，由于时间反演对称性或全局规范平衡，其均值为零，但在优化过程中，$\text{Im } E_{\text{loc}}(x)$ 本身的单点起伏（即噪声底）非常高。这意味着在预渐进阶段（Pre-asymptotic Regime），真实的相位梯度力（协方差）可能因正负抵消而变得极小，而其估计方差却依然停留在 $\langle (\text{Im } E_{\text{loc}})^2 \rangle$ 的量级，从而导致信噪比迅速降为零。

在机器学习领域，这种将概率分布的参数作为导数算符的形式被称为得分函数估计器（Score-function Estimator，或 REINFORCE 估计器），它以高方差著称。

1.2.2 直接局域能量导数估计器 ($g_{\text{dir}}$) 的引入

既然采样分布 $p(x) \propto \lvert\psi_{\theta}(x)\rvert^2 = e^{2 u_{\theta_1}(x)}$ 完全不依赖于相位参数 $\theta_2$，那么对于相位梯度，我们可以采用机器学习中更为稳健的路径式导数（Pathwise Derivative，或重参数化技巧 Reparameterization Trick）。也就是直接在固定采样配置 $x$ 下，对局域能量本身进行求导：

$$g_{\theta_2}^{\text{dir}} = \left\langle \partial_{\theta_2} E_{\text{loc}}(x) \right\rangle_{\lvert\psi\rvert^2}$$

我们对局域能量公式直接求导：

$$\partial_{\theta_2} E_{\text{loc}}(x) = \sum_{y \neq x} H_{xy} \frac{\psi_{\theta}(y)}{\psi_{\theta}(x)} \left[O_{\theta_2}(y) - O_{\theta_2}(x)\right]$$

由于 $O_{\theta_2}(x) = i \partial_{\theta_2} \phi_{\theta_2}(x)$，我们有：

$$\partial_{\theta_2} E_{\text{loc}}(x) = i \sum_{y \neq x} H_{xy} \frac{\psi_{\theta}(y)}{\psi_{\theta}(x)} \left[\partial_{\theta_2} \phi_{\theta_2}(y) - \partial_{\theta_2} \phi_{\theta_2}(x)\right]$$

通过对任意变分参数使用厄米算符恒等式（Hermiticity Identity），我们可以严格证明这一直接估计器是无偏的：

$$\left\langle \partial_{\theta} E_{\text{loc}} \right\rangle = \left\langle (E_{\text{loc}}^* - E_{\text{loc}}) O_{\theta} \right\rangle = -2i \left\langle \text{Im } E_{\text{loc}} O_{\theta} \right\rangle$$

当参数为 $\theta_2$ 时，代入 $O_{\theta_2} = i \partial_{\theta_2} \phi$，上式变为：

$$\left\langle \partial_{\theta_2} E_{\text{loc}} \right\rangle = 2 \left\langle \text{Im } E_{\text{loc}} \partial_{\theta_2} \phi_{\theta_2} \right\rangle$$

这表明直接估计器 $\partial_{\theta_2} E_{\text{loc}}$ 的数学期望恰好等于标准相位梯度。然而，作为随机变量，两者的方差截然不同。直接估计器表现出以下两个关键的物理与几何属性：

对角去耦（Diagonal Decoupling）：哈密顿量的对角项 $H_{xx}$ 在求导时直接变为零。这意味着空间势能涨落和局域对角能量不会给直接梯度引入任何噪声，而在标准估计器中，这些噪声会通过得分函数直接污染相位通道。
全局规范不变性（Global Gauge Invariance）：直接估计器仅依赖于连接对上的相位差 $\partial_{\theta_2}\phi(y) - \partial_{\theta_2}\phi(x)$。对于全局相位移动，该梯度自然为零。这自动消除了标准梯度中由于未中心化导致的全局规范方向噪声。

1.3 自适应混合梯度估计器 ($g_{\text{mix}}$)

在物理优化过程中，并没有一个估计器能“在所有阶段、对所有哈密顿量”都保持最优。例如，当波函数完美收敛到基态（本征态）时，根据零方差原理，标准梯度估计器 $g_{\text{std}}$ 的方差会收敛到绝对零，而直接估计器 $g_{\text{dir}}$ 则会保留一个非零的剩余方差（因为其非对角项的和不为零）。

为了将这两者的优势融合，研究团队基于控制变量（Control Variate）技术，构建了标准梯度与直接梯度的自适应凸组合：

$$\hat{g}_{\beta, \lambda} = (1 - \lambda) \hat{g}_{\beta}^{\text{std}} + \lambda \hat{g}_{\beta}^{\text{dir}}$$

其中 $\lambda \in [0, 1]$。设 $V_s = \text{Var}(\hat{g}_{\beta}^{\text{std}})$，$V_d = \text{Var}(\hat{g}_{\beta}^{\text{dir}})$，以及 $C = \text{Cov}(\hat{g}_{\beta}^{\text{std}}, \hat{g}_{\beta}^{\text{dir}})$。理论上，使方差最小化的最优混合系数 $\lambda^\star$ 为：

$$\lambda^\star = \frac{V_s - C}{V_s + V_d - 2C}$$

通过对 $\lambda^\star$ 进行范围截断 $\lambda^\star_{\text{clip}} = \min[1, \max(0, \lambda^\star)]$，团队在数学上严格证明了终点控制（Endpoint-domination）定理：

$$\text{Var}(\hat{g}_{\beta, \lambda^{\star}_{\text{clip}}}) \le \min \left[ \text{Var}(\hat{g}_{\beta}^{\text{std}}), \text{Var}(\hat{g}_{\beta}^{\text{dir}}) \right]$$

这一结果确保了自适应混合估计器在任何优化阶段，其理论方差都不会劣于两端点中的任意一个，从而提供了一个“安全默认”（Safe Default）的通用算法选择。为了便于在大规模神经网络中实用，作者使用梯度协方差矩阵的迹（Trace）作为标量系数：

$$\lambda_t = \text{clip}_{[0,1]} \frac{\text{Tr } V_s - \text{Tr } C}{\text{Tr } V_s + \text{Tr } V_d - 2 \text{Tr } C}$$

该参数在每次优化更新前，在预采样路径（Pre-update Walker Ensemble）上直接评估，无需引入额外的EMA（指数移动平均），确保了计算的时效性与自适应性。

2. 关键 Benchmark 体系、计算所得数据与性能分析

论文采用了两个极具挑战性的物理模型进行基准测试，并使用密度矩阵重整化群（DMRG）和精确对角化（ED）的高精度能量作为基准参考线（$E_{\text{ref}}$）。

2.1 100位点磁通梯子（Flux Ladder）模型

磁通梯子是由两条相互耦合的链组成的准一维系统。由于存在穿过晶格的磁通量 $\Phi$，Leg方向的跳跃（Hopping）项引入了 Peierls 相位，使系统具有非平凡的手征电流和涡旋结构（Vortex Physics）。其哈密顿量为：

$$H_{\text{ladder}} = \sum_{\langle ij \rangle \in \text{legs}} \left[ J_z S^z_i S^z_j + \frac{J_{\text{leg}}}{2} \left( e^{i A_{ij}} S^+_i S^-_j + \text{h.c.} \right) \right] + \sum_{\langle ij \rangle \in \text{rungs}} \left[ J_z S^z_i S^z_j + \frac{J_{\text{rung}}}{2} \left( S^+_i S^-_j + \text{h.c.} \right) \right]$$

在对称规范下，Leg 上的相位为 $A_{ij} = \pm \Phi/2$。实验参数设定为 $J_{\text{leg}} = 1$，$J_{\text{rung}} = 0.8$，$J_z = 0.5$。系统包含 $L=50$ 个横格（Rungs），共 $100$ 个自旋位点，工作在半满充区域 $S^z_{\text{tot}} = 0$。

数据分析 1：优化动力学（如图 1、图 2 所示）

当磁通 $\Phi = 0.3\pi$（高度非平凡相位结构）时，DMRG 基准能量为 $E_{\text{ref}} = -43.303$。各种方法表现如下：

方法 / 估计器	相位学习率放大比 ($\eta_{\phi}/\eta$)	尾部窗口相对误差中位数	物理表现评论
直接相位梯度 ($g_{\text{dir}}$)	1.0 (无缩放)	0.89%	极快收敛，平稳且无发散现象
自适应混合估计器 ($g_{\text{mix}}$)	1.0 (无缩放)	0.95%	自动发现最优混合，稳定逼近基态
标准估计器 ($g_{\text{std}}$)	1.0 (无缩放)	10.2%	收敛严重停滞，无法有效学到相位
标准估计器 ($g_{\text{std}}$)	2.0	3.4%	通过调大相位学习率改善，但仍显著逊色
标准估计器 ($g_{\text{std}}$)	3.0 (最佳调谐)	1.8%	达到标准方法的物理极限，无法突破阻碍
标准估计器 ($g_{\text{std}}$)	4.0 / 5.0	7.3% / 9.0%	噪声过大，优化稳定性迅速崩溃

这一结果强有力地证明了，调整标准估计器的学习率等超参数仅能部分缓解方差压力，无法从根本上消除噪声带来的梯度停滞，而直接/混合估计器在不作任何特殊超参数调整的情况下，直接实现了亚百分比级精度的绝对跨越。

数据分析 2：网络容量扫频（如图 3 所示）

为了驳斥“容量不足”的论调，作者增加标准估计器下的多层感知机（MLP）网络规模，并与参数量更小（宽度128，深度2）的直接估计器网络进行了对比：

直接估计器（宽度128，深度2）：相对误差仅为 0.99%。
标准估计器（宽度128，深度2）：相对误差 8.4%。
标准估计器（宽度256，深度2，加宽一倍）：相对误差不降反升，恶化至 14.9%。
标准估计器（宽度128，深度4，加深一倍）：相对误差极剧恶化至 24.6%。

物理机制分析：当神经网络变宽变深时，参数量显著增加。在标准估计器下，这意味着需要评估更多对数算符 $O_{\theta}$ 的分量。由于每一个分量的评估都是一个高噪声的“得分函数”，高维参数空间中噪声的叠加效应（方差累积）会导致整个预条件矩阵（SR matrix）退化，使优化彻底迷失方向。而 $g_{\text{dir}}$ 由于消除了关键噪声源，具有优秀的维度抗噪性。这一扫频实验提供了一个极具颠覆性的结论：在复杂相位量子多体优化中，一味追求“大网络”而忽视“估计器设计”，只会适得其反。

数据分析 3：ResNet 架构的有效性（如图 4 所示）

将模型替换为残差网络（ResNet）进行测试。对于 $\Phi = 0.3\pi$ 磁通梯子：

标准梯度 ResNet：在 2.92% 的能量相对误差处平台化，无法继续向下探索。
直接梯度 ResNet：可持续稳定下行，最终在后30步取得 0.43% 的极高精度误差。

2.2 手征 XXX 自旋链（Chiral XXX Chain）

除人工规范场外，该方法还被应用于表征具有内秉手征三自旋相互作用（Chiral Spin Interaction）的系统，其作用项为 $\alpha S_i \cdot (S_j \times S_k)$。通过在 $N=20, 24, 50, 100$ 的一维链上进行尺度缩放（Scaling）测试，作者发现了以下极具说服力的数据：

在 $N=20$、$\alpha=1.0$ 的系统上，标准估计器与直接估计器的平均误差之比达到了惊人的 11.0倍。
当系统尺寸扩展至 $N=100$ 巨型体系时，直接估计器依然保持着对标准估计器 4.85倍 的精度代差优势（如图 7d 所示）。
此优势在不同手征耦合强度 $\alpha \in [0.5, 2.0]$ 内具有极高的一致性。

3. 代码实现细节、复现指南、软件包与开源 Repo 推荐

3.1 振幅-相位分离波函数的构建

复现本工作的首要前提是实现幅度网络 $u_{\theta_1}(x)$ 和相位网络 $\phi_{\theta_2}(x)$ 的显式解耦。以 PyTorch 为例，其基础网络前向传播（Forward）的逻辑应写为：

import torch
import torch.nn as nn

class SeparatedNQS(nn.Module):
    def __init__(self, num_sites, hidden_dim):
        super().__init__()
        # 振幅网络：输入自旋配置 (batch, num_sites) -> 输出实数实对数振幅 (batch, 1)
        self.amp_net = nn.Sequential(
            nn.Linear(num_sites, hidden_dim),
            nn.Tanh(),
            nn.Linear(hidden_dim, hidden_dim),
            nn.Tanh(),
            nn.Linear(hidden_dim, 1)
        )
        # 相位网络：输入自旋配置 (batch, num_sites) -> 输出实数相位 (batch, 1)
        self.phase_net = nn.Sequential(
            nn.Linear(num_sites, hidden_dim),
            nn.Tanh(),
            nn.Linear(hidden_dim, hidden_dim),
            nn.Tanh(),
            nn.Linear(hidden_dim, 1)
        )
        
    def forward_log_amplitude(self, x):
        return self.amp_net(x).squeeze(-1) # u_theta1(x)
        
    def forward_phase(self, x):
        return self.phase_net(x).squeeze(-1) # phi_theta2(x)
    
    def forward(self, x):
        log_amp = self.forward_log_amplitude(x)
        phase = self.forward_phase(x)
        # 构造复数对数波函数: log_psi = u(x) + i * phi(x)
        return torch.complex(log_amp, phase)

3.2 高效的直接估计器向量-雅可比乘积 (VJP) 实现

根据公式 (6)，直接估计器对相位参数 $\theta_2$ 的导数可写为：

如果直接显式计算雅可比矩阵 $\partial_{\theta_2}\phi_{\theta_2}(y)$，其时间开销与内存占用会随着 Batch 大小和连接配置数 $N_{\text{conn}}$ 发生灾难性增长。为了避免这个问题，可以利用现代自动微分框架中的 向量-雅可比乘积 (Vector-Jacobian Product, VJP / autograd.grad) 机制，在几乎零额外开销下完成求导。

以下是核心梯度计算的 PyTorch 代码架构：

def compute_direct_phase_gradient(model, x, connected_y, H_xy):
    """
    参数:
    - model: SeparatedNQS 实例
    - x: 当前采样的 Batch 配置, 形状为 (batch_size, num_sites)
    - connected_y: 与 x 相连的非对角配置, 形状为 (batch_size, num_conn, num_sites)
    - H_xy: 对应的非对角哈密顿矩阵元, 形状为 (batch_size, num_conn)
    """
    batch_size = x.shape[0]
    num_conn = connected_y.shape[1]
    
    # 1. 计算 x 处的对数波函数
    log_amp_x = model.forward_log_amplitude(x)
    phase_x = model.forward_phase(x)
    
    # 2. 展平并计算所有 y 处的对数波函数以提高并行度
    y_flat = connected_y.view(-1, x.shape[-1])
    log_amp_y = model.forward_log_amplitude(y_flat).view(batch_size, num_conn)
    phase_y = model.forward_phase(y_flat).view(batch_size, num_conn)
    
    # 3. 计算波函数比例
    # psi(y)/psi(x) = exp( u(y)-u(x) + i*(phi(y)-phi(x)) )
    ratio = torch.exp(torch.complex(log_amp_y - log_amp_x.unsqueeze(-1), 
                                    phase_y - phase_x.unsqueeze(-1)))
    
    # 4. 构造非对角项权重系数 w_xy = i * H_xy * (psi(y)/psi(x))
    H_xy_complex = torch.complex(H_xy, torch.zeros_like(H_xy))
    w_xy = 1j * H_xy_complex * ratio # 形状为 (batch_size, num_conn)
    
    # 5. 实现收缩：我们需要求的是 sum_{y} w_xy * (d_theta phi(y) - d_theta phi(x))
    # w_y_coef 代表作用在 phi(y) 上的梯度传播权重
    w_y_coef = w_xy.real # 取实部以与实数相位网络匹配
    # w_x_coef 代表作用在 phi(x) 上的梯度传播权重
    w_x_coef = -w_y_coef.sum(dim=-1)
    
    # 6. 使用 PyTorch 的 VJP 功能，只需两次 backward 即可计算出完整的直接梯度
    # 第一部分：对于 phi(y)
    phase_y_flat = phase_y.view(-1)
    w_y_coef_flat = w_y_coef.view(-1) / batch_size
    grad_from_y = torch.autograd.grad(outputs=phase_y_flat, 
                                      inputs=model.phase_net.parameters(),
                                      grad_outputs=w_y_coef_flat,
                                      retain_graph=True)
    
    # 第二部分：对于 phi(x)
    w_x_coef_norm = w_x_coef / batch_size
    grad_from_x = torch.autograd.grad(outputs=phase_x, 
                                      inputs=model.phase_net.parameters(),
                                      grad_outputs=w_x_coef_norm)
    
    # 7. 累加两部分梯度
    direct_grads = [g_y + g_x for g_y, g_x in zip(grad_from_y, grad_from_x)]
    return direct_grads

3.3 软件与开源 Repo 推荐

为了将该梯度算法无缝整合进现有的神经网络量子态工作流，高度推荐使用以下主流的 NQS 开源框架：

NetKet (基于 JAX):
- 链接: https://github.com/netket/netket
- 推荐理由: NetKet 是当今量子物理界最成熟的 NQS 开源库。它完全基于 JAX，天生支持高维 VJP 以及复杂的蒙特卡洛采样和随机重构（minSR）。你可以通过定制 netket.vqs.MCState 中的梯度求导算子，将本文的直接梯度和迹自适应混合方案完美接入。
TenPy (DMRG 基准计算):
- 链接: https://github.com/tenpy/tenpy
- 推荐理由: 论文中高精度的基准 DMRG 数据均是通过 TenPy 实现。在复现、验证 NQS 收敛结果时，该工具是不可或缺的黄金标准。

4. 关键引用文献与局限性批判评论

4.1 关键引用文献

Troyer & Wiese (2005) [PRL 94, 170201] - 奠定了费米子负号问题计算复杂度的理论基石，证明了非平凡相位结构带来的泛化困难。
Carleo & Troyer (2017) [Science 355, 602] - 首次提出神经网络量子态（NQS），开启了变分量子多体计算的机器学习时代。
Sorella (1998) [PRL 80, 4558] - 提出随机重构（SR）方法，使 NQS 的稳定优化在数学上等价于虚时演化。
Assaraf & Caffarel (1999) [PRL 83, 4682] - 提出了蒙特卡洛变分计算中的零方差原理（Zero-variance Principle），为设计更优梯度估计器提供了理论源泉。

4.2 局限性批判评论（Critical Review）

尽管直接/自适应混合估计器在处理规范场和手征自旋系统时取得了里程碑式的进展，但作为一项具有开拓性的工作，它依然存在以下不可忽视的局限性：

1. 对“振幅-相位分离架构”的强绑定

该方法的“无偏性证明”严重依赖于振幅网络与相位网络在参数空间上的彻底解耦（即 $\theta_1$ 与 $\theta_2$ 互不重叠）。如果采用现代大模型更钟爱的**共享特征主干网络（Shared-trunk Network）或单一复数网络（Single-complex Network）**架构，根据公式 (9)，直接能量梯度将会不可避免地漏掉由得分函数贡献的振幅力：

$$\partial_{\theta} E = 2 \langle [\text{Re } E_{\text{loc}} - E] \partial_{\theta} u \rangle + \text{Re} \langle \partial_{\theta} E_{\text{loc}} \rangle$$

这将导致直接估计器产生显式偏差（Explicit Bias）。如何在保留共享表征（以减少参数量并促进特征提取）的同时，消除偏置或降低联合方差，仍是一个亟待解决的瓶颈。

2. 在连续空间体系（如第一性原理量子化学）中的扩展难度

在离散自旋晶格体系中，非对角连接的组态数 $N_{\text{conn}}$ 是有限且确定的。但在连续空间的第一性原理体系中（如处理分子或原子的 Schrödinger 方程），局域能量的计算包含拉普拉斯算子（$\nabla^2$）。此时对局域能量直接求导需要处理波函数的二阶导数对变分参数的交叉混合导数：

$$\partial_{\theta} \left( \frac{\nabla^2 \psi_{\theta}(r)}{\psi_{\theta}(r)} \right)$$

这在自动微分中会涉及昂贵的三阶导数计算，导致计算开销急剧飙升。因此，该方法在实际化学分子多电子结构计算中的推广面临巨大的算法复杂性障碍。

3. 支持集坍缩与 bad-basin 的不完全消除

正如作者在第3.8节中所指出的，直接相位梯度虽然极大地消除了“估计器噪声”，但它完全没有改变变分能量景观的拓扑结构（能量表面保持一致）。由于在边界处，由于采样概率 $p(x) \to 0$ 导致的“支持集坍缩”（Support Collapse）这一物理固有的非线性不稳定性依然存在。对于极其极端的强阻挫系统，NQS 依然可能陷入被称为 bad-basin 的亚稳态，这需要配合更高级的初始权重设计或热化退火算法来共同克服。

5. 补充探讨：从机器学习理论看 VMC 估计器设计

本工作的成功不仅仅局限于物理学的发现，它本质上是机器学习优化理论在复杂物理计算中的一次教科书级别的成功降维打击。我们可以从机器学习的根本视角对两种相位梯度估计器进行深度对比：

5.1 得分函数（Score-function）与重参数化（Reparameterization）的本质对立

在生成模型（如变分自编码器 VAE）和强化学习（Policy Gradient / REINFORCE）中，求导对象往往具有形式 $\nabla_{\theta} \mathbb{E}_{q_{\theta}(z)} [f(z)]$。存在两条完全不同的微分路径：

得分函数（Score Function）路径： $$\nabla_{\theta} \mathbb{E}_{q_{\theta}(z)} [f(z)] = \mathbb{E}_{q_{\theta}(z)} [f(z) \nabla_{\theta} \log q_{\theta}(z)]$$ 这种方式不需要对函数 $f(z)$ 本身求导（即使 $f$ 是黑箱或不可微的），但由于它仅靠“奖励/能量值”的高低去整体拉抬或压低概率密度，因而具有极高的统计不稳定性。
重参数化（Reparameterization）路径：若能将 $z$ 表示为不依赖于参数的随机变量 $\epsilon$ 的映射 $z = g_{\theta}(\epsilon)$，则可以将导数转化为： $$\nabla_{\theta} \mathbb{E}_{q_{\theta}(z)} [f(z)] = \mathbb{E}_{p(\epsilon)} [\nabla_z f(g_{\theta}(\epsilon)) \nabla_{\theta} g_{\theta}(\epsilon)]$$ 该方法直接利用了 $f(z)$ 的导数方向（即“直接告诉模型该朝哪里走”，而不仅仅是“走完之后给个好评或差评”），其方差通常呈数量级式降低。

在标准 VMC 中，学术界此前长期默认使用得分函数形式（即公式 (3) 的协方差形式），这就好比是让模型在没有方向指示的黑暗中通过蒙特卡洛采样的能量反馈进行“盲人摸象”。而本工作提出的直接局域能量导数估计器（公式 (6)），实质上是在相位通道中实现了完美的重参数化技术。它不再通过“采样密度的起伏来猜测相位力的方向”，而是直接利用哈密顿矩阵元 $H_{xy}$ 所蕴含的相对相位干涉路径，精准推算出梯度的指向。这就是为什么该方法能够彻底粉碎复数波函数优化的“相位之墙”的最深层原因。

这项工作明确向量子物理与量子化学界宣告：对于复杂的物理系统，变分计算的瓶颈往往不在于神经网络的参数容量，而在于随机估计器的方差和信息传输。未来的 NQS 研究应当将梯度和算符估计器的数学设计提升到与网络架构设计同等重要的核心地位。