来源论文: https://arxiv.org/abs/2604.25775v1 生成时间: Apr 29, 2026 15:55

突破 NQS 效率瓶颈：SCALE 与 ACE 架构定义的强关联电子体系 Pareto 前沿深度解析

0. 执行摘要

在现代凝聚态物理中，理解强关联费米子系统的基态性质是最具挑战性的课题之一。神经量子态（Neural Quantum States, NQS）作为一种新兴的变分蒙特卡洛（VMC）方法，凭借人工神经网络强大的表达能力，在处理复杂电子关联方面展现出了超越传统张量网络和平均场论的潜力。然而，NQS 在大规模系统中的高额计算开销（通常为 $O(N^4)$ 复杂度）限制了其在热力学极限下的应用。

由北京大学、字节跳动 Seed 团队、清华大学和中科院物理所等机构联合发布的论文《Pareto Frontier of Neural Quantum States: Scalable, Affordable, and Accurate Convolutional Backflow for Strongly Correlated Lattice Fermions》，提出了一套互补的变分波函数架构：SCALE（Sparse Convolutional Ansatz for Lattice Electrons）和 ACE（Accurate Convolutional ansatz for lattice Electrons）。SCALE 通过利用物理局域性与低秩矩阵更新技术，将计算复杂度从 $O(N^4)$ 降低至 $O(N^3)$，实现了 40 倍以上的加速，使得 32×32 规模的 Hubbard 模型模拟成为可能；而 ACE 则利用深层卷积堆栈在精度上达到了新的 State-of-the-art。这一工作不仅在技术上打破了 NQS 的效率瓶颈，更在物理上对 1/8 掺杂 Hubbard 模型的条纹序（Stripe Order）给出了新的洞察。

1. 核心科学问题，理论基础，技术难点与方法细节

1.1 强关联费米子系统的挑战

强关联电子系统（如高温超导体的前驱体——Hubbard 模型）的本质困难在于费米子负符号问题。在量子蒙特卡洛（QMC）模拟中，费米子反对称性导致权重出现负值，使得采样效率随系统尺寸指数级下降。虽然 DMRG 在准一维系统中表现卓越，但在二维系统中受限于纠缠熵的面积律限制，其计算量随宽度增加而剧增。NQS 理论上可以提供更灵活的纠缠表示，但其痛点在于大规模系统的变分优化成本极高。

1.2 理论基础：Backflow 变换与 Slater 行列式

该工作基于神经网络回流（Neural Network Backflow, NNBF）框架。其核心思想是将固定轨道的 Slater 行列式 $\det[\phi_j(r_i)]$ 替换为依赖于所有粒子配置的准粒子轨道：

$$\Psi(\mathbf{n}) = \det[\Phi(\mathbf{n})]$$

其中 $\Phi(\mathbf{n})$ 是由神经网络生成的配置依赖矩阵。传统的 NNBF 架构（如基于 Transformer 的架构）具有全局感受野，这意味着任何一个电子的局部跳跃都会导致所有轨道的值发生变化。在 VMC 的 Metropolis 采样中，每次局部更新都需要重新计算整个神经网络和行列式，复杂度高达 $O(N^4)$，这对于研究 $L > 16$ 的系统几乎是不可接受的。

1.3 技术突破一：SCALE 的局域化设计与低秩更新

SCALE 的核心创新在于引入空间局域性约束。物理上，Hubbard 模型等格点模型的相互作用是局域的。SCALE 利用卷积层（CNN）替代了全局注意力机制，通过限制卷积核大小 $k \times k$，确保一个格点状态的变化仅影响其邻域范围内的特征。

缓存机制（Caching Strategy）：由于卷积的局域性，当一个电子跳跃时，网络中只有被影响的格点特征需要重新计算。这使得神经网络前向传播的摊销成本从 $O(N)$ 降为 $O(1)$。
Sherman-Morrison-Woodbury 公式：在处理行列式更新时，SCALE 识别出局部特征变化对应于 Slater 矩阵 $\Phi$ 的低秩修正（Low-rank update）： $$\Phi' = \Phi + \mathbf{UV}^\top$$ 利用 SMW 公式，行列式比例的计算复杂度从 $O(N^3)$ 降至 $O(N^2)$。综合以上两点，单次优化步的整体复杂度实现了从 $O(N^4)$ 到 $O(N^3)$ 的跨越。这是 NQS 能够迈向 32×32 甚至更大规模的关键。

1.4 技术突破二：ACE 的深层表达能力

ACE 架构则代表了 Pareto 前沿的另一端——极致的精度。它抛弃了 SCALE 的局域加速特性，转而采用更深的残差卷积块堆栈（多达 16 层）。ACE 的核心逻辑是：虽然单次卷积是局域的，但深层堆栈可以通过层次化方式逐层抽象物理特征，从而捕获长程关联。与 Transformer 相比，ACE 更好地利用了格点的平移对称性和几何归纳偏置（Inductive Bias），在保持竞争力的计算开销下，大幅刷新了能量基准。

1.5 优化策略：MARCH 与 GFMC

为了稳定训练极其敏感的费米子波函数，作者采用了 MARCH 优化器，这是一种结合了二阶性质的高效随机梯度方法。在变分优化完成后，进一步使用固定节点近似下的格林函数蒙特卡洛（GFMC）进行投影，以滤除残余的激发态成分，逼近真实的基态能量。

2. 关键 Benchmark 体系，计算所得数据与性能数据分析

2.1 吸引力 Hubbard 模型（Negative-U Hubbard Model）

作为精度验证的首选，吸引力 Hubbard 模型没有负符号问题，可以与数值精确的 DQMC 进行对比。

计算数据：在 8×8 和 12×12 体系中（U=-2, U=-8），SCALE 和 ACE 得到的对-对关联函数 $C_p(x,0)$ 与 DQMC 结果完美重合。
物理意义：这证明了卷积回流架构能够准确捕捉超导态中的库珀对（Cooper pairs）关联，即使在强耦合极限下也表现稳健。

2.2 排斥力 Hubbard 模型 16×4 体系基准

16×4 周期边界条件（PBC）下的排斥力 Hubbard 模型（U=8, 1/8 掺杂）是近年来 NQS 领域最常用的战场。

能量对比：
- ACE+GFMC：达到了 $-0.7288$ (OBC) 和 $-0.7583$ (PBC)，超越了此前由 Transformer-Backflow、HFPS 和 NNBF 保持的所有纪录。
- SCALE：虽然精度略低于 ACE，但其变分能量依然优于传统的 PEPS 和 Tensor-Backflow。
效率对比：在 N=512 的格点规模下，SCALE 完成一个优化步仅需约 11 秒，而 ACE 需要 120 秒，Transformer 则需要超过 400 秒。SCALE 实现了相对于 Transformer 约 40 倍的实际加速。

2.3 大尺寸挑战：32×8 与 32×32

这是该工作最具震撼力的部分。由于 SCALE 的高效性，作者成功模拟了 32×8 体系，并给出了与 Transformer 相比显著更低的能量（见 Fig 4b）。在 32×32 体系上，SCALE 得到了能量为 $-0.7501$ 的稳定解。

2.4 t-J 模型与条纹序探讨

t-J 模型对比：在 16×8 和 16×10 的圆柱几何下，ACE 和 SCALE 的结果达到了与高键维数（D=30000）DMRG 相当甚至更低的能量。
条纹序（Stripe Order）的物理结论：在 1/8 掺杂的纯 Hubbard 模型（$t'=0$）中，作者通过大规模模拟发现，水平条纹和垂直条纹之间的能量差在统计误差范围内几乎消失。这纠正了此前研究中因系统尺寸受限而产生的倾向于某种方向条纹序的偏见。

3. 代码实现细节，复现指南与开源生态

3.1 核心架构复现要点

复现 SCALE 架构需要特别注意以下几点：

Embedding Layer：将格点状态（空穴、电子自旋向上、向下、双占）映射到 $h$ 维隐空间。对于 Hubbard 模型，物理状态数为 4。
局域卷积层：使用 residual connection。H(1) = H(0) + σ(Conv(H(0)))。注意边界条件的设置必须与 Hamilton 量一致（如 PBC 使用环绕卷积）。
Slater 矩阵构造：最终的输出层 $M \in \mathbb{R}^{2N \times N_e}$。根据当前的占据配置选择对应的行组成方阵。这是一个动态过程，也是反向传播计算梯度的难点。

3.2 优化算法：MARCH 实现

MARCH 优化器是 NQS 训练成功的关键。其参数（见 Table V）如下：

学习率调度：采用 $(1 + \max(t-1000, 0)/k)^{-1}$ 的衰减形式。
Damping ($\lambda$): 设为 0.001，用于稳定矩阵求逆。
批量大小（Batch Size）：随格点数增加而动态调整，范围在 4096 到 8192 之间。

3.3 超参数配置（SCALE-XL 为例）

针对 32×32 系统的 SCALE-XL 配置：

卷积隐层维度 ($h_{conv}$): 640
MLP 隐层维度 ($h_{MLP}$): 1280
卷积层数: 1
MLP 层数: 4
卷积核形状: 5x5（或者根据 $L_2 \le 2$ 距离定义的局域邻域）。

3.4 开源软件与资源

虽然论文本身由 ByteDance 研究员参与，但该工作与 NetKet 社区（由 Giuseppe Carleo 领导）的精神高度一致。复现该工作可以基于 NetKet 框架进行自定义算子开发：

相关 Repo 参考：NetKet/netket
Transformer 基础代码：可参考作者此前的 Transformer-NQS 工作（GitHub 上有相关复现库）。
Sherman-Morrison 实现：建议使用高效的 C++/CUDA 扩展来处理行列式的快速更新。

4. 关键引用文献与局限性评论

4.1 关键引用文献分析

Carleo & Troyer (Science, 2017) [18]：NQS 的开山之作，奠定了神经网络作为量子态判据的基础。
Gu et al. (2025, arXiv:2507.02644) [21]：作者此前的 Transformer-Backflow 工作，是本文 SCALE 和 ACE 的直接前身和精度对比基准。
Chen et al. (2025, arXiv:2507.10705) [23]：提出的 HFPS 方法是目前 NQS 的另一条主要技术路线（基于 Hidden Fermions），本文通过 benchmark 证明了 Backflow 路径在特定场景下的优越性。
White (PRL, 1992) [11]：DMRG 的奠基性工作，本文将其作为 2D 系统计算能力的“天花板”进行挑战。

4.2 本工作局限性探讨

尽管 SCALE 与 ACE 取得了巨大成功，但从量子化学和材料模拟的角度看，仍存在以下局限：

固定节点近似（Fixed-node Approximation）：在 GFMC 阶段，结果依然依赖于变分阶段得到的波函数节点。如果 NQS 初步训练得到的节点结构有误，GFMC 无法通过采样彻底修复这一偏差。
物理诱导偏置（Inductive Bias）的普适性：SCALE 强力依赖于局域性假设。对于具有长程 Coulomb 相互作用的真实分子体系（Ab-initio Quantum Chemistry），局域卷积是否依然能保持精度仍有待验证。在这种情况下，可能需要引入带权重的长程算子或多尺度架构。
优化稳定性：随着系统尺寸增大到 32×32，VMC 的采样方差会显著增大。虽然论文使用了 MARCH 优化器，但在接近相变点或高度简并的区域，收敛到真正的全局最小值依然需要极高的技巧和算力投入。

5. 补充解析：为什么卷积在 2026 年依然打败了 Transformer？

这是一个非常有趣的现象：在计算机视觉（CV）领域，Transformer 几乎全面取代了 CNN；但在 NQS 模拟强关联费米子领域，本文却证明了“重返卷积”是通往 Pareto 最优的道路。这背后的深刻原因值得每一位量子化学研究者思考。

5.1 物理定律的局限性即是神经网络的优势

Transformer 的优势在于全局注意力（Global Attention），它可以轻松处理图像中两个相距遥远的像素之间的关联。然而，在强关联格点物理中，哈密顿量算子（如动能跳跃 $t$ 和势能 $U$）是严格局域的。这意味着波函数的相位结构在很大程度上是由局域的相干性决定的。ACE 架构通过 16 层卷积，虽然每一层是局域的，但它们的有效感受野是随层数线性扩展的。这种层次化的局域抽象完美契合了重整化群（RG）的思想，而 Transformer 的全连接特性在某种意义上引入了过多的“信息噪声”，增加了优化的难度。

5.2 复杂度与热力学极限

对于量子化学科研人员来说，模拟的终极目标是热力学极限（$N \to \infty$）。任何 $O(N^4)$ 的算法最终都会撞上算力墙。SCALE 架构通过牺牲一点点“非局域表达能力”，换取了 $O(N^3)$ 的扩展性，这种权衡在物理研究中极其明智。例如，研究高温超导中的条纹序，关键在于能否在足够大的尺寸下观察到周期的长程稳定性，而 SCALE 允许我们观察到 32×32 甚至更大的格点，这比在一个 8×8 的格点上做极致精确的计算更具物理意义。

5.3 未来展望：从格点到分子

该工作的方法论可以平移到从头算（Ab-initio）量子化学中。目前的 Deep Erf-Backflow 等方法也在尝试结合 CNN 和行列式。如果能将 SCALE 的低秩更新技术引入到高斯基组或平面波基组的 NQS 计算中，或许能解决电子关联能计算中长期存在的基准问题。特别是对于复杂的过渡金属配合物，局域电子关联的精确描述将直接受益于这种卷积回流技术。

5.4 总结

SCALE 和 ACE 不仅仅是两个算法，它们代表了 AI+Science 时代的一种新思路：不再盲目追求模型的“通用性”，而是将物理系统的核心约束（如局域性、平移对称性、低秩特性）深度嵌入神经网络的底层算子中。这种“物理灵发的架构设计”才是推动科学计算迈向下一个量级的核心动力。