深度解析：利用神经网络量子态 (NQS) 攻克二维哈伯德模型 —— Transformer 架构与 MARCH 优化算法的革命性突破

来源论文: https://arxiv.org/abs/2507.02644 生成时间: Feb 25, 2026 16:51

0. 执行摘要

二维哈伯德模型（2D Hubbard Model）被公认为研究强关联电子系统及高温超导机制的“最小模型”。然而，由于量子多体系统的指数级复杂度和费米子符号问题，获得其在热力学极限下的精确基态能量和物理特性一直是凝聚态物理的巨大挑战。传统的数值方法，如密度矩阵重整化群（DMRG）在处理大尺寸二维系统时受限于纠缠熵的面积律，而量子蒙特卡罗（QMC）在远离半满（doped）区域时面临严重的符号问题。

近日，来自北京大学、字节跳动 Seed 团队、清华大学和中国科学院物理研究所的研究人员在论文《Solving the Hubbard model with Neural Quantum States》中提出了一套革命性的解决方案。该研究的核心创新包括：

Transformer 架构的引入：利用自注意力机制（Self-Attention）的长程关联建模能力，克服了张量网络（Tensor Networks）仅能直接处理局部关联的局限性。
MARCH 优化算法：开发了“动量自适应重构启发式算法”（Moment-Adaptive ReConfiguration Heuristic），通过引入二阶矩估计，极大地提升了变分参数优化的收敛速度和稳定性。
前所未有的计算规模：在高达 $16 \times 16$ 的系统尺寸上实现了 SOTA（State-of-the-Art）级别的变分能量，并确证了掺杂哈伯德模型中的“半满条纹序”（half-filled stripe order）。

这项工作不仅展示了深度学习在量子物理研究中的巨大潜力，也为探索强关联系统的复杂相图提供了极其强大的工具。

1. 核心科学问题，理论基础，技术难点与方法细节

1.1 核心科学问题：哈伯德模型与高温超导

哈伯德模型描述了格点上电子的跳跃（Kinetic Energy）与格点内库仑排斥（On-site Repulsion）之间的竞争。其哈密顿量定义为：

$$\hat{H} = -t \sum_{\langle i,j \rangle, \sigma} \hat{c}_{i\sigma}^\dagger \hat{c}_{j\sigma} - t' \sum_{\langle\langle i,j \rangle\rangle, \sigma} \hat{c}_{i\sigma}^\dagger \hat{c}_{j\sigma} + U \sum_{i} \hat{n}_{i\uparrow} \hat{n}_{i\downarrow}$$

在轻掺杂（孔穴浓度 $\delta = 1/8$）区域，该模型被认为隐藏着理解铜氧化物高温超导的关键——条纹相（Stripe phases）。然而，条纹序的精确性质（方向、周期、稳定性）对计算方法的精度极其敏感，微小的能量误差都可能导致错误的相图结论。

1.2 理论基础：神经网络量子态 (NQS)

NQS 的核心思想是用一个参数化的深度神经网络 $\Psi_\theta(\mathbf{n})$ 来逼近多体系统的波函数振幅。根据变分原理，通过最小化能量期望值来寻找基态：

$$E_\theta = \frac{\langle \Psi_\theta | \hat{H} | \Psi_\theta \rangle}{\langle \Psi_\theta | \Psi_\theta \rangle}$$

由于希尔伯特空间维数随格点数 $N$ 指数增长，直接计算是不可能的。NQS 结合变分蒙特卡罗（VMC）方法，通过采样电子排布配置 $\mathbf{n}$ 来估算能量及其梯度。

1.3 技术难点：费米子符号问题与长程纠缠

费米子反对称性：波函数必须满足交换反对称性。早期的 NQS 使用限制玻尔兹曼机（RBM）或简单的多层感知器（MLP），难以处理复杂的费米子节点结构（Nodal Structure）。
纠缠熵挑战：二维系统中，系统的纠缠通常具有面积律特征。张量网络法（如 PEPS）在处理具有长程纠缠或大键维度的系统时计算成本极高。
优化算法的陷阱：能量景观（Energy Landscape）在接近基态时极其平坦或存在大量局部极小值，传统的随机梯度下降（SGD）或标准的随机重构法（SR）容易陷入死循环或收敛缓慢。

1.4 方法细节：Transformer 架构的魔力

本文采用基于 Transformer 的 NQS 架构。每个格点的占据态（$|0\rangle, |\uparrow\rangle, |\downarrow\rangle, |\uparrow\downarrow\rangle$）被编码为高维向量，并加上可学习的位置编码（Positional Encodings）。

自注意力机制：自注意力模块能够直接计算格点 $i$ 与格点 $j$ 之间的关联，无论物理距离有多远。这使得 Transformer 天然具备捕捉长程纠缠的能力。公式定义为： $$\text{Attn}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_H}}\right)V$$
Backflow Orbitals 与行列式单体：为了严格满足反对称性，网络输出层生成所谓的“回流轨道”（Backflow Orbitals），然后构建 Slater 行列式的线性组合： $$\langle \mathbf{n} | \Psi \rangle = \sum_{k=1}^K \det[\Phi^k]$$ 这种结构允许网络学习复杂的节点结构，极大地提高了变分精度。

1.5 方法细节：MARCH 优化器

MARCH 是本文的另一核心技术贡献。它在随机重构（SR）的基础上，借鉴了 Adam 优化器的思想，引入了一阶矩（动量）和二阶矩（梯度方差）的估计：

适应性学习率：对于变化剧烈的参数，MARCH 会自动减小更新步长；对于变化平稳的参数，则加大步长。
解决二阶信息的不稳定性：MARCH 通过估计梯度的二阶矩，能够更稳健地导航穿过高维能量景观中的鞍点，这在模拟大尺寸、$U$ 值较大的哈伯德模型时至关重要。

2. 关键 Benchmark 体系，计算所得数据与性能数据

2.1 精度评估：4x4 与 8x8 系统的基准测试

在可以获得精确解（如通过辅助场量子蒙特卡罗 AFQMC 或精确对角化 ED）的小尺寸系统上，本文的 NQS 表现出了惊人的准确性：

4x4 系统（掺杂 $\delta=1/8$）：相对误差仅为 $0.0005$，准确率达到 $99.95\%$。
8x8 半满系统：在周期性边界条件（PBC）下，NQS 能量为 $-0.52582$，与 AFQMC 的基准值 $-0.5262(5)$ 在统计误差范围内高度一致（见表 S1）。

2.2 SOTA 突破：16x16 大尺寸挑战

这是 NQS 首次在 $16 \times 16$ 规模的二维掺杂哈伯德模型上达到如此高的精度。在 $U=8, t'=0$ 的纯哈伯德模型中：

16x16 OBC 能量：NQS 达到了 $-0.72747$，显著低于此前的 PEPS 结果（$D=20$ 时为 $-0.7260(2)$）。这证明了在高维纠缠处理上，神经网络架构优于目前的有限键维张量网络。

2.3 物理特性：条纹序的确证

研究重点关注了 $t' = -0.2$ 的情况，这更接近真实的铜氧化物材料。通过分析空穴密度和自旋密度分布，研究发现：

条纹波长：在 $t' = -0.2$ 时，系统展现出波长 $\lambda = 4$ 的半满条纹序。而在 $t'=0$ 时，波长变为 $\lambda = 8$。
条纹方向：在长方形格点（如 $32 \times 8$）上，NQS 发现**水平条纹（Horizontal Stripe）**在能量上比垂直条纹更有利，这纠正了以往某些圆柱体几何结构计算中因边界效应导致的偏见。
能量来源：能量分析表明，水平条纹的能量增益主要来自**动能（Kinetic Energy）**的优化，即空穴在长条纹方向的流动性更好。

2.4 性能数据：计算效率对比

表 S3 显示了 NQS 与 PEPS 的计算复杂度对比（在 8x8 格点上）：

NQS (Hidden dim 256)：标准墙钟时间设为 $1\times$。
PEPS (D=10)：计算时间是 NQS 的 $24\times$。这表明 NQS 不仅精度更高，在计算资源利用率上也具有显著优势，尤其是在需要处理大尺寸格点时。

3. 代码实现细节，复现指南与开源链接

3.1 架构复现核心参数

基于论文中的表 S5-S7，复现该工作的关键参数配置如下：

Transformer 块：通常采用 2 到 4 层 Transformer 结构。
隐藏层维度：$d_{model} = 256$，注意力头数 $H = 4$ 到 $6$。
行列式数量 ($K$)：通常设置 $K=4$ 即可获得极高精度，增加 $K$ 可进一步降低能量，但会线性增加计算开销。
激活函数：使用了 SiLU (Sigmoid Linear Unit)，因为它在梯度流中表现更平滑。

3.2 训练流程建议

预训练阶段 (Pretrain)：由于 Transformer 的随机初始化很难直接捕获费米子物理，作者推荐先使用简单的 MLP 结构训练一个“神经网路回流（NNB）”模型。然后使用监督学习的方式，让 Transformer 学习 NNB 的轨道输出（Mean Square Error 损失）。这一步能节省数万次的 VMC 迭代。
固定 Pinning Field 训练：为了避免陷入无序的局部极小值，初始训练时可以施加一个临时的反铁磁“钉扎场”（Pinning Field），辅助网络建立初步的磁序和条纹模式，随后再撤除该场进行自由松弛。
MARCH 优化器配置：
- Damping $\lambda$: $0.001$
- Momentum $\mu$: $0.95$
- Batch Size: $4096$
- Steps: $100,000$ 以上以确保深度收敛。

3.3 软件栈与开源资源

该项目主要基于字节跳动内部的高性能分布式训练框架开发，但其核心算法完全可以基于以下开源生态复现：

NetKet：量子多体计算的首选 Python 框架，支持自定义 NQS 架构。
JAX / Flax：由于需要计算行列式的导数和进行复杂的蒙特卡罗采样，JAX 的自动求导和 XLA 加速是复现 MARCH 优化器的核心。
论文开源 Repo：作者在文中表示，所有代码和数据将在正式发布时在 GitHub 上公开（建议关注论文更新以获取最新 Link）。

4. 关键引用文献与局限性评论

4.1 关键引用文献

Carleo & Troyer (Science, 2017)：NQS 的开山之作，奠定了神经网络描述量子态的理论基础。
Vaswani et al. (NeurIPS, 2017)：Transformer 架构的来源，提供了本文的核心建模工具。
Zheng et al. (Science, 2017)：关于条纹序的重要实验/理论对比工作，是本文物理层面的主要对标对象。
Nomura et al. (PRB, 2017)：探讨了 RBM 在强关联系统中的应用局限。
Kingma & Ba (ICLR, 2015)：Adam 优化器，MARCH 算法的灵感源泉。

4.2 局限性评论

尽管该工作取得了巨大成功，但作为一名科研同行，我认为仍需关注以下几点局限性：

采样开销：随着系统尺寸增加，MCMC 采样的自相关时间会增加，尽管 Transformer 减少了纠缠熵压力，但蒙特卡罗采样的统计误差依然是限制超大尺寸模拟精度的瓶颈。
行列式缩放问题：构建 $K$ 个 Slater 行列式的复杂度是 $\mathcal{O}(K \cdot N^3)$。对于数千个格点的体系，计算开销将变得非常沉重。未来的改进方向可能是探索“行列式自由”的对称化网络架构。
边界条件的敏感性：虽然研究使用了 PBC 来减轻边界效应，但条纹序本身与格点长宽比的共振（Commensurability）依然是一个复杂的问题。正如作者在 14 页提到的，$32 \times 16$ 系统目前仍超出计算能力范围。
激发表与动力学：目前的方法主要针对基态（Ground State）。如何将 MARCH 与 Transformer 扩展到激发态、动力学性质以及有限温度（Finite Temperature）计算，仍是待攻克的堡垒。

5. 必要的补充：为什么“水平条纹”很重要？

在研究 2D 哈伯德模型时，科学界长期以来一直困惑于条纹的方向性。很多基于圆柱体（Cylinders）几何结构的 DMRG 计算倾向于得到垂直条纹（Vertical Stripes）。

本文通过对比不同长宽比的周期性系统，指出：

几何伪影：圆柱体边界会强制引入不自然的应力，使得电子更倾向于沿特定轴排列。
物理本质：通过 NQS 在完全对称的二维格点上运行，发现水平条纹在 $L_x > L_y$ 的情况下自发形成。这表明，在大尺寸、开放或周期性系统中，电子会寻求能量最低的长程分布。这一发现对于解释铜氧化物中观察到的各向异性输运行为具有直接的指导意义。

此外，论文图 3 中对**注意力头（Attention Heads）**的各种“人格化”可视化非常有意思：

Head 1 学习到了短程关联（像局部关联函数）。
Head 2 捕捉到了最近邻跳跃相关的模式。
Head 3 则展现了反铁磁（AFM）的棋盘格图案。这种物理上的“可解释性”证明了 Transformer 并非黑盒，而是真正“学习”到了哈密顿量背后的量子物理规律。这为未来设计针对特定物理现象的专用网络架构提供了极佳的模板。

总结而言，这项工作标志着 NQS 正式进入了从“模型验证”到“科学发现”的跨越期。对于量子化学家和凝聚态物理学家来说，这套工具链的成熟预示着我们离解决高温超导的世纪难题又近了一步。