来源论文: https://arxiv.org/abs/2603.02316v1 生成时间: Mar 04, 2026 05:05

0. 执行摘要

近年来，神经网络量子态（NQS）作为一种强大的变分方法，已在量子多体物理领域取得了显著进展。然而，当处理具有自旋和费米子等多种自由度的复合局域希尔伯特空间的格点模型时，现有的NQS方法常面临如何有效编码这些异构自由度的挑战，通常需要特定于模型的参数化。本研究提出了一种基于Transformer架构的创新性NQS方法，旨在解决这一核心难题。通过借鉴自然语言处理中的“tokenization”（词元化）思想，将每个格点上的自旋和费米子自由度显式地映射为不同的词元，Transformer网络能够自然地学习格点内部和格点之间的复杂关联。更进一步，本文的独特之处在于，它利用Transformer网络的输出来构建一组“backflow”费米子轨道，这些轨道的特性巧妙地取决于自旋变量的配置，从而实现了自旋-费米子相互作用的自洽描述。

该方法被成功应用于一维辅助层模型（Ancilla Layer Model, ALM）——一个由移动费米子链与双腿自旋-1/2阶梯通过近藤型交换耦合而成的系统。对于开放边界条件（OBC），本研究获得了与密度矩阵重正化群（DMRG）结果极佳的定量一致性，其相对能量误差在所考虑的参数范围内保持在10^-4以下，充分证明了该方法的精确性与鲁棒性。尤其值得注意的是，对于周期边界条件（PBC），Transformer NQS表现出可与OBC相媲美的精度，同时其能量对系统尺寸的依赖性显著减弱，收敛到热力学极限的速度更快。这突出显示了Transformer NQS在处理DMRG计算成本高昂的PBC系统方面的独特优势，为未来研究高维系统和克服边界效应提供了强大工具。

通过对ALM的基态能量、关联函数以及激发谱的深入分析，本研究详细刻画了模型的相图，揭示了三种主要量子相：传统的Luttinger液体（LL）相、具有独特费米波矢的LL相（对应于二维系统中的伪能隙态），以及由于自旋能隙形成而导致LL态不稳定的Luther-Emery（LE）相。这些发现不仅为ALM的物理性质提供了全面的理解，也进一步验证了Transformer NQS作为一种准确、可扩展且灵活的变分框架，在研究具有复合局域希尔伯特空间的强关联格点系统方面的巨大潜力。这项工作标志着将先进深度学习技术与量子多体物理深度融合的一个重要里程碑，为解决复杂量子系统的计算难题开辟了新途径。

1. 核心科学问题，理论基础，技术难点，方法细节

1.1 核心科学问题

量子多体物理学面临的核心挑战之一是精确理解和模拟强关联格点系统。这些系统在凝聚态物理中扮演着至关重要的角色，因为它们展现出许多新奇的量子现象，例如高温超导、量子霍尔效应和拓扑物质态。尽管近年来数值方法取得了巨大进展，但对于具有复合局域希尔伯特空间的格点模型，挑战依然严峻。复合局域希尔伯特空间是指每个格点上不仅包含一种自由度（例如，仅仅是自旋或仅仅是费米子），而是同时包含多种自由度，如费米子占据数、局域自旋、轨道指数，甚至辅助辅助变量等。这类系统在真实材料中普遍存在，例如过渡金属氧化物（涉及自旋和轨道自由度）、重费米子系统（涉及传导电子和局域磁矩），以及当前研究的辅助层模型（涉及移动费米子和局域自旋）。

现有的神经网络量子态（NQS）方法在处理这些复合系统时面临关键障碍。传统的NQS通常专注于单一类型的自由度（例如，纯自旋系统或纯费米子系统），其输入表示和网络架构往往需要针对特定模型进行定制化的参数化。这种定制化方法虽然在特定应用中有效，但限制了NQS的灵活性、可迁移性和可扩展性，尤其当局域自由度的种类或数量增加时。例如，将自旋和费米子自由度分别作为网络输入的不同部分，或者设计复杂的编码方案来融合它们，都可能导致模型效率低下、难以优化，并可能无法捕捉到不同自由度之间复杂的相互作用。因此，开发一种统一的、灵活的、可扩展的变分框架，能够系统且高效地编码复合局域希尔伯特空间中的所有自由度，成为当前量子多体计算领域的一个紧迫需求。这对于推动NQS在更高维度系统（如二维）中的应用尤为关键，因为高维系统中的边界效应和异构局域结构给传统张量网络方法带来了显著挑战。

1.2 理论基础

本研究提出的方法建立在两大理论基石之上：神经网络量子态（NQS）和Transformer架构。

1.2.1 神经网络量子态（NQS）

NQS是一种利用人工神经网络作为变分波函数参数化形式的方法。其核心思想是将量子多体系统的波函数Ψ(s)表示为一个以神经网络参数θ为输入、以复杂数值振幅为输出的函数Ψ_θ(s)。其中s代表基态配置，通常是一个由格点态组成的序列。NQS的成功得益于神经网络能够以多项式资源高效表示指数级大的希尔伯特空间中的高维函数。

在NQS框架下，基态能量E通常通过变分蒙特卡洛（VMC）方法进行优化。VMC通过对波函数的平方模|Ψ(s)|²进行采样来估计期望值。通过最小化变分能量E_VMC = <Ψ|H|Ψ> / <Ψ|Ψ>，可以获得系统的基态。优化过程通常依赖于随机重构（Stochastic Reconfiguration, SR）算法，该算法通过计算波函数对数梯度的协方差矩阵来更新网络参数。

1.2.2 Transformer架构

Transformer架构最初由Vaswani等人在2017年为自然语言处理（NLP）领域的序列建模任务而开发。它彻底改变了NLP领域，并逐渐扩展到其他数据类型。Transformer的核心是“自注意力机制”（Self-Attention），它允许模型在处理序列中的每个元素时，动态地权衡序列中所有其他元素的重要性。这使得Transformer能够有效地捕捉长程依赖关系和异构关联，而无需强加局部性约束（如卷积神经网络）或顺序处理（如循环神经网络）。

在Transformer中，输入数据被视为一系列“词元”（tokens）。每个词元首先被转换为一个嵌入向量，然后通过多层编码器处理，其中每层都包含多头自注意力机制和前馈网络。自注意力机制的关键在于，它为序列中的每个词元计算一个“上下文感知表示”（context-aware representation），这个表示融合了序列中所有其他词元的信息。这使得模型能够理解词元之间的全局关系，而不是仅仅依赖于局部上下文。Transformer的这种结构使其在处理长序列和捕捉复杂模式方面表现出色。

1.3 技术难点

将Transformer架构应用于具有复合局域希尔伯特空间的量子格点模型，需要克服几个关键的技术难点：

复合局域希尔伯特空间的统一编码： 最核心的挑战是如何将每个格点上异构的局域自由度（例如费米子占据数和自旋方向）统一且有效地编码为神经网络的输入。传统的NQS方法通常采用模型特定的参数化，这缺乏通用性。本研究创新性地引入了“词元化”思想，将每个格点上的所有局域自由度组合成一个独特的整数词元，从而为Transformer提供统一的序列输入。这类似于NLP中将单词映射为整数ID。
自旋-费米子相互作用的表示： 格点模型中的自旋和费米子自由度并非独立，而是通过各种相互作用（如近藤耦合）紧密关联。NQS需要能够捕捉这些复杂的自旋-费米子关联。简单地将自旋和费米子输入分开处理，然后在一个高级层融合，可能无法充分捕捉这些细微的相互作用。本研究通过Transformer输出构建的“backflow”费米子轨道，其特性依赖于自旋变量，巧妙地解决了这一问题，使得费米子轨道能够“感知”自旋背景，从而实现了自旋-费米子关联的深度编码。
费米子波函数的符号问题和行列式计算： 费米子波函数必须满足反对称性原理，这通常通过使用斯莱特行列式（Slater Determinant）来确保。计算斯莱特行列式引入了额外的计算复杂性，尤其对于大量费米子系统，其复杂度为O(N_e^3)，其中N_e是费米子数量。此外，尽管VMC通过采样波函数模方来避免直接的“符号问题”，但正确学习波函数的相位对于描述费米子系统至关重要，尤其是在强关联或几何阻挫系统中。
长程关联和局域结构的平衡： Transformer的自注意力机制天生擅长捕捉长程关联。然而，格点系统也具有重要的局域结构（例如，近邻相互作用）。如何在捕捉全局依赖的同时，有效地编码和利用这些局域物理信息是一个挑战。本研究通过引入“空间偏置”（spatial bias）来解决此问题，强制注意力权重随格点距离增加而衰减，从而将格点结构信息直接编码到架构中。
周期边界条件（PBC）下的性能： 传统张量网络方法（如DMRG）在PBC下计算成本急剧增加，因为需要处理非局域的边界条件。NQS在PBC下具有理论优势，但其实现和优化需要确保模型能够正确处理这种拓扑结构。本研究展示了Transformer NQS在PBC下具有可比的精度和更快的收敛速度，克服了DMRG在这一方面的限制。

1.4 方法细节

本研究引入的基于Transformer的NQS方法，旨在通过一个统一的变分框架，处理具有复合局域希尔伯特空间的格点系统中的自旋和费米子自由度。其核心创新在于输入表示、Transformer核心处理和“backflow”费米子轨道构建。

1.4.1 输入表示与词元化 (Tokenization)

对于格点模型，一个物理基态配置s通常表示为一系列局域配置s = (s_1, ..., s_N)，其中s_i代表第i个格点的局域态，N是格点总数。在辅助层模型（ALM）中，每个格点i的局域配置s_i是一个包含自旋费米子占据数n_{i↑}, n_{i↓}（每个为0或1）以及两个辅助自旋S_{i1}, S_{i2}（每个为±1/2或用±表示z分量）的元组。因此，每个格点具有2 (fermions) * 2 (spins) * 2 (spins) = 16种可能的局域态，即局域希尔伯特空间的维度V=16。

为了将这些复合的局域态输入Transformer，本研究采取了受自然语言处理启发的“词元化”策略：

统一整数标签： 将每个独特的局域配置s_i分配一个唯一的整数标签t_i，范围从0到V-1。例如，s_i = (n_{i↑}, n_{i↓}, S_{i1}, S_{i2})被映射为t_i ∈ {0, 1, ..., V-1}。这样，一个多体基态配置s就被表示为一个整数序列t = (t_1, ..., t_N)。

1.4.2 嵌入层 (Embedding)

整数序列t随后通过一个嵌入层转换为浮点向量序列：

嵌入查找表： 每个整数词元t_i被映射到一个d维的特征向量x_i ∈ R^d。这个映射通过一个可训练的嵌入查找表实现，其形状为V × d，其中d是嵌入维度，是网络的超参数。这些嵌入向量可以被理解为对应局域希尔伯特空间配置的抽象表示。在这一点上，每个向量x_i仅依赖于其对应的局域配置s_i。

1.4.3 Transformer核心架构

嵌入向量序列(x_1, ..., x_N)作为Transformer的输入。Transformer的核心功能是将其转换为一个新的序列(Y_1, ..., Y_N)，其中每个输出向量Y_i ∈ R^d融合了来自整个输入序列的信息。这些Y_i被称为“上下文感知表示”（context-aware representations）。

分块注意力机制 (Factored Attention): 本研究采用了一种简化的注意力机制，称为分块注意力。与标准Transformer中注意力权重由查询-键（Query-Key）计算不同，这里的注意力权重a_{ij}仅依赖于格点索引i和j，并被参数化为一个可训练的N × N矩阵。这种分解显著降低了注意力机制的计算成本，同时在自旋系统中并未损害变分状态的精度。
空间偏置 (Spatial Bias): 为了将底层的格点结构信息直接编码到架构中，引入了空间偏置。这通过强制注意力权重a_{ij}随格点i和j之间距离的增加而衰减来实现，反映了物理系统中相互作用的局部性。
深度架构： Transformer由多个层次堆叠而成，每个层次都包含多头注意力（Multi-Head attention）、前馈网络（Feed-Forward Network）、层归一化（Layer Normalization）和残差跳跃连接（Residual Skip Connections）等组件，以增强表达能力和训练稳定性。

1.4.4 Backflow费米子轨道构建 (Backflow Fermionic Orbitals)

Transformer架构的输出是上下文感知表示序列(Y_1, ..., Y_N)。本研究的创新之处在于，将这些Y_i向量用于构建一套“有效单粒子轨道”，这些轨道定义了一种“backflow”变换，专门用于费米子自由度：

轨道生成： 通过一个格点分辨的线性映射，将Transformer的输出Y_i转换为费米子轨道Φ_{iσα}。具体形式为Φ_{iσα} = Σ_β Y_{iβ} W_{iσαβ}，其中W_{iσαβ}是可训练的参数，α是单粒子轨道的标签（从1到N_e，总费米子数）。这里的关键是，这些轨道Φ_{iσα}不仅取决于格点i和费米子自旋σ，还通过Y_i隐式地依赖于整个系统的自旋配置。
矩阵重塑： 为了方便斯莱特行列式计算，将Φ_{iσα}重塑为一个矩阵Φ_{rα} ∈ R^(2N × N_e)，其中r = (i, σ)是一个结合了格点i和费米子自旋σ的复合索引。

1.4.5 斯莱特行列式构建 (Slater Determinant)

最终的多体波函数振幅Ψ_e(s)通过斯莱特行列式构建：

选择子矩阵： 对于给定的基态配置s，根据费米子的占据数n = (n_{1↑}, ..., n_{N↑}, n_{1↓}, ..., n_{N↓})，从Φ_{rα}矩阵中选择对应于被占据费米子格点的N_e × N_e子矩阵Φ_n(s)。
计算行列式： 波函数振幅由Ψ_e(s) = det[Φ_n(s)]给出。这个行列式确保了费米子波函数的反对称性，并且由于轨道Φ_{iσα}通过Y_i依赖于自旋配置，整个波函数自然地包含了自旋和费米子的强关联。

1.4.6 优化

整个变分波函数在变分蒙特卡洛（VMC）框架内进行优化。使用随机重构（SR）方法，并辅以线性代数技巧来处理大规模神经网络的优化。论文中还提到了MARCH优化器，这可能是一种特定的SR实现或对现有优化器的改进。采样配置通过马尔可夫链蒙特卡洛（MCMC）方法生成，包括费米子跳跃、自旋交换和自旋-费米子交换等提议步骤，确保对整个希尔伯特空间的充分探索。

这种方法的优势在于提供了一个统一且灵活的架构，能够自洽地处理自旋和费米子自由度，并学习格点内部和格点之间的复杂关联，同时对周期边界条件具有出色的可扩展性。

2. 关键 benchmark 体系，计算所得数据，性能数据

2.1 关键 benchmark 体系：辅助层模型 (ALM)

本研究将提出的Transformer神经网络量子态（NQS）应用于一维辅助层模型（Ancilla Layer Model, ALM），该模型是理解强关联电子系统，特别是高温超导体伪能隙相和分数化费米液体（Fractionalized Fermi Liquids, FL*）的关键benchmark。ALM的哈密顿量如公式(1)所示，其物理构成如图1(a)和1(b)所示：

构成： ALM由一个移动的自旋-1/2费米子链（蓝色箭头）组成，该链通过近藤型交换J_K与一个双腿自旋-1/2阶梯（绿色箭头）局域耦合。阶梯的腿部之间由海森堡相互作用J_1和J_2连接，梯级之间由层间耦合J_⊥连接。
局域希尔伯特空间： 每个格点i拥有复合的局域希尔伯特空间，包含一个自旋费米子占据数（c_{i,σ}，其中σ为↑或↓）和两个辅助自旋S_{i,1}和S_{i,2}。这使得每个格点的局域希尔伯特空间维度V = 2^4 = 16，充分体现了复合自由度的特性。
哈密顿量分解：
- 费米子链跳跃项： −t Σ_{i,σ} (c_{i,σ}^† c_{i+1,σ} + h.c.) 描述了费米子在链上的最近邻跳跃，振幅为t。在本研究中，t被设为1，所有其他耦合常数均以t为单位。
- 辅助自旋阶梯海森堡项： J_1 S_{i,1} · S_{i+1,1} 和 J_2 S_{i,2} · S_{i+1,2} 描述了两个辅助自旋腿上的最近邻反铁磁海森堡相互作用。
- 近藤耦合项： J_K/2 Σ_{i,σ,σ'} c_{i,σ}^† τ_{σσ'} c_{i,σ'} · S_{i,1} 描述了电子自旋密度与第一个辅助自旋层S_{i,1}之间的局域近藤交换，强度为J_K > 0。
- 层间耦合项： J_⊥ S_{i,1} · S_{i,2} 描述了两个辅助自旋S_{i,1}和S_{i,2}在每个梯级上的反铁磁相互作用。
物理意义： ALM提供了一个受控环境，用于研究巡游费米子与多个局域自旋自由度相互作用的复杂现象。它能够揭示不同屏蔽机制之间的相互作用，并探索从欠屏蔽到过屏蔽状态的转变。该模型在二维系统中被广泛研究，以解释高温超导铜酸盐的许多显著特征，如伪能隙、费米弧和非费米液体行为。

2.2 计算设置与参数

本研究的计算是在以下设置下进行的：

系统尺寸： N = 42个格点的一维链，费米子数量N_e = 30，对应空穴掺杂δ ≈ 0.2857。
哈密顿量参数： t = 1.0，J_1 = J_2 = J_⊥ = 0.5（除非特别说明，例如在相图研究中J_⊥会变化）。近藤耦合J_K是主要变化参数。
Transformer架构： n_L = 4层，h = 12个注意力头，嵌入维度d = 72。这些参数选择导致模型总参数量约为P ≈ 4 × 10^5。
优化： 采用变分蒙特卡洛（VMC）框架，使用随机重构（SR）算法，并结合线性代数技巧和MARCH优化器。训练过程进行10^4步，每步使用M = 2^13个蒙特卡洛样本。学习率初始设置为η = 0.01，并在优化过程中逐渐退火。
DMRG对比： 密度矩阵重正化群（DMRG）计算使用TeNPy库（版本0.10.0）进行。键合维度χ从500到1000（对于i-DMRG可达2000），扫描次数N_sweeps = 20。最大丢弃权重低于10^-5，能量收敛精度为10^-8。

2.3 关键计算结果与性能数据

2.3.1 能量基准测试

图5展示了在开放边界条件（OBC）下，Transformer NQS与DMRG结果的对比，验证了该方法的精确性。

变分能量精度： 能量随方差的函数关系显示，增加Transformer层数（n_L = 2, 4, 6）能够系统地提高变分精度。将能量外推至零方差时，NQS结果与DMRG参考能量（键合维度χ = 10^3）吻合极好。
相对能量误差： 图5的插图展示了在不同近藤耦合J_K值下（从1.0到5.0），NQS相对于DMRG的相对能量误差ΔE。在整个J_K范围内，误差保持在10^-4以下，最大误差出现在J_K ≈ 3.0附近，这表明该方法在不同耦合区域均具有强大的鲁棒性。

图6展示了在OBC和周期边界条件（PBC）下，基态能量随系统尺寸倒数1/N的有限尺寸标度。

DMRG (OBC)： DMRG数据清晰地显示出能量对1/N的线性依赖关系，支持外推到热力学极限。
Transformer NQS (PBC)： Transformer NQS在PBC下表现出显著较弱的尺寸依赖性，对于所考虑的最大系统，能量已经非常接近渐近值。这表明NQS在PBC下收敛到热力学极限的速度更快，且边界效应被大大抑制。尽管标度行为不同，但外推到热力学极限的能量在两种边界条件下数值精度一致。

2.3.2 关联函数分析

图7展示了在OBC和PBC下，三种关键关联函数的动量分辨结构因子：电荷结构因子N(q)N(-q)、第一个辅助自旋链的自旋结构因子S_1(q)S_1(-q)和总自旋结构因子S(q)S(-q)。

OBC (顶部面板a, b, c)： Transformer结果与DMRG参考数据在所有被考察的物理量上均实现了卓越的定量一致。
- 小J_K (1.0, 2.0，LL相)： 电荷结构因子N(q)N(-q)在2k_F/π = 1-δ处呈现尖峰（自由电子形式），表明费米子链形成Luttinger液体。总自旋结构因子S(q)S(-q)在q=π处达到峰值，反映了主导的反铁磁关联。S_1(q)S_1(-q)也在q=π处达到峰值，但在小动量q处消失（如q^2），表明辅助自旋部分存在自旋能隙，且无近藤屏蔽。
- 大J_K (4.0, 5.0，近藤屏蔽LL*相)： 系统进入近藤屏蔽态。总自旋结构因子S(q)S(-q)在q=π处的峰值被强烈抑制，反铁磁涨落不再主导。S_1(q)S_1(-q)在2k_F/π = 2-δ处出现尖锐峰值，证实了近藤屏蔽相的建立。
- 临界点附近 (J_K ≈ 3.0)： 关联长度变得极短。电荷结构因子在2k_F和4k_F处出现更强的峰值，暗示存在强的电荷密度波（CDW）涨落，与Luttinger参数急剧下降一致。
PBC (底部面板d, e, f)： Transformer NQS在PBC下计算的关联函数与OBC结果形状和幅度相似，再次验证了该方法在PBC几何下的可靠性。PBC下密度分布的弗里德尔振荡消失，导致连接的密度-密度关联函数发生相应变化。

2.3.3 相图表征

图3（第一部分）和图9展示了ALM的相图，主要通过iDMRG计算的中心荷（c）以及DMRG计算的自旋能隙和关联长度来确定。

中心荷 (c) (图3, 图9b)：
- 小J_K： LL相（C1S1），c=2。此时第一个辅助层与系统其余部分有效解耦，辅助自旋形成梯级单重态，具有自旋能隙。
- 大J_K，小J_⊥： LL*相（C1S2），c=3。近藤屏蔽相，第一个辅助层自旋与传导电子杂化。第二个辅助层导致无能隙模式的分数化。
- 大J_K，大J_⊥： Luther-Emery (LE)相（C1S0），c=1。自旋模式打开能隙，仅剩下一个电荷模式。
自旋能隙 (Δs) (图9a)： 随着J_K的增加，在近藤屏蔽相中，对于较大的J_⊥，自旋能隙变为非零，表明LL*相最终向Luther-Emery相不稳定。这与近藤-海森堡模型的研究结果一致。
关联长度 (图9c)： 在临界点附近（J_K ∈ [5.3, 5.6]），电荷密度关联长度（ξ_{ns}）大于配对关联长度（ξ_p），暗示系统不稳定地趋向于CDW序。此区域的关联长度极短，表明量子临界点的超局域性质。

2.3.4 动量色散 (激发谱)

图8展示了在PBC下，不同J_K值下三重态能隙Δ(q) = E_{triplet}(q) - E_0随动量q的变化。

解耦相 (J_K = 0.0)： 自旋层有能隙并完全解耦。低能三重态激发是常规的粒子-空穴对，在q=0和q=2k_F附近具有线性色散ω=v_Fq。在q=π处出现下降，源于自旋层中的能隙激发。
小J_K (J_K = 3.0)： 三重态谱在q=2k_F处仍有明显最小值，与Luttinger液体行为一致。能隙的整体幅度减小，带宽变窄，激发速度降低。
近藤屏蔽相 (J_K = 7.0)： 能隙幅度大幅度抑制，准粒子速度显著降低。在q=2k_F处出现一个明显的凹陷，表明存在一个无能隙激发，与Lieb-Schultz-Mattis定理一致。这与重费米子物理中的现象类似，即传导电子与局域自旋混合导致重整化带宽变窄，有效质量增加。

这些性能数据和结果不仅验证了Transformer NQS在处理具有复合希尔伯特空间的强关联格点系统方面的卓越能力，也为ALM的物理相图和激发特性提供了深入且系统的理解。

3. 代码实现细节，复现指南，所用的软件包及开源 repo link

本研究提出的Transformer神经网络量子态（NQS）是一个复杂的系统，其实现细节结合了深度学习框架的灵活性和量子多体物理的特定需求。尽管论文中未直接提供开源代码仓库链接，但可以根据其描述推断出实现的关键要素和潜在的复现指南。

3.1 Transformer NQS 实现细节

本研究的Transformer NQS实现主要涉及以下几个核心模块：

基础框架：
- 语言： Python 是最可能的选择，因为它在科学计算和深度学习领域是主流。
- 深度学习库： PyTorch 或 JAX 是用于构建和优化神经网络的关键。论文中多次提及自动微分和线性代数操作，这些都是这些库的核心功能。JAX因其对函数式编程和JIT编译的支持，在物理模拟中越来越受欢迎。
输入表示与词元化层：
- 实现： 这将是一个自定义的预处理步骤。对于每个格点i，其局域配置s_i = (n_{i↑}, n_{i↓}, S_{i1}, S_{i2})需要被编码为一个唯一的整数t_i。这可以通过一个哈希函数或一个预定义的查找字典实现。例如，可以将n_{i↑}, n_{i↓}, S_{i1}, S_{i2}（分别用0/1，和±1表示）组合成一个基数16的数字，或直接用元组作为字典键。
嵌入层：
- 实现： 在PyTorch中，可以使用 torch.nn.Embedding(num_embeddings=V, embedding_dim=d)。V是局域希尔伯特空间维度（对于ALM是16），d是嵌入维度（本研究中为72）。JAX中也有类似功能或可手动实现。

Transformer编码器：

核心结构： Transformer编码器由多个堆叠的层组成（本研究中为n_L = 4层）。每层包含：

多头分块自注意力机制： 这是本研究的核心创新之一。它不同于标准Transformer的 nn.MultiheadAttention。注意力权重 a_{ij} 是一个可训练的 N × N 矩阵，并且额外加入了空间偏置，使得权重随格点距离衰减。这需要自定义实现。一个可能的结构是：

class FactoredSelfAttention(nn.Module):
    def __init__(self, N, d, num_heads, dropout_rate, spatial_bias_fn):
        super().__init__()
        self.num_heads = num_heads
        self.head_dim = d // num_heads
        self.query_proj = nn.Linear(d, d)
        self.key_proj = nn.Linear(d, d)
        self.value_proj = nn.Linear(d, d)
        self.output_proj = nn.Linear(d, d)
        self.attn_weights = nn.Parameter(torch.randn(num_heads, N, N)) # N x N learnable weights
        self.spatial_bias_fn = spatial_bias_fn # Function to compute spatial bias

    def forward(self, x):
        # x: (batch_size, N, d)
        q = self.query_proj(x).view(batch_size, N, self.num_heads, self.head_dim)
        k = self.key_proj(x).view(batch_size, N, self.num_heads, self.head_dim)
        v = self.value_proj(x).view(batch_size, N, self.num_heads, self.head_dim)

        # Scaled dot-product attention (simplified here)
        # scores = torch.einsum('bnhd,bmhd->bnhm', q, k) / (self.head_dim ** 0.5)

        # Apply learnable attention weights + spatial bias
        # The actual implementation described in paper is different, 
        # where a_ij are directly learned N x N matrix with spatial bias.
        # This might mean direct element-wise addition to scores or a different weight application

        # A more direct interpretation of "a_ij depend only on site indices and are parameterized as a trainable N x N matrix"
        # would be that the attention mechanism itself is simplified to a weighted sum with learned N x N weights.
        # Let's assume for simplicity a trainable N x N matrix is applied.

        # attention_scores = self.attn_weights + self.spatial_bias_fn(N) # Add spatial bias
        # attention_weights = F.softmax(attention_scores, dim=-1)

        # For factored attention, the N x N matrix acts as primary weights.
        # For each head, apply a unique N x N matrix
        attn_matrix = F.softmax(self.attn_weights + self.spatial_bias_fn(N).unsqueeze(0), dim=-1) # Add spatial bias per head
        attn_output = torch.einsum('hnm,bmd->bnd', attn_matrix, v) # Simplified interaction

        # The actual implementation of "factored attention" might be more complex
        # as described in their previous works [27, 29, 62, 63]

        output = self.output_proj(attn_output.flatten(2))
        return output

注：上述代码是基于论文描述的一种可能实现方式的示意，实际细节可能更复杂。例如，论文引用的文献 [27, 29, 62, 63] 可能有更详细的“分块注意力”实现。

前馈网络 (FFN)： 由两个线性层和一个激活函数（如ReLU或GELU）组成，通常包含一个中间维度。
层归一化 (Layer Normalization)： torch.nn.LayerNorm。
残差连接 (Residual Connections)： 通过将输入添加到层输出，帮助训练更深的网络。

Backflow层：

实现： 这是一个连接Transformer输出和斯莱特行列式计算的自定义线性层。Transformer的输出 Y 是 (batch_size, N, d) 形状的张量。Backflow层需要将其映射到 (batch_size, 2N, N_e) 形状的轨道矩阵 Φ，其中 2N 对应 N 个格点和 2 种自旋 (i, σ)，N_e 是费米子数量。

Φ_{iσα} = Σ_β Y_{iβ} W_{iσαβ} 可以通过一个torch.nn.Linear层实现，或者更精细地使用torch.einsum。例如，可以将Y_i视为输入特征，W_{iσαβ}是权重，生成2N * N_e个轨道值。一个可能的实现是：

class BackflowLayer(nn.Module):
    def __init__(self, d, N_fermi, N_sites):
        super().__init__()
        # W_iosa_beta maps d-dim Y_i to (2 * N_sites * N_fermi) output elements
        self.linear = nn.Linear(d, 2 * N_fermi) # Each Y_i generates 2*N_fermi orbitals

    def forward(self, transformer_output): # (batch_size, N_sites, d)
        batch_size, N_sites, d = transformer_output.shape
        # Apply linear layer to each site's output independently
        orbitals_per_site = self.linear(transformer_output) # (batch_size, N_sites, 2 * N_fermi)
        # Reshape to (batch_size, 2 * N_sites, N_fermi)
        # The 2 here represents (site_i, spin_up) and (site_i, spin_down)
        phi_matrix = orbitals_per_site.view(batch_size, N_sites * 2, N_fermi)
        return phi_matrix

斯莱特行列式计算：

实现： 这是费米子NQS的关键。给定Backflow层输出的轨道矩阵Φ，需要根据当前采样配置s中的费米子占据数n来选择N_e × N_e子矩阵，然后计算其行列式。这需要自定义函数：

def compute_slater_determinant(phi_matrix, fermion_occupations):
    # phi_matrix: (N_sites * 2, N_fermi) for a single configuration
    # fermion_occupations: (N_sites * 2) boolean array indicating occupied orbitals
    occupied_orbitals_idx = torch.nonzero(fermion_occupations).squeeze(-1) # Indices of occupied single-particle states

    # Select rows corresponding to occupied states from phi_matrix
    # And select all N_fermi columns for the actual orbital values
    # This forms the N_e x N_e matrix for the determinant
    submatrix = phi_matrix[occupied_orbitals_idx, :]

    # Ensure the submatrix has dimensions (N_e, N_e)
    if submatrix.shape[0] != submatrix.shape[1]:
        raise ValueError("Submatrix for determinant must be square.")

    amplitude = torch.det(submatrix)
    return amplitude

3.2 复现指南 (概念性)

要复现本研究的结果，需要执行以下步骤：

环境配置：
- 安装Python (3.8+)。
- 安装深度学习库：PyTorch (或JAX)。建议使用支持CUDA的GPU版本以加速计算。
- 安装其他科学计算库：NumPy, SciPy。
- 对于DMRG基准测试，安装TeNPy库。
数据准备：
- 定义ALM的哈密顿量，包括所有耦合参数 (t, J_1, J_2, J_K, J_⊥)。这些哈密顿量的矩阵表示或作用于态上的函数需要实现。
- 确定系统尺寸 N 和费米子数量 N_e。
模型构建：
- 实现上述Transformer NQS架构，包括词元化、嵌入层、Transformer编码器（带有多头分块自注意力、空间偏置、FFN、层归一化、残差连接）、Backflow层和斯莱特行列式计算模块。
- 初始化网络参数。论文中提到参数初始化是随机的。
VMC训练循环：
- MCMC采样器： 实现一个自定义的马尔可夫链蒙特卡洛（MCMC）采样器，以根据当前波函数 |Ψ(s)|² 生成物理配置 s。采样器应包含论文中提到的三种提议操作：
  - 费米子最近邻跳跃。
  - 自旋最近邻交换。
  - 自旋-费米子交换（连接费米子自由度和一个自旋链）。
- 局域能量计算： 实现一个函数，计算给定哈密顿量H和配置s的局域能量 E_loc(s) = <s|H|Ψ> / <s|Ψ>。
- 梯度计算与优化：
  - 在每个训练步中，运行MCMC采样器生成M个配置样本。
  - 计算每个样本的局域能量和波函数对数梯度 ∇_θ logΨ_θ(s)。
  - 使用这些信息通过随机重构（SR）算法更新网络参数。论文提到了线性代数技巧和MARCH优化器，这些是SR的特定实现细节，可能需要深入了解其内部工作原理。
- 学习率退火： 按照论文描述，从 η = 0.01 开始，逐步降低学习率。
评估与分析：
- 训练完成后，使用训练好的模型计算基态能量、关联函数（如结构因子）、激发谱（如三重态能隙）。
- 对于激发谱，需要使用动量q的对称投影算符来限制蒙特卡洛采样。
- 将结果与DMRG计算进行比较（对于OBC）。
- 分析相图，确定不同参数区域的量子相边界。

3.3 所用的软件包及开源 repo link

本研究中使用的主要软件包和技术包括：

深度学习框架： PyTorch 或 JAX (未明确指明，但基于描述推断)。这些都是构建神经网络和实现自动微分的关键工具。
DMRG计算： TeNPy 库 (版本 0.10.0)。这是用于进行DMRG和i-DMRG计算的Python开源库。
- GitHub Link (TeNPy): https://github.com/tenpy/tenpy

重要说明： 论文中并未直接提供本研究中使用的Transformer NQS代码的开源仓库链接。尽管提到了MARCH优化器和一些先前的工作（参考文献 [8, 10, 29]），这些文献可能属于同一研究团队，暗示他们可能拥有一个内部或部分开源的NQS框架，但其核心的Transformer NQS代码实现并未公开发布。对于复现此项工作，研究人员可能需要从头开始构建Transformer NQS模块，或者等待作者团队未来公开发布代码。

建议： 如果作者团队在未来公开发布代码，这对于推动该领域的进一步发展和更广泛的应用将是巨大的贡献。在此之前，研究人员可以参考现有的NQS开源库（例如 NetKet 或 QuCANDY），并在此基础上自行实现论文中描述的Transformer架构、分块注意力机制、空间偏置以及Backflow费米子轨道构建等创新点。

4. 关键引用文献，以及你对这项工作局限性的评论

4.1 关键引用文献

本研究建立在量子多体物理和机器学习交叉领域的坚实基础上，引用了大量关键文献。以下是按主题分类的一些重要引用，以及它们在本研究中的作用：

神经网络量子态 (NQS) 基础：
- [6] Carleo, G. & Troyer, M. (2017). Solving the quantum many-body problem with artificial neural networks. Science, 355(6325), 602-606. 这是NQS领域的开创性工作，首次提出使用受限玻尔兹曼机（RBM）作为量子多体波函数表示，并通过VMC进行优化，奠定了NQS方法的基础。
- [82] Becca, F. & Sorella, S. (2017). Quantum Monte Carlo Approaches for Correlated Systems. Cambridge University Press. 这是一本全面的参考书，涵盖了量子蒙特卡洛方法（包括VMC）的理论和实践，为本研究的优化框架提供了理论支持。
- [83] Sorella, S. (1998). Green function monte carlo with stochastic reconfiguration. Phys. Rev. Lett., 80(20), 4558. 提出了随机重构（SR）方法，是VMC优化NQS的关键算法，尤其在处理非正交基函数时效率高。
Transformer 架构及其在NQS中的应用：
- [24] Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 30. Transformer架构的原始论文，引入了自注意力机制，对深度学习领域产生了革命性影响。本研究将这一思想引入NQS。
- [27] Viteritti, L. L., Rende, R., & Becca, F. (2023). Transformer variational wave functions for frustrated quantum spin systems. Phys. Rev. Lett., 130(23), 236401. 将Transformer应用于自旋NQS的早期工作，展示了其在处理长程关联方面的优势，为本研究奠定了基础。
- [29] Viteritti, L. L., et al. (2025). Transformer wave function for two dimensional frustrated magnets: Emergence of a spin-liquid phase in the shastry-sutherland model. Phys. Rev. B, 111, 134411. 进一步扩展Transformer NQS到二维自旋系统，并揭示了更详细的实现细节，包括本研究中提到的“分块注意力”。
- [10] Gu, Y., et al. (2025). Solving the Hubbard model with Neural Quantum States. arXiv:2507.02644. 将Transformer NQS应用于费米子Hubbard模型，展现了其在费米子系统中的潜力。
费米子NQS与Backflow轨道：
- [67] Luo, D. & Clark, B. K. (2019). Backflow transformations via neural networks for quantum many-body wave functions. Phys. Rev. Lett., 122(22), 226401. 引入了使用神经网络实现backflow变换的思想，为费米子轨道提供了更灵活的参数化。
- [34] Ma, H., et al. (2025). Transformer-based neural networks backflow for strongly correlated electronic structure. arXiv:2509.25720. 进一步探索了Transformer结合backflow在强关联电子结构中的应用。本研究的独特之处在于Transformer输出的backflow轨道对自旋变量的依赖。
辅助层模型 (ALM) 背景与相关理论：
- [39] Bonetti, P. M., et al. (2025). Fractionalized Fermi liquids and the cuprate phase diagram. arXiv:2508.20164. 提供了ALM在二维中与高温超导铜酸盐伪能隙相关联的背景，强调了该模型的物理重要性。
- [40-50] 这一系列论文由Sachdev及其合作者完成，详细研究了ALM在解释铜酸盐许多现象方面的能力，包括费米弧、非费米液体行为等，为本研究的物理结果提供了重要上下文。
- [53] Nikolaenko, A. & Zhang, Y.-H. (2024). Numerical signatures of ultra-local criticality in a one dimensional Kondo lattice model. SciPost Phys., 17, 034. 研究了近藤-海森堡模型，发现了超局域临界性的数值特征，与本研究ALM相图中的某些行为具有可比性。
密度矩阵重正化群 (DMRG) 与张量网络：
- [1] White, S. R. (1992). Density matrix formulation for quantum renormalization groups. Phys. Rev. Lett., 69(19), 2863. DMRG方法的原始论文，定义了其在精确解决一维量子系统方面的核心地位。
- [5] Schollwöck, U. (2011). The density-matrix renormalization group in the age of matrix product states. Annals of Physics, 326(1), 96-192. 对DMRG和矩阵乘积态（MPS）进行了全面的综述，是张量网络方法的经典参考。
- [70] McCulloch, I. P. (2008). Infinite size density matrix renormalization group, revisited. arXiv:0804.2509. 介绍了无限DMRG（iDMRG），用于研究热力学极限下的系统，并从中提取中心荷。
- [84] Hauschild, J. & Pollmann, F. (2018). Efficient numerical simulations with Tensor Networks: Tensor Network Python (TeNPy). SciPost Phys. Lect. Notes, 5. 介绍了TeNPy库，本研究使用其进行DMRG基准测试。

4.2 对这项工作局限性的评论

尽管本研究在Transformer NQS应用于复合局域希尔伯特空间的格点系统方面取得了显著进展，但仍存在一些局限性，值得未来工作进一步探索和解决：

计算成本与可扩展性：
- 斯莱特行列式计算： 费米子波函数需要计算 N_e × N_e 矩阵的行列式，其计算复杂度为 O(N_e^3)。虽然对于本研究中使用的 N_e = 30 费米子是可行的，但对于 N_e 随着系统尺寸 N 线性增长的非常大的系统（例如，二维系统中的大尺寸模拟），这将成为计算瓶颈。尽管可以通过近似行列式或仅对部分费米子进行行列式计算来缓解，但这可能会引入额外的误差。
- Transformer的二次方缩放： 文中使用的“分块注意力”虽然比标准注意力更高效，其 N × N 可训练注意力矩阵仍然导致计算复杂度随系统尺寸 N 呈二次方增长 O(N^2)。对于一维系统（N=42）尚可接受，但对于非常大的二维系统，这种二次方缩放可能依然过于昂贵。未来的工作可能需要探索稀疏注意力、线性注意力或其他能够实现线性或近线性缩放的Transformer变体。
- VMC采样效率： 蒙特卡洛采样固有的统计涨落要求大量的样本数 M 来获得精确结果。M = 2^13（8192）个样本在小尺寸一维系统上可能足够，但在更大、更复杂、或更接近量子临界点的系统上，收敛所需的样本数会急剧增加，从而大幅增加计算时间。
- 参数数量： N=42时，模型总参数量约为 4 × 10^5。虽然现代GPU可以处理，但将模型扩展到更大的二维系统可能导致参数数量达到数百万甚至数十亿，这对内存和训练效率都构成挑战。
超参数的选择与通用性：
- 本研究详细评估了Transformer在特定1D ALM模型、特定掺杂和特定耦合参数下的性能。Transformer的超参数（如层数 n_L、注意力头数 h、嵌入维度 d）可能需要针对不同的格点模型、维度、掺杂水平或参数区域进行重新调优。这种模型/问题依赖性是许多基于神经网络方法的常见局限性，限制了其“开箱即用”的通用性。
黑箱性质与可解释性：
- 尽管NQS提供了强大的表达能力，但神经网络的“黑箱”性质使得直接从学习到的参数中提取物理洞察变得困难。虽然本研究通过词元化和backflow轨道构建，为复合希尔伯特空间的编码提供了更清晰的物理直觉，但Transformer内部复杂的多头自注意力机制所学习到的具体关联模式仍然难以直接解释。开发能够解释NQS学习到的量子态物理性质的工具和理论方法是一个持续的挑战。
公共代码库的缺失：
- 本论文中没有提供Transformer NQS实现代码的公开仓库链接，这是 reproducibility (可复现性) 和 community adoption (社区采纳) 的一个重要限制。缺乏可访问的代码使得其他研究人员难以直接复现结果、验证方法或在此基础上进行扩展。虽然DMRG部分使用了开源的TeNPy库，但核心的NQS部分仍然是私有的。
基态与激发态的全面探索：
- 本研究展示了三重态能隙的计算，初步探索了激发谱。然而，VMC方法通常主要用于寻找基态，全面探索连续激发谱或高阶激发态仍然是NQS的一个挑战。区分真正的激发态和变分赝像需要更精细的方法，例如，结合实时间演化、量子态层析成像或针对特定激发态进行投影。
符号问题与几何阻挫：
- 尽管VMC通过采样 |Ψ|^2 规避了费米子“符号问题”的直接困难，但精确学习波函数相位对描述许多费米子系统至关重要，尤其是在强阻挫或非平庸拓扑的系统中。如果相位的学习不够精确，即使能量结果看起来很好，也可能无法捕捉到正确的物理性质。ALM模型可能相对不那么受阻挫影响，但对于更复杂的模型，这仍然是一个潜在挑战。
更复杂复合希尔伯特空间的适用性：
- ALM的局域希尔伯特空间维度相对较小 (V=16)。对于具有更多不同类型自由度（如多轨道、电子-声子耦合）或每个自由度具有更多态（如高自旋）的系统，词元化方案的复杂性以及Transformer处理这些更丰富信息的能力仍需进一步验证。

总的来说，本研究是Transformer NQS在复杂量子系统应用方面的重要进展，但上述局限性也为未来的研究指明了方向。

5. 其他你认为必要的补充

5.1 意义与影响

本研究在量子多体物理和机器学习的交叉领域具有深远的意义和潜在影响，主要体现在以下几个方面：

突破复合希尔伯特空间挑战： 传统NQS在处理同时包含自旋和费米子等多种自由度的复合局域希尔伯特空间时面临显著困难。本研究通过创新的“词元化”策略和基于Transformer的backflow轨道构建，首次提供了一个优雅且高效的解决方案，实现了自旋和费米子自由度的统一编码和相互作用描述。这为模拟真实材料中普遍存在的、具有复杂局域自由度的系统（如重费米子、多轨道材料等）开辟了新途径。
统一且灵活的变分框架： 过去，研究人员常需为不同类型的自由度或不同模型设计特定的参数化方案。本方法提供了一个通用的、基于Transformer的统一架构，能够自洽地学习格点内部和格点之间的复杂关联，而无需进行繁琐的模型特定调整。这种灵活性和可迁移性极大地提高了NQS方法的普适性。
成功借鉴NLP前沿技术： 将Transformer这一在自然语言处理领域取得巨大成功的先进深度学习架构，创造性地引入量子多体物理。这不仅展示了跨学科知识迁移的巨大潜力，也为量子物理研究引入了处理复杂序列数据和捕捉长程依赖的强大工具。
克服周期边界条件（PBC）和二维系统难题： 传统张量网络方法（如DMRG）在处理PBC和二维系统时面临计算成本呈指数级增长的挑战。本研究明确指出Transformer NQS在PBC下具有与开放边界条件（OBC）媲美的精度，并且收敛到热力学极限的速度更快，其对系统尺寸的依赖性显著减弱。这一优势对于精确研究热力学极限下的物理性质、避免边界效应以及最终扩展到二维甚至更高维度的强关联系统至关重要，为直接模拟二维铜酸盐的伪能隙问题提供了新的希望。
深化对辅助层模型（ALM）的理解： 本研究对ALM的相图进行了首次系统性表征，揭示了其丰富的物理现象，包括Luttinger液体（LL）相、近藤屏蔽的LL*相（对应二维系统中的分数化费米液体或伪能隙态），以及自旋能隙打开的Luther-Emery（LE）相。这些发现不仅完善了ALM的理论图像，也通过与二维铜酸盐相图的类比，加深了我们对高温超导机制的理解。
推动量子模拟与材料科学发展： 作为一种高度准确和可扩展的变分方法，Transformer NQS有望成为未来量子模拟和材料设计的重要工具。它为研究多轨道模型、电子-声子耦合系统、拓扑材料以及其他具有复杂相互作用和异构结构的强关联系统提供了强大平台。

5.2 与其他NQS方法的比较

本研究提出的Transformer NQS在处理复合希尔伯特空间方面，相比其他NQS方法具有显著优势：

与受限玻尔兹曼机 (RBM) NQS的对比：
- RBM的优点： 作为最早期的NQS形式之一，RBM在自旋系统（如海森堡模型）中表现良好，并且相对简单易于实现。它们能够有效地捕捉局域关联。
- RBM的局限性： RBM在处理复合希尔伯特空间时，通常需要复杂的输入编码或将不同自由度分别处理，缺乏统一性。其表达能力在捕捉长程、非局域关联方面通常不如Transformer，且并行处理效率有限。对于费米子系统，RBM通常需要结合Jastrow因子或斯莱特行列式，其与费米子特性的结合不如本研究的backflow机制自然。
与卷积神经网络 (CNN) NQS的对比：
- CNN的优点： CNN在捕捉局域关联方面非常高效，尤其适用于具有平移不变性的格点系统。在二维自旋NQS中，CNN常用于构建Jastrow因子。
- CNN的局限性： CNN通过固定大小的卷积核来捕捉信息，因此在捕捉长程依赖或处理异构结构（如复合希尔伯特空间）时效率较低。要捕捉长程关联，需要堆叠多层CNN，这可能导致感受野过大而降低效率。其输入通常也需要特定于模型的编码。
与循环神经网络 (RNN/LSTM) NQS的对比：
- RNN的优点： RNN通过序列处理的方式自然地捕捉长程依赖。LSTM和GRU等变体可以有效解决长程梯度消失问题，已被应用于NQS。
- RNN的局限性： RNN的顺序性限制了其并行计算能力，在处理长序列时效率低于Transformer。对于复合希尔伯特空间，虽然可以通过将格点自由度线性化为序列来处理，但其输入编码的统一性和表达能力可能不及Transformer的词元化和自注意力机制。
与传统费米子NQS (例如，斯莱特-贾斯特罗) 的对比：
- 斯莱特-贾斯特罗 (Slater-Jastrow) NQS： 将斯莱特行列式与Jastrow因子相结合，其中Jastrow因子（通常由神经网络参数化）用于捕捉电子关联。固定单粒子轨道时，此方法相对简单。通过神经网络参数化单粒子轨道或backflow变换（如Luo & Clark的工作），可以增强其表达能力。
- 本研究的优势： 本研究的Transformer NQS创新之处在于，它通过Transformer的输出动态地生成“backflow”费米子轨道，这些轨道不仅捕捉了电子关联，还巧妙地编码了自旋背景信息（即轨道依赖于自旋变量）。这种深度的自旋-费米子耦合是传统斯莱特-贾斯特罗NQS难以实现的，使其在处理ALM这类系统时更具物理合理性和精确性。
与张量网络 (DMRG) 的对比：
- DMRG的优点： 对于一维系统和开放边界条件，DMRG具有无与伦比的精度和效率，是目前公认的基准方法。它能准确计算基态能量、关联函数和激发谱。
- DMRG的局限性： 对于二维系统和周期边界条件，DMRG的计算成本急剧增加，键合维度呈指数增长，使其难以处理大规模或复杂拓扑结构。这限制了其在热力学极限下研究二维物理的能力。
- Transformer NQS的优势： 本研究明确展示了Transformer NQS在PBC下相对于DMRG的计算优势。NQS在PBC下能够以可比的精度快速收敛到热力学极限，且受系统尺寸的影响较小。这使其成为探索二维和PBC系统物理的新利器，弥补了DMRG的不足。

5.3 未来方向与开放问题

本研究为Transformer NQS在强关联系统中的应用开辟了广阔前景，同时也引出了许多值得探索的未来方向和开放问题：

二维甚至更高维度系统的可扩展性：
- 如何优化Transformer NQS，使其在二维甚至三维格点系统上实现高效且大规模的模拟？尽管“分块注意力”提高了效率，但 N × N 的二次方缩放对于非常大的 N 仍然是挑战。可以探索更先进的注意力机制，如稀疏注意力、局部注意力、线性注意力或层次化注意力，以实现接近线性甚至线性的计算复杂度。
- 在二维系统中，如何设计有效的MCMC采样策略，以确保对大规模希尔伯特空间的充分探索？
更复杂材料体系的模拟：
- 将该框架应用于包含更多自由度（如轨道、电荷、声子）或更复杂相互作用（如长程库仑相互作用）的真实材料哈密顿量。例如，多轨道Hubbard模型、电子-声子耦合系统。
- 探索如何将该方法与密度泛函理论（DFT）或动力学平均场理论（DMFT）等从头算方法相结合，以实现多尺度模拟， bridging microscopic models with realistic materials.
超越基态的探索：
- 系统性地计算和分析激发谱，包括连续谱和高阶激发。可以结合虚时间演化、Lanczos方法或对称投影等技术，更全面地探索系统的动力学性质和元激发。
- 研究NQS在有限温度下的行为，例如通过热场动力学（Thermal Field Dynamics）框架，以模拟更真实的实验条件。
相变与临界现象的深入研究：
- 本研究发现了ALM中的多个量子相变。未来可以利用Transformer NQS深入研究这些临界点的性质，包括临界指数、普适标度律等，以期发现新的量子临界现象。
- 研究在具有几何阻挫的系统中Transformer NQS的表现，以及它如何处理复杂的基态简并和激发模式。
NQS的可解释性与物理提取：
- 开发更有效的工具和方法，以从Transformer NQS的参数和中间表示中提取物理洞察力。例如，如何从注意力权重中推断出有效相互作用范围？如何从backflow轨道中提取准粒子特性？
- 将NQS与其他机器学习方法相结合，例如因果推断（Causal Inference），以识别哈密顿量中对特定物理现象至关重要的相互作用。
与其他数值方法的融合：
- 探索将Transformer NQS与DMRG或其他张量网络方法相结合，形成混合方法，以利用各自的优势（例如，DMRG处理一维精度，NQS处理高维可扩展性）。
- 结合动力学平均场理论（DMFT），将Transformer NQS作为杂化函数求解器，处理DMFT中的局域量子问题。
拓扑相的探索：
- 将Transformer NQS应用于拓扑物质相的识别和表征，例如量子霍尔效应、拓扑绝缘体和拓扑超导体。NQS在学习波函数相位方面的能力对于区分这些拓扑相至关重要。
不同词元化方案的探索：
- 本研究采用了一种将所有局域自由度组合成单个整数词元的方案。可以探索其他词元化策略，例如，将自旋和费米子作为格点内的不同“子词元”，并设计多层次的Transformer，以期进一步提高性能或可解释性。

通过解决这些开放问题和探索这些未来方向，Transformer NQS有望成为强关联量子多体物理领域不可或缺的工具，为理解复杂量子现象和发现新材料特性提供前所未有的能力。