来源论文: https://arxiv.org/abs/2606.04608v1 生成时间: Jun 05, 2026 06:18
执行摘要
在凝聚态物理与量子化学的交叉领域,超导-强关联杂化纳米结构(如耦合到超导电极的量子点分子簇或超导表面上的磁性吸附原子阵列)因其展现出超导配对、库仑排斥与磁性相互作用的多体竞争,成为了构建拓扑量子计算硬件(如 Majorana 费米子器件)和超导量子限域器件的核心平台。然而,这类体系由于存在超导配对项($d^\dagger d^\dagger$ 和 $dd$),在传统的量子多体计算中面临粒子数不守恒的严峻挑战,导致主流的高效变分算法(如限制在固定粒子数子空间的费米子神经网络量子态 NQS)难以直接应用。
近期发表于 SciPost Physics 的研究工作 “Correlated States in Quantum Dot Clusters Coupled to a Common Superconductor” 攻克了这一技术瓶颈。作者通过引入一种巧妙的局部正则变换(对偶旋转基底),成功将具有超导配对相互作用的粒子数不守恒哈密顿量,精确映射为一个粒子数完全守恒的等效强关联费米子系统(表现为具有局域吸引相互作用和有效自旋翻转跳跃的系统)。
基于这一映射,该研究联合应用了精确对角化(ED)、**密度矩阵重整化群(DMRG)以及基于现代机器学习的神经网络量子态变分蒙特卡洛(NQS-VMC)**方法,系统性地探究了一维量子点链和二维量子点超限域晶格的基态相图。研究不仅在非相互作用极限下解析推导出了有效能隙关闭的高对称条件(HSC),还在强相互作用下发现并界定了三个性质迥异的关联区间:
- 平凡超导单态区间(Trivial BCS Singlet Phase);
- 强关联有效海森堡区间(Strongly Correlated Heisenberg Regime);
- 临界中间区间(Critical Intermediate Regime)。
特别地,在一维链中,中间区间表现为频繁的单态-双态相变,且在热力学极限下呈现无能隙行为;而在二维簇中,体系涌现出极为鲁棒的磁性三重态(Triplet)以及更高自旋的基态。这一工作不仅深化了对多通道 Andeev 分子及 Yu-Shiba-Rusinov (YSR) 态关联效应的物理认知,更确立了费米子反流(Neural Backflow)神经网络波函数作为求解高维、复杂强关联超导纳米结构通用、高效工具的学术地位。
1. 核心科学问题、理论基础、技术难点与方法细节
1.1 核心科学问题:多物理量竞争下的纳米尺度杂化态
在纳米尺度的超导-量子点杂化体系中,存在三个处于同一能量量级的竞争物理效应:
- 近邻配对能 $\Gamma$:超导衬底或电极通过近邻效应在量子点(QD)上诱导出的库珀配对关联,倾向于将量子点驱使入无磁性的 BCS 超导单态。
- 局域库仑排斥 $U$:局域电荷涨落受阻,强烈的单晶格排斥能倾向于锁定电荷,诱导局域自旋磁矩,引发单粒子态(双重态,Doublet)或磁性关联。
- 量子相干跳跃 $t$ 键合:量子点之间的电子隧道效应,倾向于形成离域的分子轨道。
这三者的非平凡竞争不仅发生在单个杂质上(即经典的超导 Anderson 杂质模型及其 YSR 物理),当多个量子点组成簇(Cluster)或一维/二维阵列时,非局域的库珀对拆分过程(Cooper pair splitting,其强度由非局域配对参数 $\zeta\Gamma$ 表征)更引入了极其复杂的空间关联。如何在理论上精确、无偏地求解这些具备空间多维度、强关联、且配对与排斥能并存的纳米结构基态,是本领域的重大瓶颈。
1.2 理论基础:超导原子极限下的哈密顿量
为了使物理图像清晰且可定量计算,本文采用了**超导原子极限(Superconducting Atomic Limit, SC-AL)**描述。在此极限下,体超导能隙 $\Delta \rightarrow \infty$,超导衬底的准粒子连续谱被积掉,其效应完全等效为量子点上自洽诱导的局域和非局域配对势。所得的有效多体哈密顿量形式为:
$$\mathcal{H} = \sum_{j=1}^{L} \sum_{\sigma} \epsilon_j n_{j\sigma} - \sum_{i=1}^{L}\sum_{j\neq i}^{L} \sum_{\sigma} t_{ij} d^\dagger_{i\sigma} d_{j\sigma} + \sum_{j=1}^{L} U_j n_{j\uparrow}n_{j\downarrow} + \sum_{i=1}^{L-1}\sum_{j>i}^{L} W_{ij} (n_{i\uparrow}+n_{i\downarrow})(n_{j\uparrow}+n_{j\downarrow}) - \sum_{i=1}^{L}\sum_{j\neq i}^{L} \Gamma_{ji} (d^\dagger_{i\uparrow}d^\dagger_{j\downarrow} + d_{i\downarrow}d_{j\uparrow}) - \sum_{j=1}^{L}\Gamma_{jj}(d^\dagger_{j\uparrow}d^\dagger_{j\downarrow} + d_{j\downarrow}d_{j\uparrow})$$其中,各项的物理含义如下:
- $d^\dagger_{j\sigma}$ ($d_{j\sigma}$) 为量子点 $j$ 上自旋 $\sigma$ 的电子产生(湮灭)算符,$n_{j\sigma} = d^\dagger_{j\sigma} d_{j\sigma}$ 为数算符。
- $\epsilon_j$ 为调控电荷填充的门电压(化学势)。
- $t_{ij}$ 为量子点间的直接隧道跳跃项。
- $U_j$ 为局域库仑排斥(充电能)。
- $W_{ij}$ 为点间静电容电容耦合(在本研究的核心模型计算中设为0)。
- $\Gamma_{jj} \equiv \Gamma$ 代表超导衬底在量子点 $j$ 上诱导的局域配对关联。
- $\Gamma_{ij} = \zeta\Gamma$(其中 $\zeta \in [-1, 1]$)描述非局域超导配对,即一个库珀对拆分并注入到不同的量子点 $i$ 和 $j$ 上的相干过程。
1.3 技术难点:配对项导致的粒子数守恒破缺与维数灾难
对于量子多体计算,尤其是最先进的变分蒙特卡洛(VMC)与神经网络量子态(NQS),粒子数不守恒是一个极其棘手的问题。原因如下:
- 变分波函数构建困难:主流的费米子 NQS 架构(例如 Slater 行列式、Jastrow-Slater 网络)通常将波函数显式约束在特定的粒子数子空间中。若要处理不守恒体系,常规路线是使用极其昂贵的 Pfaffian(波 Pfaffian)变分波函数或诉诸 Jordan-Wigner 变换将费米子问题映射到自旋 1/2 问题。然而,在高维空间(2D),Jordan-Wigner 变换会引入高度非局域的长程自旋相互作用,导致神经网络的表达能力和训练稳定性急剧恶化。
- 对称性阻碍算法性能:缺少全局 $U(1)$ 电荷守恒对称性,意味着无法对大尺寸哈密顿量进行粒子数块对角化,从而极大限制了精确对角化(ED)和 DMRG 的最大可计算尺寸,计算复杂度随着空间位点数 $L$ 指数暴涨。
1.4 方法细节:拯救对称性的局部正则变换
为攻克粒子数不守恒的技术红线,本文引入了一种极其优雅的幺正正则变换(或称部分粒子-空穴变换),该变换仅作用于自旋向下($\downarrow$)的电子通道,而对自旋向上($\uparrow$)的通道保持不变:
$$d^\dagger_{j\uparrow} \rightarrow \tilde{d}^\dagger_{j\uparrow}, \quad d_{j\uparrow} \rightarrow \tilde{d}_{j\uparrow}$$$$d^\dagger_{j\downarrow} \rightarrow \tilde{d}_{j\downarrow}, \quad d_{j\downarrow} \rightarrow \tilde{d}^\dagger_{j\downarrow}$$通过这一简单而绝妙的映射,我们来考察物理算符的变化:
- 局域自旋向上数算符保持不变:$n_{j\uparrow} \rightarrow \tilde{n}_{j\uparrow}$。
- 局域自旋向下数算符发生反转:$n_{j\downarrow} \rightarrow 1 - \tilde{n}_{j\downarrow}$。
- 最关键的是,原始的超导配对项变为了自旋翻转跳跃项: $$d^\dagger_{i\uparrow}d^\dagger_{j\downarrow} + d_{i\downarrow}d_{j\uparrow} \rightarrow \tilde{d}^\dagger_{i\uparrow}\tilde{d}_{j\downarrow} + \tilde{d}^ \dagger_{j\downarrow}\tilde{d}_{i\uparrow}$$
- 原始体系的自旋投影算符 $S_z = \frac{1}{2} \sum_j (n_{j\uparrow} - n_{j\downarrow})$ 变为了旋转基底下的总粒子数算符(减去一常数): $$S_z \rightarrow \frac{1}{2} \sum_j (\tilde{n}_{j\uparrow} + \tilde{n}_{j\downarrow} - 1) = \frac{1}{2} (\tilde{N}_f - L)$$
由于哈密顿量不含自旋轨道耦合和 Zeeman 磁场,原始体系具有严格的 $S_z$ 守恒(即 $[H, S_z] = 0$)。这意味着,在正则旋转后的表象中,等效哈密顿量 $\tilde{\mathcal{H}}$ 具有严格的总粒子数 $\tilde{N}_f$ 守恒!
经过变换后,旋转空间中的等效哈密顿量为:
$$\tilde{\mathcal{H}} = \epsilon \sum_{j=1}^{L} (\tilde{n}_{j\uparrow} - \tilde{n}_{j\downarrow}) - t \sum_{\langle i,j \rangle}\sum_{\sigma} (\tilde{d}^\dagger_{i\sigma}\tilde{d}_{j\sigma} + \text{H.c.}) + \frac{U}{2}\sum_{j=1}^{L} (\tilde{n}_{j\uparrow} - \tilde{n}_{j\downarrow})^2 - \Gamma \sum_{j=1}^{L} (\tilde{d}^\dagger_{j\uparrow}\tilde{d}_{j\downarrow} + \text{H.c.}) - \zeta\Gamma \sum_{\langle i,j \rangle} (\tilde{d}^\dagger_{j\uparrow}\tilde{d}_{i\downarrow} + \tilde{d}^\dagger_{i\uparrow}\tilde{d}_{j\downarrow} + \text{H.c.})$$(其中忽略了无损物理的常数能量平移)。该等效模型仅包含粒子数守恒的动能、局域自旋翻转项、近邻有效单态配对转移,以及由排斥力 $U$ 转变而来的局域非简并吸引能(当 $\tilde{n}_{j\uparrow}=\tilde{n}_{j\downarrow}$ 时能量更低)。这就允许研究者直接套用标准的固定粒子数 $\tilde{N}_f$ 的多体数值算法。
1.5 变分蒙特卡洛与神经网络量子态(NQS)
借由上述变换,作者得以引入基于现代 JAX 框架和 NetKet 库的费米子神经网络量子态(Fermionic NQS)算法。核心在于构建变分波函数 $\Psi_\theta(n)$,其中 $\theta$ 代表神经网络的权重与偏置参数。本文重点对比并采用了以下先进架构:
Jastrow-Slater 架构 (JS-NQS)
基准的变分波函数形式为:
$$\Psi_{\text{JS}}(n) = J(n; \theta) \det A(n)$$其中,$\det A(n)$ 是传统的 Slater 行列式,用来保证费米子的反对称性,其单粒子轨道矩阵 $M \in \mathbb{C}^{N_{\text{orb}} \times \tilde{N}_f}$ 作为变分参数进行优化。$J(n; \theta)$ 是一个正定的 Jastrow 因子,由一个多层前馈神经网络或受限玻尔兹曼机(RBM)参数化,用于刻画多体电荷与自旋关联。然而,JS-NQS 的局限性在于其** nodal surface(多体波函数的零能交界面)完全由单粒子轨道 $M$ 锁定**,神经网络无法动态调整费米子的负号结构。
神经网络反流架构 (Neural Backflow, BF-NQS)
为了解决 Slater 行列式 nodal surface 僵化的问题,本工作引入了高度创新的费米子反流(Backflow)技术。其基本思想是将单粒子轨道矩阵变为多体配置相关(Configuration-dependent)的函数:
$$\Psi_{\theta}(n) = \det [A_\theta(n)], \quad A_\theta(n) = [M + F_\theta(n)]_{R(n)}$$这里,$M$ 为静态轨道矩阵,$F_\theta(n)$ 是一个由前馈神经网络(FFN)生成的非线性修正矩阵,输入为当前的费米子占据配置向量 $n \in \{0,1\}^{N_{\text{orb}}}$。反流变换物理上对应于将费米子“穿衣”重整化为准粒子,准粒子的有效波函数不仅取决于自身的空间轨道,还实时受到周围其他粒子排布的动态调制。这使得神经网络能够灵活变分优化 nodal surface,极大地提升了处理强关联、重叠相干等极难物理区间时的计算精度。
2. 关键 Benchmark 体系、计算所得数据与性能数据
2.1 无相互作用极限下有效能隙关闭的严格条件
在非相互作用极限下($U = 0, W = 0$),该模型可以通过 Bogoliubov-de Gennes (BdG) 变换和 Fourier 变换精确求解。在热力学极限下($L \rightarrow \infty$,周期性边界条件),一维/二维晶格的 BdG 单粒子准粒子能谱为:
$$E_{\text{BdG}}(\mathbf{k}) = \pm \sqrt{(\epsilon - t\gamma_\mathbf{k})^2 + \Gamma^2(1 + \zeta\gamma_\mathbf{k})^2}$$其中对一维链 $\gamma_k = 2\cos(k)$;对二维正方晶格 $\gamma_\mathbf{k} = 2[\cos(k_x) + \cos(k_y)]$。
分析能隙关闭条件(即 $E_{\text{BdG}}(\mathbf{k}) = 0$):
- 非平凡能隙关闭要求根号下的两项同时为 0。只有在满足 高对称条件(High-Symmetry Condition, HSC) 时,即: $$t = -\epsilon\zeta$$ 能隙才有可能关闭。对于满足 HSC 的系统,能谱退化为关于 $\zeta$ 的线性形式: $$E_{\text{BdG}}^{\text{HSC}}(\mathbf{k}) = \pm |1 + \zeta\gamma_\mathbf{k}| \sqrt{\epsilon^2 + \Gamma^2}$$
- 能隙关闭的临界点(即零能交叉点)要求 $\gamma_k = -1/\zeta$。由于在一维下 $\gamma_k \in [-2, 2]$,在二维下 $\gamma_\mathbf{k} \in [-4, 4]$,这意味着:
- 一维量子点链中,能隙关闭要求 $|\zeta| \ge 1/2$
- 二维正方晶格中,能隙关闭要求 $|\zeta| \ge 1/4$
这一结论在有限尺寸(Open Boundary Conditions, OBC)量子点簇中同样适用,其单粒子本征值由离散化波动波数给出。当体系偏离 HSC 条件(如 $t \neq -\epsilon\zeta$)时,BdG 能隙保持开启,无任何零能交叉,表明高对称点是新奇拓扑和相变性质的源泉。这一解析预测完美对应了论文图 1 与图 2 中谱流的演化特征。
2.2 一维量子点链的相图与三大区间特征
在 $U \neq 0$ 的强关联情况下,一维开放量子点链(OBC)的 $\zeta-U$ 相图展现出独特的叶片状(Leaf-like)多相竞争结构(见论文图 4)。基态完全限制在总自旋 $S=0$(单态)和 $S=1/2$(双重态)子空间中。随着非局域配对能 $\zeta$ 的增大,体系可以划分为三个代表性区间:
1. 局域超导 BCS 单态区间(Trivial BCS Singlet Regime)
- 范围:小 $U$ 且 $\zeta < 1/2$(一维)或 $\zeta < 1/4$(二维),或 $\zeta \rightarrow 0, U < 2\Gamma$。
- 物理特征:每个量子点相对独立,受局域近邻超导能 $\Gamma$ 控制,基态波函数可近似表示为局域极小关联的 BCS 乘积态形式: $$|\Psi_{\text{BCS}}\rangle = \prod_{j=1}^{L} \frac{1}{\sqrt{2}} (1 + d^\dagger_{j\uparrow}d^\dagger_{j\downarrow})|0\rangle$$
- 可观测物理量:局域纠缠熵 $S_{\text{vN}}$ 几乎严格为 0(如论文图 5(c1) 和图 6(a1) 所示);局域双占据度极高($\mathcal{D}/L \approx 0.5$)。所有 NQS 算法均能极高精度地复现此状态。
2. 强关联海森堡区间(Strongly Correlated Heisenberg Regime)
- 范围:大相互作用 $U > 2\Gamma$,且处于小 $\zeta$ 区间($\zeta \ll 1$)。
- 物理特征:局部双占据能级被强烈禁止,每个量子点倾向于呈现单占据($n_j \approx 1$)。在旋转基底中,这对应于局域双子(Doublon, 空位/双占据交替)的强关联。通过二阶摄动理论(详见下文强耦合推导),体系的低能物理被精确映射为一个有效各向同性反铁磁 spin-1/2 海森堡链: $$\mathcal{H}_{\text{eff}} = J \sum_{\langle i,j \rangle} \mathbf{S}_i \cdot \mathbf{S}_j, \quad J = \frac{2\zeta^2\Gamma^2}{U}$$
- 可观测物理量:局域纠缠熵展现出典型的海森堡长程对数纠缠,但纠缠熵绝对值整体偏低($\exp(S_{\text{vN}}) \sim 1.5 - 2.5$)。基态在一维奇数尺寸 $L$ 下锁定为具有一个非配对自旋的双重态($S=1/2$),偶数尺寸 $L$ 下锁定为高度关联的磁性单态($S=0$)。由于有效纠缠面积律成立且纠缠能级简单,DMRG 可在此区域实现极高精度收敛。
3. 临界中间区间(Critical Intermediate Regime)
- 范围:处于局域单态向强关联区过渡的边界,即 $|\zeta| \ge 1/2$ 且 $U \sim 2\Gamma$ 附近。
- 物理特征:随着链长 $L$ 增加,叶片状的单重态-双重态相边界极其密集,发生极为频繁的能级交叉。系统展现出极其庞大且复杂的空间多体纠缠。在热力学极限下,即便存在有限库仑排斥 $U$,该区间在 1D 链中亦是**无能隙(Gapless)**的,即电荷能隙 $\tilde{\Delta}_c \rightarrow 0$ 且自旋/部门能隙 $\tilde{\Delta}_s \rightarrow 0$(如图 6(c2) 所示)。此时局域纠缠熵急剧对数暴涨,对所有计算方法构成最严峻的挑战。
2.3 二维量子点晶格中的鲁棒三重态与高自旋基态
在二维正方晶格点簇中(如 $3\times3$ 纳米晶格),由于几何连通度增加(配位数最大为 4),超导关联与强库仑排斥竞争呈现出更具磁性吸引力的量子物相(见论文图 7 和图 8):
- 鲁棒的三重态(Triplet, $S=1$)和四重态(Quartet, $S=3/2$):在 $3\times3$ 晶格的 $\zeta-U$ 相图中,相较于一维链单纯的单态-双态振荡,二维点簇在 HSC 临界点附近涌现出极为宽阔、稳定的 $S=1$ 三重态叶片 以及高自旋基态(甚至存在 $S=4$ 的区域)。
- 物理起源:二维高连通度促进了相干的非局域库珀对拆分,产生的自旋极化电子在强相互作用阻碍双占据的前提下,通过残余的磁性交换相互作用在点簇内部实现了稳定的同向自旋排列(铁磁/亚铁磁对齐),这一机制在低维纳米结构中极为罕见,并已被精确对角化和 DMRG 计算严格确立。
2.4 各神经网络量子态变分性能评测与原始数据
为了建立在超导关联计算上的核心方法学优势,作者在最具代表性的 $3 \times 3$ 经典杂化结构体系上,对各种神经网络量子态(NQS)架构和 DMRG 进行了严格的精度 Benchmark 评测。评测结果总结于 Table 1 中,其中数据反映了六个独立随机初始化运行中得到的最小变分能量相对误差:
$$\text{Err} = \min_i \left| \frac{E_{20}^{(i)} - E_{\text{ex}}}{E_{\text{ex}}} \right|$$(这里,为了避免库仑势平移导致的人为误差,评测避开了哈密顿量常数移动 $-UL/2$ 项)。
各变分点物理参数配置:
- $A_{3\times3}$(平凡 BCS 单态点):$U=0.5\Gamma, \zeta=0.1, \tilde{N}_f=9$
- $B_{3\times3}$(磁性三重态点):$U=0.9\Gamma, \zeta=0.5, \tilde{N}_f=7$
- $C_{3\times3}$(强相互作用高缠绕点):$U=2.0\Gamma, \zeta=0.5, \tilde{N}_f=9$
- $\tilde{C}_{3\times3}$(HSC 上的相同基态相):$U=0.1\Gamma, \zeta=0.85, \tilde{N}_f=9$
- $D_{3\times3}$(极难强关联点):$U=4.0\Gamma, \zeta=0.5, \tilde{N}_f=8$
- $D_{3\times3}^{\text{TL}}$:对 $D_{3\times3}$ 点采用先进的**迁移学习(Transfer Learning)**协议变分优化的结果。
评测原始数据表:
| 变分架构名称 | 参数总量 (params) | $A_{3\times3}$ | $B_{3\times3}$ | $C_{3\times3}$ | $\tilde{C}_{3\times3}$ | $D_{3\times3}$ | $D_{3\times3}^{\text{TL}}$ |
|---|---|---|---|---|---|---|---|
| Jastrow | 153 | $1 \times 10^{-3}$ | $1 \times 10^{-1}$ | $4 \times 10^{-1}$ | $2 \times 10^{-1}$ | $4 \times 10^{-1}$ | $4 \times 10^{-1}$ |
| RBM ($\alpha=1$) | 360 | $2 \times 10^{-5}$ | $1 \times 10^{-1}$ | $2 \times 10^{-1}$ | $2 \times 10^{-1}$ | $4 \times 10^{-1}$ | $4 \times 10^{-1}$ |
| RBM ($\alpha=4$) | 1386 | $3 \times 10^{-4}$ | $1 \times 10^{-1}$ | $4 \times 10^{-1}$ | $9 \times 10^{-2}$ | $8 \times 10^{-1}$ | $7 \times 10^{-1}$ |
| Slater (纯变分单粒子行列式) | 162 | $2 \times 10^{-5}$ | $7 \times 10^{-3}$ | $1 \times 10^{-1}$ | $5 \times 10^{-7}$ | $4 \times 10^{-1}$ | $4 \times 10^{-1}$ |
| Jastrow-Slater ($h=L$) | 333 | $2 \times 10^{-5}$ | $1 \times 10^{-3}$ | $1 \times 10^{-2}$ | $7 \times 10^{-8}$ | $8 \times 10^{-2}$ | $6 \times 10^{-2}$ |
| Jastrow-Slater ($h=2L$) | 504 | $3 \times 10^{-5}$ | $7 \times 10^{-4}$ | $9 \times 10^{-3}$ | $1 \times 10^{-7}$ | $3 \times 10^{-2}$ | $2 \times 10^{-3}$ |
| RBM-Slater ($\alpha=1$) | 522 | $3 \times 10^{-7}$ | $4 \times 10^{-4}$ | $8 \times 10^{-3}$ | $3 \times 10^{-7}$ | $3 \times 10^{-2}$ | $2 \times 10^{-2}$ |
| RBM-Slater ($\alpha=4$) | 868 | $5 \times 10^{-6}$ | $4 \times 10^{-4}$ | $8 \times 10^{-3}$ | $4 \times 10^{-7}$ | $6 \times 10^{-2}$ | $2 \times 10^{-2}$ |
| RBM-Slater ($\alpha=10$) | 3582 | $6 \times 10^{-6}$ | $3 \times 10^{-4}$ | $7 \times 10^{-3}$ | $3 \times 10^{-6}$ | $5 \times 10^{-2}$ | $1 \times 10^{-2}$ |
| Multi-Slater ($n_s=4$) | 648 | $7 \times 10^{-4}$ | $7 \times 10^{-4}$ | $9 \times 10^{-2}$ | $8 \times 10^{-5}$ | $3 \times 10^{-1}$ | $2 \times 10^{-1}$ |
| Multi-Slater ($n_s=8$) | 1296 | $5 \times 10^{-4}$ | $4 \times 10^{-4}$ | $8 \times 10^{-2}$ | $8 \times 10^{-5}$ | $3 \times 10^{-1}$ | $2 \times 10^{-1}$ |
| Neural-Backflow ($h=L$) | 1953 | $1 \times 10^{-5}$ | $2 \times 10^{-5}$ | $1 \times 10^{-3}$ | $2 \times 10^{-7}$ | $5 \times 10^{-2}$ | $5 \times 10^{-3}$ |
| Neural-Backflow ($h=2L$) | 3582 | $3 \times 10^{-5}$ | $2 \times 10^{-5}$ | $1 \times 10^{-3}$ | $9 \times 10^{-8}$ | $4 \times 10^{-2}$ | $4 \times 10^{-3}$ |
| DMRG-MPS | 0 | 0 | 0 | 0 | 0 |
核心结论解读:
- 纯自旋关联网络在费米子体系下的溃败:纯 Jastrow 和纯 RBM 由于缺乏符号结构(Slater 行列式),在具有符号差问题的三重态($B_{3\times3}$)和强关联区间中,误差高达 $10^{-1}$ 甚至完全无法收敛(呈现符号灾难限制)。
- Slater 行列式多体波函数 nodal surface 的刚性问题:纯 Slater 行列式在弱相互作用极限 $\tilde{C}_{3\times3}$ 下具有极高精度(相对误差 $5 \times 10^{-7}$),但一旦相互作用增大到 $U=2\Gamma$ 和 $U=4\Gamma$($C_{3\times3}, D_{3\times3}$),其变分精度断崖式下跌(误差达到 $10^{-1}$ 级别),无法有效抓取关联能。
- 神经网络反流(Neural-Backflow)波函数的绝对性能霸权:反流网络在大相互作用、极难收敛的强关联三重态和临界点上,展现出了最为恐怖的精度(在 $B_{3\times3}$ 点精度高达 $2 \times 10^{-5}$,相较于行列式架构提升了 2 到 3 个数量级)。这有力地证明了神经网络动态自适应调整 nodal surface 的惊人变分表达力。
- 迁移学习对突破变分局域极小(Optimization Bottleneck)的显著贡献:在 $D_{3\times3}$ 极强关联点,直接随机初始化优化的 BF-NQS 误差为 $4 \times 10^{-2}$,但引入迁移学习路径($D_{3\times3}^{\text{TL}}$,自弱关联绝热扫描参数至强关联)后,误差直降一个数量级达到 $4 \times 10^{-3}$。这深刻表明强关联下 NQS 的主要瓶颈并不在神经网络的表达能力上限(Representability),而在于变分优化过程的非凸梯度陷阱(Trainability)。
3. 代码实现细节与复现指南
为了在量子化学或多体物理科研管线中复现此论文,本节提供了完整的计算部署指南与基于现代深度学习框架的底层哈密顿量构建范例。
3.1 核心复现框架部署
复现本研究需要以下核心软件包支持:
- Python 3.10+ (推荐使用 CUDA 11.8+ 的 GPU 硬件加速环境)。
- JAX (用于快速自动微分与高效变分蒙特卡洛计算)。
- NetKet 3.5+ (强大的神经网络量子态 VMC 计算平台,内置费米子支持,安装指令
pip install netket[jax])。 - TeNPy (Tensor Network Python 库,用于提供高精度的 DMRG-MPS 基准数据)。
- 开源复现代码仓库:作者已将完整的 Jupyter Notebook 计算脚本开源,存放在 GitLab,读者可直接克隆并查阅: https://gitlab.mff.cuni.cz/zondam/sc_qd_clusters
3.2 核心代码实现:旋转基底下的等效粒子数守恒哈密顿量构建
下面给出了一个利用 NetKet 定义该论文核心旋转哈密顿量(公式 6,一维 $L$ 晶格点)的模块化 Python 示例代码:
import numpy as np
import jax
import jax.numpy as jnp
import netket as nk
from netket.experimental import hilbert as experimental_hilbert
from netket.operator.fermion import create, destroy, number
def build_rotated_hamiltonian(L, t, U, Gamma, zeta, epsilon=0.0):
"""
构建论文公式 (6) 描述的正则变换后的粒子数守恒哈密顿量。
通过指标重标记将自旋和空间轨道合并为一个一维费米子希尔伯特空间:
j, \uparrow --> 2*j
j, \downarrow --> 2*j + 1
"""
# 定义双轨道(自旋)费米子希尔伯特空间,其粒子数固定
N_modes = 2 * L
# 设置总粒子数 N_f_tilde (在半填充时 N_f_tilde = L)
N_f_tilde = L
hi = nk.hilbert.SpinfulFermions(n_orbitals=L, s=0.5)
# 初始化哈密顿量操作算符
H = nk.operator.LocalOperator(hi, dtype=np.float64)
# 单点辅助函数,映射到一维费米子坐标
def up_idx(j): return 2 * j
def down_idx(j): return 2 * j + 1
# 1. 单点项: 化学势 ϵ 和 局域 Coulomb 能 U
for j in range(L):
n_up = number(hi, up_idx(j))
n_down = number(hi, down_idx(j))
# 化学势项: ϵ * (n_up - n_down)
H += epsilon * (n_up - n_down)
# Coulomb 吸引能: (U/2) * (n_up - n_down)^2
# 展开为: (U/2) * (n_up + n_down - 2 * n_up * n_down) (因为 n_up^2 = n_up)
H += (U / 2.0) * (n_up + n_down - 2.0 * n_up * n_down)
# 局域配对能项 (变为局域自旋翻转项): -Gamma * (c^\dagger_{j\uparrow} c_{j\downarrow} + c^\dagger_{j\downarrow} c_{j\uparrow})
H += -Gamma * (create(hi, up_idx(j)) * destroy(hi, down_idx(j)) +
create(hi, down_idx(j)) * destroy(hi, up_idx(j)))
# 2. 动能跳跃项 (t) 与 非局域配对拆分项 (zeta * Gamma)
# 仅考虑一维最近邻耦合,采用开边界条件 (OBC)
for j in range(L - 1):
# 费米子动能跳跃: -t * (c^\dagger_{i\uparrow} c_{j\uparrow} - c^\dagger_{i\downarrow} c_{j\downarrow} + H.c.)
# 注意:由于对自旋向下通道进行了粒子-空穴变换,动能跳跃符号在自旋向下通道发生改变!
for sigma_idx in [up_idx, down_idx]:
sgn = 1.0 if sigma_idx == up_idx else -1.0
# H.c.
H += -t * sgn * (create(hi, sigma_idx(j)) * destroy(hi, sigma_idx(j+1)) +
create(hi, sigma_idx(j+1)) * destroy(hi, sigma_idx(j)))
# 非局域超导配对转移项 (变为非局域自旋翻转跳跃):
# -zeta * Gamma * (c^\dagger_{j\uparrow} c_{i\downarrow} + c^\dagger_{i\uparrow} c_{j\downarrow} + H.c.)
term1 = create(hi, up_idx(j)) * destroy(hi, down_idx(j+1)) + \
create(hi, up_idx(j+1)) * destroy(hi, down_idx(j))
term2 = create(hi, down_idx(j+1)) * destroy(hi, up_idx(j)) + \
create(hi, down_idx(j)) * destroy(hi, up_idx(j+1))
H += -zeta * Gamma * (term1 + term2)
return hi, H
3.3 训练协议与迁移学习策略步骤
根据附录 E 给出的最先进的高精度训练协议,为了稳定通过 $D_{3\times3}$ 强关联区域的非凸优化瓶颈,应严格按以下步骤构建变分蒙特卡洛(VMC)计算流程:
初始化变分网络: 推荐使用
netket.models.FermionicBackflow作为模型(设置隐藏层特征维度 $h = 2L$)。一阶段变分:Adam 超参调优(400 代):
- 采用具有全局梯度剪切(
optax.clip_by_global_norm(0.3))的 Adam 优化器,防止大相互作用导致梯度爆炸。 - 学习率采用指数衰减策略,自 $lr_0 = 0.05$ 衰减至 $lr_1 = 0.004$。
- 蒙特卡洛采样器推荐使用专门维护粒子数守恒的费米子跳跃采样规则:
nk.sampler.MetropolisFermionHop(hi, graph=graph, d_max=1),以保证跳跃演化完美禁绝粒子数不守恒区。
- 采用具有全局梯度剪切(
二阶段变分:固定步长 SGD 收敛(600 代):
- 固定学习率设为 $lr_2 = 0.002$,用以对第一阶段得到的准最优波函数执行长程高频热化,消除局部噪音。
三阶段变分:自然梯度法(Stochastic Reconfiguration, SR)极限收敛(50 代):
- 切换至随机重构(SR,等效于虚时演化算符映射到神经网络切空间中的量子信息几何),学习率下调至 $lr_3 = 0.0001$,并施加微小的对角正则化平移(
diag_shift = 1e-3)。这一步可提供极高的保真度,迫使能量逼近精确对角化极限。
- 切换至随机重构(SR,等效于虚时演化算符映射到神经网络切空间中的量子信息几何),学习率下调至 $lr_3 = 0.0001$,并施加微小的对角正则化平移(
迁移学习(绝热扫描)实施:
- 不要直接随机初始化优化具有大 $U$(如 $U = 8\Gamma$)的 NQS。首先在弱相互作用极限下(如 $U = 4\Gamma$)将网络优化到完全收敛。
- 保存此时神经网络所有参数(
variables),以此作为初值加载至 $U = 8\Gamma$ 的下一级训练器中,该绝热扫描可极大降低优化陷阱,达到如Table 1中 $D^{\text{TL}}$ 所示的一点数级精度提升。
4. 关键引用文献与局限性批判评论
4.1 核心引用文献
本研究工作的理论大厦扎根于以下几篇最具里程碑意义的学术文献中:
- 神经网络量子态的开山之作:Carleo, G., & Troyer, M. (2017). Solving the quantum many-body problem with artificial neural networks. Science, 355(6325), 602-606. (奠定了 NQS-VMC 的理论大厦 [[32]])。
- 神经网络反流(Neural Backflow)波函数的理论源头:Luo, D., & Clark, B. K. (2019). Backflow Transformations via Neural Networks for Quantum Many-Body Wave Functions. Physical Review Letters, 122(22), 226401. (首次系统提出将 Backflow 与深度全连接网结合,突破费米子节点限制 [[53]])。
- 凝聚态物理基准 DMRG-MPS 的奠基:White, S. R. (1992). Density matrix formulation for quantum renormalization groups. Physical Review Letters, 69(19), 2863. (确立了一维关联基准方法 [[23]])。
- 超导近邻效应哈密顿量正则旋转方法的物理起源:Luitz, D. J., & Assaad, F. F. (2010). Weak-coupling continuous-time quantum Monte Carlo study of the single impurity and periodic Anderson models with s-wave superconducting baths. Physical Review B, 81(2), 024509. (最早提出对单个超导 Anderson 杂质进行部分空穴旋转的物理构想 [[15]])。
4.2 本工作局限性之深度批判
尽管本工作在技术路线和相图物理上取得了极其瞩目的进展,作为一个面向未来、立足于现实物理化学系统的理论路线,它依然带有以下不容忽视的局限性:
1. 超导原子极限(SC-AL)近似的系统性失真
SC-AL 假设超导能隙 $\Delta \rightarrow \infty$。在真实量子点器件中(如半导体纳米线耦合铝超导外壳),能隙 $\Delta$ 通常和局域库仑排斥能 $U$ 以及耦合强度 $\Gamma$ 处于同一量级($0.1 - 2.0 \text{ mev}$)。当 $\Delta$ 为有限大时,超导衬底中密度庞大的准粒子连续谱将发挥极强的动态耗散和退相干作用,激发著名的近藤物理(Kondo Effect)。SC-AL 近似会彻底忽略近藤自旋屏蔽(Kondo screening)与 BCS 配对之间的深层次、动态相干竞争,导致该理论模型得到的相图在强相互作用区间可能面临定性上的修正。
2. 对自旋-轨道耦合(SOC)与Zeeman磁场的完全排他性
本工作赖以生存的基础——旋转粒子数守恒正则变换,极其依赖 $S_z$ 的守恒性。如果在物理系统中引入:
- 自旋-轨道耦合(SOC,如 Rashba 相互作用):会导致 $d^\dagger_{i\uparrow}d_{j\downarrow}$ 与 $d^\dagger_{i\downarrow}d_{j\uparrow}$ 具有非等同相位或相互混杂,变换后将不可避免产生粒子数非守恒项(如 $\tilde{d}^\dagger\tilde{d}^\dagger$)。
- Zeeman 劈裂磁场:会直接打破自旋简并,导致等效粒子数守恒破缺。 而 SOC 和外部磁场正是实验上构建 Majorana 费米子(Kitaev 链)的最核心物理元素。因此,本方法无法直接推广用于模拟最受学术界关注的拓扑超导和 Majorana 零能模体系,应用场景受到严重限域。
3. 二维体系中反流网络(BF-NQS)变分梯度的极端维数灾难
虽然 Neural-Backflow 波函数在 2D 纳米晶格上表现出惊人的精度,但它的时间复杂度极高:由于轨道矩阵 $A_\theta(n) = M + F_\theta(n)$ 对每一个蒙特卡洛电子组态配置 $n$ 都是实时改变的,每次更新组态都需要重新计算整个前馈神经网络并重新执行一次代价昂贵的行列式重构(计算复杂度随体系尺寸 $L$ 呈三次幂,即 $\mathcal{O}(L^3)$ 缩放)。这意味着当体系规模从 $3\times3$(9个点)增大到 $6\times6$ 或 $10\times10$ 时,计算耗时将发生爆炸,其实际可扩展性弱于传统的张量网络(如 PEPS 或 2D-DMRG)。
5. 学术拓展:强耦合膨胀与有效海森堡模型的严格推导
本节针对论文附录 D 部分的核心理论推导进行详细论述,展示如何将大相互作用极限($U > 2\Gamma, \zeta \ll 1$)下的量子点超导模型严格映射为 Spin-1/2 各向同性反铁磁海森堡模型。
5.1 零级无扰动基底与能隙构建
当非局域配对拆分强度 $\zeta = 0$ 时,每个量子点之间完全去耦合。对于单个量子点(根据附录 B 的单点解):
- 零占据态 $|0\rangle$ 和双占据态 $|D\rangle \equiv \tilde{d}^\dagger_{\uparrow}\tilde{d}^\dagger_{\downarrow}|0\rangle$ 作为基态,其旋转表表象下的本征能量为: $$E_0 = E_D = 0$$
- 单占据自旋向上态 $|j,+\rangle$ 和自旋向下态 $|j,-\rangle$ 的本征能量被抬升: $$E_+ = \frac{U}{2} - \Gamma, \quad E_- = \frac{U}{2} + \Gamma$$ 因此,当库仑能 $U > 2\Gamma$ 时,单粒子占据态与基底(空态/双子态)之间存在着大小为 $\Delta_T = \frac{U}{2} - \Gamma$ 的巨大能隙。因此,在低能低激发极限下,低能希尔伯特子空间仅由每个点处于空态 $|0\rangle$ 还是双子态 $|D\rangle$ 构成的 $2^L$ 维空间张成。
5.2 二阶投影有效哈密顿量推导
我们将量子点链相邻两点组成的单键 $\langle i,j \rangle$ 作为研究对象,低能流形(Low-energy manifold)为:
$$\mathcal{P} = \text{span}\{ |D_i, 0_j\rangle, \ |0_i, D_j\rangle \}$$非局域配对势在旋转基底下表现为微扰项算符 $\mathcal{V}$(论文公式 66):
$$\mathcal{V} = -\zeta\Gamma ( \tilde{d}^\dagger_{j\uparrow}\tilde{d}_{i\downarrow} + \tilde{d}^\dagger_{i\uparrow}\tilde{d}_{j\downarrow} + \text{H.c.} )$$该算符将低能态通过相干自旋翻转跃迁,耦合到能量极高的虚中间态(单粒子态)上:
$$\mathcal{V} |D_i, 0_j\rangle = -\sqrt{2}\zeta\Gamma |T_{ij}\rangle$$$$\mathcal{V} |0_i, D_j\rangle = +\sqrt{2}\zeta\Gamma |T_{ij}\rangle$$其中虚激发态形式为:
$$|T_{ij}\rangle = \frac{1}{\sqrt{2}} ( |\uparrow_i, \uparrow_j\rangle - |\downarrow_i, \downarrow_j\rangle )$$该虚激发态相对于低能多体流形的激发能为两单粒子占据能量之和:
$$\Delta_T = E_+ + E_- = U$$我们应用标准的高阶微扰算符投影方法(Schrieffer-Wolff 变换或二阶有效哈密顿量公式):
$$\mathcal{H}_{\text{eff}}^{(2)} = - \mathcal{P} \mathcal{V} \mathcal{Q} \frac{1}{\mathcal{Q}\mathcal{H}_0\mathcal{Q} - E_0} \mathcal{Q} \mathcal{V} \mathcal{P} \approx - \frac{1}{U} \mathcal{P} \mathcal{V} \mathcal{V} \mathcal{P}$$这里,$\mathcal{Q} = 1 - \mathcal{P}$ 为虚激发流形投影算符。
1. 计算对角非齐次能量修正:
$$\Delta E_{\text{diag}} = - \frac{|\langle T_{ij} | \mathcal{V} | D_i, 0_j\rangle|^2}{U} = - \frac{2\zeta^2\Gamma^2}{U}$$2. 计算非对角相干双子跳跃矩阵元(Coherent Doublon Hopping):
$$\langle 0_i, D_j | \mathcal{H}_{\text{eff}}^{(2)} | D_i, 0_j\rangle = - \frac{\langle 0_i, D_j|\mathcal{V}|T_{ij}\rangle \langle T_{ij}|\mathcal{V}|D_i, 0_j\rangle}{U} = - \frac{(+\sqrt{2}\zeta\Gamma)(-\sqrt{2}\zeta\Gamma)}{U} = +\frac{2\zeta^2\Gamma^2}{U}$$因此,在低能子空间内,两点有效键哈密顿量呈现出如下精美紧凑的矩阵表达:
$$\mathcal{H}_{ij}^{\text{eff}} = - \frac{2\zeta^2\Gamma^2}{U} \begin{pmatrix} 1 & -1 \\ -1 & 1 \end{pmatrix}$$5.3 严格映射为自旋-1/2 Heisenberg 模型
为了将此低能物理推广至整个量子点多点长链,我们引入物理上用于表征“双占据/空占据”的硬核玻色子(Hard-core boson)算符 $b^\dagger_j$:
- $b^\dagger_j |0\rangle_j = |D\rangle_j$ (产生一个局域双子,电荷为 +2);
- $b_j |D\rangle_j = |0\rangle_j$ (湮灭一个双子);
- 双子数算符 $n_j = b^\dagger_j b_j$,且满足硬核自限制约束 $(b^\dagger_j)^2 = 0$。
将上述矩阵元素用玻色算符展开,我们立即得到整链的有效哈密顿量形式为:
$$\mathcal{H}_{\text{eff}} = - J \sum_{\langle i,j \rangle} (n_i + n_j - 2n_i n_j) + J \sum_{\langle i,j \rangle} (b^\dagger_i b_j + H.c.), \quad J = \frac{2\zeta^2\Gamma^2}{U}$$其中,第一项为对角项,它在物理上代表了当且仅当一个空位与一个双子相邻时能量下降 $-J$,即具有极强的反铁磁性 checkerboard(电荷棋盘格交替)排布能倾向;第二项描述了双子从一个点相干量子跃迁跳跃到邻近点的动力学。
利用经典的自旋松原-丰田(Matsubara-Matsuda)变换,将硬核玻色子算符严格等效映射到 Spin-1/2 泡利算符:
$$n_j = \frac{1 + \sigma^z_j}{2}, \quad b^\dagger_j = \sigma^+_j, \quad b_j = \sigma^-_j$$代入哈密顿量,经过极为精细的消项合并后,我们惊奇地发现所有局域非线性项在物理半填充(Half-filled)条件下完美抵消,最终严格且精确地退化为:
$$\mathcal{H}_{\text{eff}} = 2J \sum_{\langle i,j \rangle} \mathbf{S}_i \cdot \mathbf{S}_j - \frac{J}{2} N_b$$这便是凝聚态多体物理中大名鼎鼎的 一维 Spin-1/2 各向同性反铁磁 Heisenberg 链!这一具有里程碑意义的解析映射,已被论文图 10 和图 11 的大尺寸 DMRG 数值计算在极高精度下完美验证,它不仅证明了作者物理图像的深刻性,更为在超导表面上利用耦合量子点阵列或吸附分子磁体量子模拟复杂的海森堡自旋液体、非平凡磁孤子(Magnon)激发等前沿多体效应开辟了极其开阔的学术新蓝海。