来源论文: https://arxiv.org/abs/2605.28049v1 生成时间: May 28, 2026 12:38

执行摘要

在嘈杂中等规模量子（NISQ）时代，变分量子本征求解器（VQE）是求解分子基态能量最硬核、也最具前景的算法之一。然而，VQE 的成功极大程度上取决于试探波函数（Ansatz）的设计。传统的自适应方法（如经典的 ADAPT-VQE）虽然能通过“贪婪”地逐个添加算子来构建紧凑的电路，但其固有的局部寻优机制往往会忽略算子之间的协同效应（Latent Combinatorial Correlations），且在高精度要求下容易导致电路深度急剧膨胀，难以在真实的 NISQ 设备上运行。

最近由香港中文大学（深圳）李伟堂教授团队发表的论文 “Automated Unitary Coupled Cluster Circuit Design via Differentiable Quantum Architecture Search”，为这一瓶颈提供了全新的破局思路。该工作将经典机器学习中的**可微架构搜索（DARTS/DQAS）**引入到幺正耦合簇（UCC）电路设计中。通过将离散的算子选择问题松弛化为连续的概率分布优化，DQAS 实现了算子结构与变分参数在单次训练循环中的联合梯度优化。论文提出了两种互补的搜索范式：

DQAS-Global（全局模式）：同时对所有电路层的算子选择进行协同优化，能够发现超越单步贪婪选择的全局最优电路结构；
DQAS-Layerwise（层级模式）：采用滑动窗口机制，在增量构建电路的同时冻结历史优秀结构，极大地降低了计算复杂度，使其能完美扩展至更大、关联更强的分子系统。

基准测试（包含 $\text{BeH}_2$、$\text{H}_4$、$\text{LiH}$、$\text{H}_6$ 和 $\text{H}_2\text{O}$，规模横跨 8 至 14 个量子比特）表明：在紧凑电路区间内，DQAS 在能量精度和 CNOT 门数两方面均显著超越 ADAPT-VQE。特别是在 $\text{H}_2\text{O}$ 分子中，DQAS-Layerwise 实现了高达 2.7 倍的本征能量精度提升，并且在同等电路深度下实现了 13% 至 17% 的 CNOT 门数削减。此外，该方法的优势在硬件友好的量子比特激发（QEB）算子库上也得到了完美复现，论证了其强大的泛化性能。这项工作标志着自适应量子电路设计正式迈向了“全局梯度优化”的新阶段。

1. 核心科学问题、理论基础与技术细节

1.1 近期量子化学与 VQE 的瓶颈

在量子化学模拟中，变分量子本征求解器（VQE）的核心任务是通过经典的非线性优化器去最小化分子哈密顿量 $\hat{H}$ 在参数化波函数 $|\psi(\theta)\rangle$ 上的能量期望值：

$$E(\theta) = \frac{\langle\psi_0| \hat{U}^\dagger(\theta) \hat{H} \hat{U}(\theta) |\psi_0\rangle}{\langle\psi_0|\psi_0\rangle} \ge E_0$$

其中 $|\psi_0\rangle$ 通常为 Hartree-Fock（HF）参考态，$\hat{U}(\theta)$ 为参数化变分量子线路（Ansatz）。

在化学界，**幺正耦合簇单双激发（UCCSD）**波函数被公认为是最具物理启发性和系统可改进性的 Ansatz。标准的 UCCSD ansatz 可以写为：

$$\hat{U}_{\text{UCCSD}}(\theta) = \exp\left( \hat{T}(\theta) - \hat{T}^\dagger(\theta) \right)$$$$\hat{T} = \hat{T}_1 + \hat{T}_2 = \sum_{ia} \theta_i^a \hat{E}_i^a + \sum_{ijab} \theta_{ij}^{ab} \hat{E}_{ij}^{ab}$$

然而，对于一个拥有 $N$ 个轨道的活性空间，单双激发的算子总数按 $\mathcal{O}(N^4)$ 标度爆炸。如果直接在 NISQ 硬件上完整实现 UCCSD 电路，一阶 Trotter 展开所带来的 CNOT 门深度将迅速吞噬量子硬件的相干时间，导致强噪声淹没物理信号。

1.2 贪婪自适应算法的局限（ADAPT-VQE）

为了克服这一困难，Grimsley 等人提出了 ADAPT-VQE。其核心思想是“按需定制电路”：

预先定义一个费米子激发算子池 $\mathcal{P} = \{\hat{\tau}_1, \hat{\tau}_2, \dots, \hat{\tau}_M\}$；
在当前波函数 $|\psi_{n-1}\rangle$ 下，计算算子池中所有算子的能量梯度：
$$g_i = \left. \frac{\partial E(\vec{\theta}, \theta_i)}{\partial \theta_i} \right|_{\theta_i=0} = \langle\psi_{n-1}| [\hat{H}, \hat{\tau}_i] |\psi_{n-1}\rangle$$
选择梯度绝对值最大的算子 $\hat{\tau}_k$ 插入到电路的最前端，重新对所有累积的变分参数进行全局非线性优化；
重复上述步骤直至能量收敛或梯度低于设定阈值。

ADAPT-VQE 的物理盲区

尽管 ADAPT-VQE 取得了巨大成功，但它是一种典型的单步贪婪算法。它选择第 $n$ 个算子时，完全基于当前的局部梯度，而无法预知该算子与后续尚未加入的算子之间是否存在强烈的非线性相干作用。在强关联体系中，往往存在两个算子 $\hat{\tau}_A$ 和 $\hat{\tau}_B$，它们各自单独作用时的梯度极小（甚至由于对称性或遮蔽效应而为零），但如果将它们协同插入电路，却能产生巨大的电子关联能贡献。自适应贪婪搜索无法跨越这种局部的“梯度荒漠”，容易陷入次优的电路结构，或者被迫使用更长、更复杂的算子路径来弥补这一缺陷。

1.3 可微量子架构搜索（DQAS）的理论重构

为了从根本上解决离散算子选择的组合优化难题，本工作引入了可微量子架构搜索（DQAS）。其核心在于：将离散的算子索引转化为连续分布的概率参数，从而通过梯度下降法同时搜索电路拓扑结构与变分旋转参数。

1.3.1 连续松弛化（Continuous Relaxation）

设我们要构建一个包含 $L$ 层的 Ansatz，每一层 $l \in \{1, \dots, L\}$ 仅能从含有 $M$ 个算子组的池中选择一个算子组。我们为每一层 $l$ 引入一个连续的架构参数（Architecture Parameter）向量 $\vec{\alpha}^{(l)} \in \mathbb{R}^M$。该层选择第 $i$ 个算子组的概率通过 Softmax 函数进行归一化：

$$p(k_l = i | \vec{\alpha}^{(l)}) = \text{softmax}(\vec{\alpha}^{(l)})_i = \frac{e^{\alpha_i^{(l)}}}{\sum_{j=1}^M e^{\alpha_j^{(l)}}}$$

因此，一个完整的电路结构 $\mathbf{k} = (k_1, k_2, \dots, k_L)$ 的联合概率分布可以表示为层间相互独立的因子化分布：

$$P(\mathbf{k} | \boldsymbol{\alpha}) = \prod_{l=1}^L p(k_l | \vec{\alpha}^{(l)})$$

其中 $\boldsymbol{\alpha} = \{\vec{\alpha}^{(1)}, \dots, \vec{\alpha}^{(L)}\}$ 是整个搜索空间的连续架构参数。对于采样出的具体线路 $\mathbf{k}$，其对应的受控量子态为：

$$|\psi(\mathbf{k}, \vec{\theta})\rangle = \left( \prod_{l=1}^L e^{\theta_{k_l} \hat{\tau}_{k_l}} \right) |\psi_0\rangle$$

1.3.2 联合优化目标函数与梯度估计

DQAS 的联合优化目标是最小化在概率分布 $P(\mathbf{k} | \boldsymbol{\alpha})$ 下的期望能量：

$$\mathcal{L}(\vec{\theta}, \boldsymbol{\alpha}) = \mathbb{E}_{\mathbf{k} \sim P(\mathbf{k}|\boldsymbol{\alpha})} \left[ E(\mathbf{k}, \vec{\theta}) \right]$$$$E(\mathbf{k}, \vec{\theta}) = \langle\psi_0| \hat{U}^\dagger(\mathbf{k}, \vec{\theta}) \hat{H} \hat{U}(\mathbf{k}, \vec{\theta}) |\psi_0\rangle$$

在训练的每一个 Step 中，我们需要对变分参数 $\vec{\theta}$ 和架构参数 $\boldsymbol{\alpha}$ 进行联合更新：

变分参数 $\vec{\theta}$ 的梯度：可以直接通过反向传播算法（Reverse-mode Automatic Differentiation）穿透采样的电路结构求得：
$$\nabla_{\vec{\theta}} \mathcal{L}(\vec{\theta}, \boldsymbol{\alpha}) = \mathbb{E}_{\mathbf{k} \sim P(\mathbf{k}|\boldsymbol{\alpha})} \left[ \nabla_{\vec{\theta}} E(\mathbf{k}, \vec{\theta}) \right] \approx \frac{1}{K} \sum_{b=1}^K \nabla_{\vec{\theta}} E(\mathbf{k}^{(b)}, \vec{\theta})$$
这里 $K$ 是每步采样的 Batch 大小，$\mathbf{k}^{(b)}$ 是采样的第 $b$ 个具体电路结构。
架构参数 $\boldsymbol{\alpha}$ 的梯度：由于 $\mathbf{k}$ 的采样过程是离散的，无法直接应用链式法则。因此，本工作采用了经典强化学习中的 Score-Function Estimator（又称 REINFORCE 或 Naive Mean-Field (NMF) 估计器），并引入了 Batch Baseline 以大幅度降低估算梯度的方差：
$$\nabla_{\alpha_i^{(l)}} \mathcal{L}(\vec{\theta}, \boldsymbol{\alpha}) = \mathbb{E}_{\mathbf{k} \sim P(\mathbf{k}|\boldsymbol{\alpha})} \left[ \left( E(\mathbf{k}, \vec{\theta}) - b \right) \nabla_{\alpha_i^{(l)}} \ln P(\mathbf{k} | \boldsymbol{\alpha}) \right]$$$$b = \frac{1}{K} \sum_{b=1}^K E(\mathbf{k}^{(b)}, \vec{\theta})$$
利用 $\nabla_{\alpha_i^{(l)}} \ln P(\mathbf{k} | \boldsymbol{\alpha}) = \delta_{k_l, i} - p(k_l = i | \vec{\alpha}^{(l)})$，我们可以在经典模拟器中高效地完成架构更新。变分参数与架构参数的联合更新策略采用 Adam 优化器进行协调。

1.4 自旋对称性与算子分组（Spin-paired Grouping）

在量子化学中，真实的分子哈密顿量守恒自旋对称性（$S^2$ 与 $S_z$）。如果将每个单、双激发算子独立作为搜索基元，不仅会使搜索空间呈指数级增长，还会导致搜索出的电路严重违反自旋对称性。本工作提出了一套精妙的自旋配对算子分组策略：

将空间轨道相同的 $\alpha$ 自旋激发与 $\beta$ 自旋激发强制绑定为一个基本算子组。一个算子组内通常包含两个自旋配对的算子（共用同一个变分参数 $\theta$），或者在自旋对称不可约时仅包含一个算子。通过这种设计：

搜索空间的大小被直接减半；
搜索出的离散电路在结构上天然满足自旋对称性，极大提升了能量收敛的稳定性。

1.5 两种互补的设计策略：Global 模式 vs Layerwise 模式

为了应对不同规模的分子系统，DQAS 框架提供了两种完全不同的电路生成模式（其对比逻辑图可见论文 Figure 1）：

+-------------------------------------------------------------------------+
|                         DQAS-Global (全局搜索)                           |
|  - 一次性初始化 L 层的连续参数 {alpha^(1), ..., alpha^(L)}                |
|  - 所有层的算子概率分布同时进行梯度下降                                    |
|  - 优势：真正无偏的全局搜索，能发现极端复杂的非线性协同算子组合              |
|  - 劣势：当 L 较大时，多层联合采样的空间过大，极易遭遇梯度耗散/贫瘠高原现象    |
+-------------------------------------------------------------------------+
                                     │
                                     ▼ 引入滑动窗口增量思想
+-------------------------------------------------------------------------+
|                        DQAS-Layerwise (层级搜索)                         |
|  - 采用滑动窗口机制（设定窗口大小 k，每次推进步长 s）                     |
|  - 在当前生长阶段，仅联合优化窗口内的 k 个“软”（Soft）参数层              |
|  - 搜索收敛后，将前 s 层概率最大的算子固定（Commit/Freeze）并入最终电路    |
|  - 剩余的 k-s 层参数作为热启动（Warm-start）缓冲区保留至下一阶段            |
|  - 优势：将 L 维的大规模搜索拆解为一系列 k 维的局部子问题，完美解决可标度性 |
+-------------------------------------------------------------------------+

Layerwise 算法深度剖析

以下是 DQAS-Layerwise 策略的完整算法流程（Algorithm 1）：

初始化：空电路 $\mathcal{C} \leftarrow \emptyset$，冻结变分参数 $\vec{\theta}_{\text{fixed}} \leftarrow \emptyset$，热启动缓冲区 $\text{warm} \leftarrow \emptyset$。
循环生长（当当前电路大小 $|\mathcal{C}| < L$ 时）：
- 搜索阶段（Search Phase）：
  - 初始化当前窗口的 $k$ 层架构参数 $\vec{\alpha}^{(1)}, \dots, \vec{\alpha}^{(k)}$。其中前 $|\text{warm}|$ 层从 warm 缓冲区复制（热启动），后 $k-|\text{warm}|$ 层由高斯噪声随机初始化。
  - 在 $T$ 个 Epoch 的训练中，通过采样 $K$ 个子电路结构 $\mathbf{k}^{(b)}$ 计算期望能量：
    $$\bar{E} = \frac{1}{K} \sum_{b=1}^K E(\mathcal{C} \cup \mathbf{k}^{(b)}, \vec{\theta}_{\text{fixed}}, \vec{\theta}^{(1:k)})$$
  - 使用 Adam 共同更新当前窗口内的 $\{\vec{\alpha}^{(j)}, \vec{\theta}^{(j)}\}_{j=1}^k$，在此期间已固定的 $\vec{\theta}_{\text{fixed}}$ 保持不变。
- 提交阶段（Commit Phase）：
  - 对窗口中的前 $s$ 层进行确定性选择：$i^\star = \arg\max_i \alpha_i^{(j)}$ ($j \le s$)。
  - 将对应的算子 $\exp(\theta_{i^\star} \hat{\tau}_{i^\star})$ 追加到电路 $\mathcal{C}$ 中。
- 精细微调（Fine-tune）：
  - 保持当前电路结构 $\mathcal{C}$ 不变，使用经典高性能 BFGS 算法对所有已选算子的变分参数进行全局微调，并更新 $\vec{\theta}_{\text{fixed}}$。
- 更新缓冲区：
  - 将窗口中剩余的 $k-s$ 层的结构参数与微调后的 $\theta$ 写入 warm 缓冲区。
输出：返回最终电路 $\mathcal{C}$ 及其最优变分参数 $\vec{\theta}_{\text{fixed}}$。

2. 关键 Benchmark 体系、数据与本征能量性能评估

2.1 基准测试体系设置

为了严谨评估 DQAS 的优越性，论文在不同原子间距下，对多种经典分子体系进行了势能面（PES）和算子标度（Operator Scaling）计算，具体体系参数如下表所示（对应论文 Table 1）：

分子体系 (Molecule)	活性空间 (Active Space)	量子比特数 (Qubits)	采用算法 (Method)	算子池总大小 (Groups)
线性 $\text{H}_4$	$(4e, 4o)$	8	DQAS-Global	14
$\text{BeH}_2$	$(4e, 5o)$	10	DQAS-Global	25
$\text{LiH}$	$(4e, 6o)$	12	DQAS-Global	25
$\text{BeH}_2$ (展开空间)	$(4e, 6o)$	12	DQAS-Layerwise	39
线性 $\text{H}_6$	$(6e, 6o)$	12	DQAS-Layerwise	39
$\text{H}_2\text{O}$	$(4e, 8o)$	14	DQAS-Layerwise / QEB	58

所有哈密顿量均在 STO-3G 基组、Hartree-Fock 参考态下生成，通过 Jordan-Wigner 变换映射至量子比特。精确的 FCI（全组态相互作用）参考能量通过对稀疏哈密顿量矩阵做精确对角化求得。

2.2 DQAS-Global 的搜索动力学分析（LiH 案例）

论文首先以拉伸几何结构（$d = 2.20\text{ \AA}$）下的 $\text{LiH}$ 分子（6 算子组电路）为例，深度解剖了 DQAS-Global 的内部搜索机制。从论文 Figure 2 中可以清晰地观察到算法运行展现出的三个截然不同的动力学阶段：

快速收敛阶段（Early Concentration Phase, 0~50 Epochs）：由于初始架构参数 $\boldsymbol{\alpha}$ 由低振幅高斯噪声随机初始化，第一代采样线路中各算子的概率几乎均等。然而在极短的时间内（~50代以内），概率分布迅速收缩至少数几个能量梯度极大的关键算子上（如图 2(a) 中采样算子多样性骤降）。这表明 DQAS 在初期表现出与 ADAPT-VQE 极其相似的、由强梯度驱动的本地探索本领。
多样性恢复与全局探索阶段（Diversity Recovery Phase, 50~500 Epochs）：这是 DQAS 超越所有贪婪算法的核心所在。随着联合优化器的运行，架构参数 $\boldsymbol{\alpha}$ 的梯度开始纠正由于单纯瞬时梯度大而选中的次优算子。概率分布重新在全空间内展开，不同层级之间开始尝试各种前所未有的算子杂交组合。如图 2(a) 所示，此时每步采样的独特算子组数量从最低谷稳步回升，能量曲线继续以更快的斜率向下探底。
锁定收敛阶段（Stable Convergence Phase, >500 Epochs）：在 500 代之后，各层的选择概率逐渐分化。到了第 2000 代，各层的最大选择概率（Max Probability）均稳稳锁定在 $> 0.99$（见图 2(d)），整个概率模型完全退化为确定性的单一电路拓扑，能量曲线在 FCI 精确基准线（$-7.8454\text{ Ha}$）附近完美躺平。

2.3 势能曲线（PEC）与算子标度结果分析

2.3.1 线性 $\text{H}_4$ 分子（8 量子比特）

在强关联表征的线性氢链 $\text{H}_4$（$d = 0.80\text{ \AA}$，见论文 Figure 3）测试中，DQAS-Global 展现出了无可比拟的紧凑性优势：

在**仅使用 4 个算子组（8 个参数）**时，DQAS-Global 取得的本征能误差仅为 $7.26\text{ mHa}$，相比 ADAPT-VQE（$9.25\text{ mHa}$）降幅高达 22%。
当算子组增加到 5 个时，DQAS-Global 的误差进一步压缩到 $4.91\text{ mHa}$，而 ADAPT-VQE 仍停留在 $6.93\text{ mHa}$（DQAS 优势扩大至 29%）。
这有力地证明了，在电路深度被极度压缩的紧凑区间（Compact Regime），DQAS 通过全局多层联合优化发现的“协同算子组”在捕获关联能的效率上远远优于 ADAPT-VQE 的单步贪婪累加。

2.3.2 12 量子比特 $\text{LiH}$ 与 $\text{BeH}_2$

对于 $\text{LiH}$（$d=1.50\text{ \AA}$），DQAS-Global 在使用 6 个算子组时给出了 $0.25\text{ mHa}$ 的惊人精度，较 ADAPT-VQE（$0.52\text{ mHa}$）实现了整整两倍的精度提升。
对于相对简单的平衡态 $\text{BeH}_2$，两者的表现几乎一致（在 4 个算子组时均轻松穿透化学精度 $1.6\text{ mHa}$）。这表明对于弱关联系统，贪婪算法已足够高效；而越是面对强关联、复杂电子排布的系统，DQAS 的全局设计能力就越能发挥其耀眼的价值。

2.4 大分子体系下的 DQAS-Layerwise 表现

当体系规模扩大，DQAS-Global 面临极大的梯度弥散风险。此时，DQAS-Layerwise 的增量滑动窗口策略便成为了绝对的主角。论文在 14 比特的水分子（$\text{H}_2\text{O}$）和 12 比特的强关联 $\text{H}_6$ 链上对 Layerwise 进行了极限施压。

$\text{H}_2\text{O}$ 分子 (14 Qubits)（对应论文 Figure 4(i)）：在 $d = 1.00\text{ \AA}$ 的近平衡几何结构下，虽然两种算法均在 14 个算子组时迈过化学精度大关，但其误差表现天差地别：
- DQAS-Layerwise：本征能量误差低至 $0.70\text{ mHa}$。
- ADAPT-VQE：本征能量误差为 $1.52\text{ mHa}$（仅贴近化学精度边缘）。
- 当电路进一步加深至 16 个算子组时，DQAS-Layerwise 将误差消减至 $0.24\text{ mHa}$，而 ADAPT-VQE 缓慢收敛至 $0.65\text{ mHa}$，DQAS-Layerwise 实现了高达 2.7 倍的精度压制！
线性 $\text{H}_6$ 链 (12 Qubits)：作为一个极难处理的强静态关联基准，$\text{H}_6$ 消耗了大量的算子资源。在极具挑战的 18 个算子组规模下，DQAS-Layerwise 取得了 $7.07\text{ mHa}$ 的误差，而 ADAPT-VQE 却深陷 $9.44\text{ mHa}$ 的高位泥潭。这再次印证了在强关联环境下，层级滑动窗口对算子组合空间的“协同修剪”具有极高的物理合理性。

3. CNOT 门数减少的物理与结构根源

DQAS 不仅在能量精度上傲视群雄，更令实验学家兴奋的是，它设计出的量子线路所包含的 CNOT 门总数，往往显著少于 ADAPT-VQE。在真实的超导量子芯片上，CNOT 门的保真度是制约算法成功的绝对瓶颈。以下我们深入探究这一“既要精度高，又要门数少”的完美物理机制是如何在 DQAS 中自然浮现的。

3.1 CNOT 门数的量化优势

以水分子（$\text{H}_2\text{O}$，16 算子组电路，见论文 Figure 5）在全势能面上的表现为例：

在近平衡态几何结构（$d = 0.9 \sim 1.5\text{ \AA}$）下，DQAS-Layerwise 生成的线路仅需 $394 \sim 438$ 个 CNOT 门。
相比之下，ADAPT-VQE 构建的线路则堆叠了 $474 \sim 506$ 个 CNOT 门。
DQAS 实现了极其显著的 $13\% \sim 17\%$ 的 CNOT 门数削减！ 随着键长被进一步拉伸，电子关联增强，两者的门数差距进一步撕裂（在 $d=2.5\text{ \AA}$ 时，$\Delta\text{CNOT}$ 达到了惊人的 146 个）。

3.2 结构拆解分析（Decomposition of $\Delta\text{CNOT}$）

为了探寻门数削减的底层逻辑，论文在 $d = 1.50\text{ \AA}$ 处（此时两者 CNOT 门数净差 $\Delta\text{CNOT} = 80$）将门数差额精细拆解为两个部分：

3.2.1 算子类型偏置贡献（Operator-Type Bias）— 贡献约 56 个 CNOT 的节省

在 Jordan-Wigner 映射下，费米子单激发算子的电路实现极其廉价（仅需 $2 \sim 10$ 个 CNOT 门）。
而双激发算子由于涉及复杂的反对易关系，其 CNOT 消耗量呈现断层式跃升（在 Yordanov 的高效构造下也至少需要 8 个且通常需要数十个 CNOT 门）。
通过结构统计（Figure 5(a)），在 $d = 1.50\text{ \AA}$ 处，DQAS-Layerwise 选择了 6 个单激发和 18 个双激发（共 24 个算子），而 ADAPT-VQE 贪婪地选择了 4 个单激发和 21 个双激发（共 25 个算子）。这种偏好单激发算子的自然倾向，为 DQAS 轻松砍掉了约 56 个 CNOT 门。

3.2.2 算子复杂度与比特跨度偏置贡献（Qubit-Span Bias）— 贡献约 24 个 CNOT 的节省

在费米子到量子比特的映射中，算子的 CNOT 门数与该激发所涉及的量子比特的最大物理跨度（Qubit Span）直接挂钩：跨度越宽，中间所需插入的基准 CNOT 链就越冗长。

ADAPT-VQE 独特选择的 4 个算子：全部是跨度高达 $11 \sim 13$ 个比特的超长程双激发（涉及最深层的核心轨道 0-1 到最高轨道的跃迁），单个算子消耗 $26 \sim 30$ 个 CNOT 门，累计开销高达 112 个 CNOT。
DQAS-Layerwise 独特选择的 3 个算子：包含 2 个跨度仅为 $\sim 5$ 的短程单激发（各需 6 个 CNOT）以及 1 个跨度为 $\sim 8$ 的中等范围双激发（需 20 个 CNOT），累计开销仅为 32 个 CNOT。
两相轧差，在算子复杂度这一维度上，DQAS 再次斩获了 80 个 CNOT 的绝对物理净差！

3.3 物理机制的深刻剖析（为什么 DQAS 具有这种 selectivity ？）

这种对“质优价廉”的短程和单激发算子的强烈偏好，绝非人工硬编码的约束，而是全局联合优化算法运行出的必然物理产物：

┌────────────────────────────────────────────────────────────────────────┐
│                            ADAPT-VQE 机制                               │
│  - 评估是孤立且串行的。                                                  │
│  - 它在当前步骤只盯着哪个算子能提供最大梯度。                                │
│  - 如果一个昂贵的长程双激发算子能提供略微多一点的梯度，它就会毫不犹豫地被选中。│
└────────────────────────────────────────────────────────────────────────┘
                                     VS
┌────────────────────────────────────────────────────────────────────────┐
│                            DQAS-Layerwise 机制                         │
│  - 所有的连续概率参数是一同暴露在损失函数（期望本征能量）之下的。            │
│  - 如果几组价格极其便宜的“短程/单激发”算子协同作用，能够提供等同甚至超越单个    │
│    昂贵长程双激发算子的关联能贡献，那么梯度流就会自然驱使概率分布向这些短程算子│
│    倾斜（即多对一的协同优势）。                                          │
└────────────────────────────────────────────────────────────────────────┘

这完美诠释了全局优化和连续松弛对攻克组合优化难题的重大物理价值。

4. 代码实现、复现指南与开源生态

为了便于同行复现、应用并拓展该项工作，本节系统整理了该算法的技术栈实现逻辑、核心算法模块编写指南以及复现过程中的关键超参数细节。

4.1 核心技术栈

该研究完全基于现代高性能微分量子计算生态链构建：

PySCF (Python Chemistry Framework)：用于执行经典 Hartree-Fock 电子结构计算，生成分子一阶与二阶积分，以及 STO-3G 活性空间的哈密顿量构建。
TenCirChem：一个高效的近期量子计算化学模拟套件，用于便捷生成契合自旋对称性的 UCCSD 算子池（如采用 pick_ex2 策略），并提供 Jordan-Wigner 映射支持。
TensorCircuit (配合 JAX 后端)：由腾讯量子实验室和清华大学等团队开发的极其优秀、高可微分、支持 GPU 加速的量子线路模拟器。本研究的核心优势（如自动微分和 vmap 并行子电路评估）均基于 TensorCircuit 与 JAX 框架无缝绑定实现。

4.2 DQAS-Layerwise 的伪代码重构与编写指南

为了便于在 Python 编程环境中落地，我们以下给出 DQAS-Layerwise 算法在 TensorCircuit + JAX 生态下的核心逻辑复现实现框架：

import jax
import jax.numpy as jnp
import tensorcircuit as tc

# 设定计算后端为 jax 的 complex128 精度
tc.set_backend("jax")
tc.set_dtype("complex128")

def get_dqas_layerwise_ansatz(hamiltonian, operator_pool, L, k=4, s=2, epochs=2000, batch_size=128):
    """
    哈密顿量 hamiltonian: tc 格式的 PauliString 算子
    算子池 operator_pool: 经 TenCirChem 自旋分组后的 UCCSD 算子组列表
    L: 目标电路最大算子深度
    k: 滑动窗口大小
    s: 每次提交并固定的层数
    """
    M = len(operator_pool)         # 算子组总数
    committed_circuit = []         # 已确认固定的离散算子列表
    theta_fixed = []               # 对应的冻结变分参数
    warm_alphas = None             # 架构参数热启动缓冲区
    warm_thetas = None             # 变分参数热启动缓冲区
    
    while len(committed_circuit) < L:
        # 1. 架构参数与变分参数初始化 (含热启动逻辑)
        if warm_alphas is not None:
            # 继承上一阶段剩余的 k-s 层
            alphas = jnp.concatenate([warm_alphas, jax.random.normal(jax.random.PRNGKey(0), (s, M)) * 0.01], axis=0)
            thetas = jnp.concatenate([warm_thetas, jnp.zeros((s, 2))], axis=0) # 假设每组包含2个自旋配对算子
        else:
            # 完全随机初始化整个窗口 k 层的参数
            alphas = jax.random.normal(jax.random.PRNGKey(0), (k, M)) * 0.01
            thetas = jnp.zeros((k, 2))
            
        # 2. 定义在当前滑动窗口下的 Batch 联合损失函数
        def loss_fn(current_thetas, current_alphas, key):
            # 依照当前的 Softmax 概率分布采样 batch_size 个具体的电路路径
            probs = jax.nn.softmax(current_alphas, axis=-1)  # 形状 (k, M)
            
            # 利用 Gumbel-Softmax 或 范畴采样 抽取 batch_size 组结构
            sampled_structures = sample_categorical(probs, batch_size, key) # 形状 (batch_size, k)
            
            # 计算 batch 能量 (可使用 jax.vmap 进行高并行的量子线路模拟)
            energies = jax.vmap(eval_circuit_energy, in_axes=(0, None, 0))( 
                sampled_structures, 
                committed_circuit, 
                current_thetas
            )
            return jnp.mean(energies), energies
            
        # 3. 联合梯度更新循环 (Adam 优化器)
        # 变分参数 current_thetas 使用普通的自动微分
        # 架构参数 current_alphas 使用具有 baseline 的 NMF Score-function 估计器
        for epoch in range(epochs):
            # ... [Adam 梯度更新步骤] ...
            pass
            
        # 4. 提交 s 层确定性的物理结构
        probs_final = jax.nn.softmax(alphas, axis=-1)
        for j in range(s):
            best_op_idx = jnp.argmax(probs_final[j])
            committed_circuit.append(operator_pool[best_op_idx])
            
        # 5. 全局 BFGS 微调阶段
        # 使用 scipy.optimize.minimize (method='BFGS') 锁死结构，微调所有已选算子的 theta 并更新至 theta_fixed
        theta_fixed = run_global_bfgs(committed_circuit)
        
        # 6. 为下一滑动窗口阶段重整缓冲区
        warm_alphas = alphas[s:]
        warm_thetas = thetas[s:]
        
    return committed_circuit, theta_fixed

4.3 关键超参数设置与复现注意事项

为了在自己的代码中精确复现论文的数据性能，读者需要特别关注以下超参数及技术实现细节：

架构参数（$\boldsymbol{\alpha}$）初始化：千万不要初始化为 0。必须使用低振幅的高斯分布（如 $\mathcal{N}(0, \sigma^2)$，其中 $\sigma \le 0.01$）进行初始化。这样能保证初期的选择分布几乎均匀，给“快速收敛阶段”留出充分的梯度竞争空间。
滑动窗口尺寸选择：在 Layerwise 模式中，通常推荐设置 窗口大小 $k = 4$，推进步长 $s = 2$。若 $k$ 设得过大，则会退化为 Global 模式，计算成本飙升且梯度易耗散；若 $k$ 过小（例如 $k=2, s=1$），则算法将失去探索全局协同效应的能力，导致退化为类似于 ADAPT-VQE 的近视搜索。
梯度方差控制：由于 Score-Function Estimator 天生具有高方差的缺陷，在估计 $\boldsymbol{\alpha}$ 梯度时，Batch Size $K$ 绝对不能取得太小。论文在实际测试中使用 $K = 128 \sim 256$。搭配 $\bar{E}$ 作为 Baseline，能非常稳定地压制梯度噪声，保证 $\boldsymbol{\alpha}$ 概率谱平滑收敛。

5. 经典文献脉络与局限性批判性评论

5.1 关键参考文献及其演进脉络

作为一项承前启后的突破性工作，本论文的诞生深深扎根于以下几项里程碑研究的养分之中：

ADAPT-VQE 的提出（Grimsley et al., 2019 [20]）：开创了“算子自适应添加”的设计典范。它首次向物理界证明，通过巧妙地利用瞬时能量梯度，能够构建出远比完整 UCCSD 紧凑的 Ansatz。这是本论文最直接的对比 baseline。
QEB-ADAPT-VQE 的演进（Yordanov et al., 2021 [22]）：将费米子激发算子池替换为更底层的、门开销极其低廉的“量子比特激发算子池”（QEB Pool）。这一演进指明了 VQE 走向工程实用的必经之路。本论文也同样在 QEB 算子池上对 DQAS 进行了泛化验证。
Differentiable QAS 的奠基（Zhang et al., 2022 [40]）：首次将经典的神经网络架构搜索（NAS）中的可微松弛策略（DARTS）嫁接到量子计算中。该工作虽然奠定了可微量子搜索的底层数学框架，但在化学领域当时仅能处理 $2 \sim 6$ 个比特的极其微型的硬件友好波函数（HEA），没有融合物理对称性。本工作则是首次成功将 DQAS 引入到高度结构化、具有强大物理约束的化学 UCC 算子池中。

5.2 批判性局限性评论

尽管本工作在紧凑电路区间的精度和门效率上展现出降维打击般的优势，但站在严格的学术审视角度，该方法在未来的实际推广中仍面临以下几项硬性技术挑战：

5.1.1 经典模拟计算开销（Classical Simulation Bottleneck）

在 DQAS 的每一轮迭代中，由于需要联合采样 $K$ 种不同的电路结构（如 $K \ge 128$），这意味着在经典模拟器中单步更新的开销是常规 ADAPT-VQE 的百倍以上。尽管借助 JAX 的 GPU 强力并行和 vmap 特性在 14 个量子比特内能秒级收敛，但一旦面对超过 20 量子比特的更大体系，经典模拟器的内存和算力墙将不可避免地撞墙。如何将 DQAS 移植到真实的量子处理器上在线运行，或者如何设计更轻量化的无采样可微松弛策略，是亟待解决的瓶颈。

5.1.2 物理对称性保持的局限性

目前的自旋配对策略能完美保持 $S_z$ 和自旋角动量 $S^2$ 的守恒，但这仅仅是分子空间群对称性（Spatial Point Groups，如 $C_{2v}, D_{2h}$ 等）的一部分。目前，对于更加复杂的空间点群轨道对称性（Orbital Symmetry Constraint），DQAS 尚未设计出通用的松弛分组策略。若搜索空间中包含了大量破坏轨道对称性的算子，不仅会白白浪费搜索算力，还可能在多层累积中引入物理上不合理的非物理态激发。

5.1.3 噪声对 score-function 梯度的致命干扰

在 NISQ 真实设备上运行 DQAS 时，量子门噪声、读出噪声以及采样统计涨落（Shot Noise）会直接扭曲期望能量值 $E(\mathbf{k})$ 的输出。由于 score-function 梯度完全依赖于能量值及其方差，硬件噪声的引入会导致梯度方差呈指数级放大，极易使架构参数 $\boldsymbol{\alpha}$ 的演化陷入完全的随机漫步状态。因此，该算法对未来高保真度硬件及高效量子纠错（QEC）具有较强的依赖性。

6. 其他补充：向硬件原生架构（QEB 与 HEA）的推广

为了检验 DQAS 全局优化策略的普适性，论文并没有将其限制在高度物理约束的 UCCSD 费米子池中，而是大胆将其推广应用至硬件友好的算子库上。

6.1 QEB (Qubit-Excitation-Based) 算子库下的基准表现

QEB 算子库通过直接在量子比特层级定义激发（不包含冗长的 Jordan-Wigner 费米共振串），大幅度削减了 CNOT 门数（单激发仅需 2 CNOT，双激发仅需 14 CNOT），但这也导致其物理图像不如费米子 UCC 纯粹。论文在 $14$ 量子比特的 $\text{H}_2\text{O}$ 上，使用 QEB 算子池对 DQAS-Global 与 DQAS-Layerwise 进行了压力测试（对应论文 Figure 6）：

精度层面：DQAS-Global (QEB) 在 **14 个算子组（28 参数）**时便率先突破了化学精度（误差 $1.57\text{ mHa}$），而经典的 QEB-ADAPT-VQE 直到 16 个算子组（32 参数，误差 $1.52\text{ mHa}$）才勉强过线。
门数效率层面：在 $d = 0.9 \sim 1.7\text{ \AA}$ 处，由于 DQAS 偏爱单激发的物理机制在 QEB 池中依旧稳定发挥，DQAS 生成的电路 CNOT 数被死死压制在 $264 \sim 312$ 个。而 QEB-ADAPT-VQE 则需要 $316 \sim 336$ 个 CNOT。这无可辩驳地证明了：DQAS 所带来的电路紧凑性与硬件效率，完全源自其“全局协同搜索”这一高级优化范式本身，而与底层采用何种化学或比特算子池毫无关系！

6.2 HEA (Hardware-Efficient Ansatz) 的深水区探索

最后，论文还尝试将 DQAS 的触角伸向完全脱离化学结构束缚的**硬件高效试探波函数（HEA）**中，在小型的 $\text{H}_2$ (4 qubits) 和 $\text{LiH}$ (6 qubits) 上进行了尝试。然而，最初的尝试遇到了不小的挑战：

在完全 unstructured 且缺乏物理先验的 HEA 门集中（完全由 generic 的单比特旋转和相邻 CNOT 组成），DQAS-HEA 在极小体系下的表现尚未能全面超越人工设计的优秀固定拓扑（如著名的 RyLinear 架构）。
物理启示：这一“受挫”现象深刻揭示了，在没有物理对称性、没有分子哈密顿量先验约束的、浩瀚无垠的任意门组合空间中，连续松弛化搜索面临着极端庞大的局部极小值深渊和更严重的“贫瘠高原”问题。这明确指出了未来的研发方向：将物理约束、化学先验、对称性群论知识与硬件原生的门原语进行深度混合，才是未来近期量子计算可微电路设计的皇冠明珠！