分布式变分量子线性求解器 (D-VQLS)：大规模并行加速与稀疏 Pauli 分解的深度演进

来源论文: https://arxiv.org/abs/2604.14435v1 生成时间: Apr 17, 2026 12:14

0. 执行摘要

线性系统方程组 $Ax = b$ 的求解是科学计算（如量子化学、流体力学）的核心瓶颈。虽然 HHL 算法提供了理论上的指数加速，但在 NISQ（含噪声中等规模量子）时代，其深层电路要求难以实现。变分量子线性求解器（VQLS）作为一种混合算法，利用浅层电路提供了替代方案。然而，VQLS 面临一个致命的扩展性瓶颈：对于任意矩阵，其单位算子线性组合（LCU）分解会导致电路评估数量随系统规模爆炸式增长（$O(L^2)$，其中 $L$ 可能高达 $4^n$）。

本研究提出并验证了 Distributed VQLS (D-VQLS) 框架。该框架结合了两项关键创新：

分布式异步执行引擎：基于 NVIDIA CUDA-Q 和 MPI，实现了对 $O(L^2)$ 个独立电路评估的跨节点、跨 GPU 并行化，在 96 个 GPU 上实现了 95.3% 的弱扩展效率。
基于 FWHT 的 Pauli 分解与剪枝：采用快沃尔什-阿达马变换（FWHT）进行 Pauli 分解，并通过 1% 门限剪枝，将 10 量子比特系统的电路评估数从 2300 万个压缩至 9 万个，同时保持 99.99% 以上的保真度。

1. 核心科学问题，理论基础，技术难点，方法细节

1.1 核心科学问题：LCU 的“复杂度陷阱”

在量子化学模拟和流体计算中，矩阵 $A$ 往往不具备天然的幺正性。为了在量子电路中编码 $A$，必须将其分解为 LCU 形式：$A = \sum_{l=1}^L c_l A_l$，其中 $A_l$ 是 Pauli 算符。VQLS 的代价函数 $C(\theta)$ 的评估涉及计算 $\langle x(\theta) | A^\dagger A | x(\theta) \rangle$。展开后，这意味着需要计算 $O(L^2)$ 个期望值项。对于一个任意的密集矩阵，$L$ 随量子比特数 $n$ 以 $4^n$ 指数增长。这意味着即使是中等规模的问题，单次迭代也需要执行数以亿计的量子电路，这在传统的串行或单卡量子模拟器上是不可完成的任务。

1.2 理论基础：变分优化与局部代价函数

VQLS 将线性求解问题转化为最小化代价函数 $C(\theta) = 1 - \frac{|\langle b | A | x(\theta) \rangle|^2}{\langle x(\theta) | A^\dagger A | x(\theta) \rangle}$。为了缓解深层电路中的贫瘠高原（Barren Plateaus）问题，论文采用了 局部代价函数（Local Cost Function）：

$$C_L(\theta) = 1 - \frac{1}{n} \sum_{j=1}^n \frac{\langle x(\theta)|A^\dagger U_b P_j U_b^\dagger A|x(\theta)\rangle}{\langle x(\theta)|A^\dagger A|x(\theta)\rangle}$$

其中 $P_j$ 是作用在第 $j$ 个量子比特上的投影算子。这一公式虽然提高了收敛性，但进一步增加了单次迭代所需的电路数量（引入了 $n$ 的倍数）。

1.3 技术难点：高效 Pauli 分解与剪枝

如何从一个任意矩阵 $A$ 中高效提取 Pauli 系数 $c_l$？直接提取的复杂度是 $O(N^2 \log N)$。论文引入了 FWHT（Fast Walsh-Hadamard Transform） 方法，其复杂度仅为 $O(n^2 2^n)$，且内存开销固定。更为关键的是，研究发现许多物理问题的矩阵分解后，大部分 Pauli 项的系数极小。通过 1% 门限剪枝（Thresholding），即舍弃贡献小于 $\ell_2$ 范数 1% 的项，可以极大地压缩 $L$。对于三对角 Toeplitz 矩阵，剪枝将 $L$ 从 $O(2^n)$ 降低到了 $O(1)$ 的常数级别（对于 $n>6$，饱和在 64 项）。

1.4 分布式框架细节：D-VQLS 架构

D-VQLS 利用了 LCU 计算的“尴尬并行性”（Embarrassingly Parallel）：

阶段 I：异步提交。利用 cudaq.observe_async，将 $L^2$ 对 Pauli 项的电路分发到多个 MPI 进程。每个进程管理一个或多个 GPU 客户端。
阶段 II：局部聚合。每个 GPU 核心独立完成状态向量模拟，计算期望值的实部和虚部，并按 $c_l^* c_k$ 进行加权求和。
阶段 III：全局归约。通过 MPI_Allreduce 汇总所有节点的分子和分母项，最终计算出全局代价标量并返回给经典优化器（如 L-BFGS-B）。

2. 关键 Benchmark 体系，计算所得数据，性能数据

2.1 验证体系：三对角 Toeplitz 与 Hele-Shaw 流

论文选择了两个极具代表性的基准体系：

三对角 Toeplitz 矩阵：常用于二阶常微分方程的有限差分离散化。实验针对 10 量子比特（$1024 \times 1024$ 矩阵）进行了深度测试。
Hele-Shaw 流：一种二维蠕动流物理模型，其控制方程为泊松方程。此体系测试了 VQLS 在处理具有非平凡结构的对称正定矩阵时的表现。

2.2 核心性能数据

电路压缩率：对于 10 量子比特系统，未经剪枝需要执行约 2300 万个电路。剪枝后降至 90,112 个，压缩比达 256 倍。
数值精确度：尽管进行了剧烈的电路剪枝，解的保真度（Fidelity）依然保持在 99.99% 以上，证明了 LCU 剪枝在保持物理特性方面的稳健性。
强扩展性（Strong Scaling）：在固定 1024 阶矩阵规模下，增加 GPU 数量。在 24 个 GPU 以内保持了近乎理想的线性加速。当 GPU 增加到 28-32 个时，由于单个 GPU 分配的任务量过少（少于 2800 个电路），MPI 通信开销开始占据主导，出现性能拐点。
弱扩展性（Weak Scaling）：随问题规模（LCU 项数）线性增加 GPU 资源。在 96 个 NVIDIA A100 GPU 上处理 360,448 个电路时，效率仍高达 95.3%。

2.3 GPU 资源优化数据

通过 NVIDIA Nsight Systems 剖析发现，CUDA Multi-Process Service (MPS) 是关键。对于 A100 GPU，配置 4 个 MPS 客户端/每 GPU 能够实现最高的内核吞吐量。相比单客户端模式，该配置实现了 2.52 倍 的性能提升，这归功于对 GPU 计算单元（SM）更充分的填充和更低的 CPU 调度开销。

3. 代码实现细节，复现指南

3.1 软件包要求

编程语言：Python 3.12
量子计算框架：NVIDIA CUDA-Q 0.12 (核心库)
分布式后端：MPI (配合 mqpu 后端使用)
数值优化：SciPy 1.16 (L-BFGS-B 算法)
性能分析：NVIDIA Nsight Systems

3.2 核心复现逻辑

D-VQLS 的核心在于如何使用 CUDA-Q 的异步接口。以下是逻辑伪代码示意：

import cudaq
from mpi4py import MPI

# 定义 Ansatz 电路
@cudaq.kernel
def ansatz(params: list[float], q: cudaq.qubit_view):
    # 硬件高效型 Ansatz 实现 (Ry-Rz-CNOT)
    ...

# 分布式代价函数计算
def cost_function(params):
    # 分发 LCU 对 (Al, Ak) 到不同的进程
    local_numerator = 0.0
    for l, k in my_rank_pairs:
        # 异步执行 Hadamard 测试电路
        future = cudaq.observe_async(ansatz, params, Al_Ak_op, q_count)
        futures.append(future)
    
    # 收集结果并进行 MPI 全局聚合
    total_num = MPI.COMM_WORLD.allreduce(local_sum_num, op=MPI.SUM)
    return 1 - total_num / total_den

3.3 开源资源与环境

该项目运行在 NERSC Perlmutter 超级计算机上。开发者可以通过 NVIDIA 的容器镜像（包含 CUDA-Q 和相关依赖）快速搭建类似环境。复现的关键点在于正确配置 MPI 任务数与 GPU 的映射关系（即 ntpn 参数）。

4. 关键引用文献与局限性评论

4.1 关键引用

[14] Bravo-Prieto et al. (2023): VQLS 的原始论文，定义了代价函数的基础框架。
[3] Harrow, Hassidim, Lloyd (HHL, 2009): 量子线性求解器的理论起点。
[20] CUDA-Q (2023): 提供了多 GPU 异构计算的底层接口。
[23] Georges et al. (2025): 提供了 FWHT Pauli 分解的技术支持。

4.2 工作局限性评价

尽管 D-VQLS 取得了显著进展，但在面向真实量子化学场景时仍有局限：

状态向量模拟器的内存瓶颈：目前仍基于状态向量（State Vector）模拟，这意味着量子比特数被限制在 30 左右（约需 16GB 显存）。对于更大规模的问题，需要引入张量网络（Tensor Network）或实际的 QPU 硬件。
剪枝策略的通用性：论文中的 1% 剪枝对稀疏、结构化矩阵非常有效，但对于高度无序的随机矩阵或某些强关联量子化学系统的 Hamiltonian 矩阵，剪枝可能导致解的精度大幅下降。
优化器的收敛性：L-BFGS-B 虽然在理想模拟中表现优异，但在真实 QPU 的噪声环境下，其收敛速度和对梯度噪声的敏感度仍是巨大挑战。

5. 补充内容：面向早期容错量子的资源估算

论文最后提供了一份珍贵的“未来指南”：表 I 详尽列出了从 1 到 20 个量子比特系统在应用 D-VQLS 时的资源需求。对于 20 量子比特的任意矩阵（$10^6 \times 10^6$ 阶），如果执行最坏情况下的 LCU 分解，单次迭代需要 $5.1 \times 10^{25}$ 个电路，这显然是不现实的。这一数据再次强调了 矩阵结构利用（Sparsity Exploitation） 和 算法剪枝 是将量子算法从理论带向工业实践的唯一桥梁。

作为量子化学研究人员，我们应当关注如何将分子轨道基组下的积分张量高效地映射到这种 D-VQLS 可接受的稀疏 Pauli 形式上，这可能是下一步实现“量子实用性”的关键点。