来源论文: https://arxiv.org/abs/2605.04604v1 生成时间: May 07, 2026 04:49

走向轻量化与量子启发：GQKAE 深度解析——利用 HQKAN 优化生成式量子本征求解器

0. 执行摘要

在量子化学模拟领域，精确求解多体系统的基态能量始终是核心挑战。传统的变分量子本征求解器（VQE）在近期的噪声中等规模量子（NISQ）设备上表现出巨大的潜力，但也面临着“贫瘠高原”（Barren Plateaus）和复杂的连续参数优化难题。生成式量子本征求解器（GQE）通过将电路构建转化为离散的自回归序列生成任务，有效地规避了部分优化困境。然而，基于 GPT 架构的传统 GQE 在处理大规模分子活性空间时，其庞大的前馈网络（FFN）带来了沉重的参数负担和显存开销。

近日，由 Yu-Cheng Lin 和 Yu-Chao Hsu 等研究人员提出的生成式量子启发 Kolmogorov-Arnold 本征求解器（GQKAE），通过引入**混合量子启发 Kolmogorov-Arnold 网络（HQKAN）**模块，成功打破了这一瓶颈。实验数据表明，GQKAE 在保持甚至提升化学精度的同时，将可训练参数量和显存占用降低了约 66%，并在实际运行时间（Wall-time）上实现了显著加速。这一工作不仅在理论上融合了最新的 Kolmogorov-Arnold Networks (KAN) 架构与量子启发激活函数，更在工程实践上展示了高效 HPC-量子协同设计的可能性。

1. 核心科学问题，理论基础，技术难点与方法细节

1.1 核心科学问题：经典生成模型的“参数肥大”与量子电路的离散搜索

在量子化学模拟中，我们需要在指数级增长的 Hilbert 空间中寻找哈密顿量 $\hat{H}$ 的基态。GQE 的核心思想是：与其在量子设备上优化连续的旋转角度，不如利用经典生成模型（如 Transformer）学习如何从一个预定义的算子池中“挑选”出一串算子，构建出最优的 Ansatz 电路。

然而，现有的 GPT 式 GQE 存在一个技术痛点：Transformer 内部的**逐位置前馈网络（FFN）**通常占据了模型参数总数的绝大部分。当分子系统变大、算子池增加、电路序列增长时，FFN 的线性层权重矩阵 $W_1, W_2$ 会急剧膨胀，导致在高性能计算（HPC）环境中进行模型训练和推理时的资源开销（Memory & Latency）变得不可接受。GQKAE 的核心使命就是：如何在不损失表达能力的前提下，极度压缩经典端（生成模型）的规模？

1.2 理论基础：从 MLP 到 KAN 的范式转移

传统的 FFN 基于多层感知器（MLP）架构，遵循“固定激活函数 + 可学习权重”的原则。而 2024 年大火的 Kolmogorov-Arnold Networks (KAN) 理论源自 Kolmogorov-Arnold 表示定理，其核心是将可学习的参数放在“边”上（即函数本身是可学的），而非“点”上。其数学形式为：

$$x_{l+1,j} = \sum_{i=1}^{n_l} \phi_{l,j,i}(x_{l,i})$$

其中 $\phi$ 是可学习的一元非线性函数。相比于 MLP，KAN 在函数逼近效率上具有对数级的优势，即达到相同精度所需的参数量远少于 MLP。

1.3 技术细节：HQKANsformer 与 DARUAN 激活模块

GQKAE 并非简单地套用 KAN，而是设计了一种针对量子任务优化的HQKANsformer 架构：

DARUAN (Data Re-Uploading ActivatioN)：这是 GQKAE 的“量子启发”灵魂。它利用单比特量子电路的“数据重上传”机制来模拟一元非线性映射。公式如下： $$\phi(x;\theta) = \langle 0 | \hat{U}^{\dagger}(x;\theta) \hat{M} \hat{U}(x;\theta) | 0 \rangle$$ 通过重复编码，DARUAN 能够诱导出丰富的傅里叶谱，从而以极少的参数（仅需量子电路的相位参数）实现高度复杂的非线性映射。
HQKAN 模块：在 Transformer 的每个 Block 中，原本的 FFN 被替换为“编码器-QKAN-解码器”结构。输入向量先被投影到低维潜空间（Latent Space），通过 QKAN 进行高效的非线性变换，再投影回原始维度。这种“瓶颈”设计是实现 66% 压缩率的关键。
QSCI 评价流水线：生成模型产生的序列被转化为量子电路，在模拟器（或真机）上运行。通过测量得到的比特串（Slater 决定子）构建截断子空间，进行经典对角化（CI 策略）获得能量 $E_{QSCI}$，并将其负值作为强化学习的奖励（Reward）信号。

1.4 技术难点：离散策略的训练稳定性

由于电路构建是离散的序列生成，梯度无法直接回传。GQKAE 采用了 GRPO (Group Relative Policy Optimization) 算法，这是一种在大型语言模型（LLM）训练中表现优异的强化学习策略。通过对一批采样的序列计算相对优势，GRPO 能够比传统的 PPO 更稳定地更新模型，避免了因奖励信号波动导致的收敛失败。

2. 关键 Benchmark 体系，计算数据与性能分析

为了验证 GQKAE 的鲁棒性，研究团队选择了六个极具代表性的分子体系，涵盖了从简单的氢链到复杂的二聚体系统。

2.1 实验体系配置

H4 (8 qubits)：研究等距离拉伸下的键断裂。
N2 (16 qubits)：涉及氮氮三键的断裂，具有极强的静态关联（Static Correlation），是量子化学中的硬骨头。
LiH (20 qubits)：测试在大活性空间下的收敛能力。
C2H6 (12 qubits)：研究内旋转能垒（Torsional Barrier）。
H2O (16 qubits)：考察键角弯曲对能量的影响。
(H2O)2 (16 qubits)：水分子二聚体，用于测试分子间弱相互作用的捕捉能力。

2.2 核心性能数据（见表 II）

分子体系	GQE 参数量 (M)	GQKAE 参数量 (M)	参数压缩率	显存占用 (MB)	加速比 (Speedup)
H4	55.26	14.3	~74%	162.9 -> 42.6	13.6%
N2	55.24	14.5	~73.7%	162.8 -> 42.7	9.0%
LiH	55.24	14.5	~73.7%	162.8 -> 42.7	9.8%
H2O	42.8	14.6	~65.8%	163.1 -> 55.4	6.8%

结论：在所有测试体系中，GQKAE 的参数量稳定维持在 14M 左右，而传统的 GPT 架构则需要 42M 到 55M。这意味着 GQKAE 成功实现了约 66% 的平均压缩率。同时，显存占用从 162MB 骤降至 42-55MB，这对于在边缘设备或资源受限的 HPC 节点上部署模型具有决定性意义。

2.3 化学精度与收敛动力学（见图 3, 4, 5）

精度：在 $N_2$ 和 $LiH$ 等强关联体系中，GQKAE 的最终能量误差不仅达到了 1.6 mHa 的“化学精度”门槛，甚至在收敛速度和最终残差上优于标准 GQE。
PES 曲线：图 4 显示，GQKAE 产生的势能面曲线与精确的 CASCI 参考线完美重合，准确捕捉到了 $N_2$ 三键断裂时的非动力学关联效应。对于乙烷的旋转能垒，GQKAE 预测值为 0.122 eV，与实验值 0.13 eV 吻合极好，表现优于传统的 CCSD。

3. 代码实现细节与复现指南

对于科研工作者而言，复现 GQKAE 需要关注以下组件的集成：

3.1 软件栈与工具链

量子后端：使用 NVIDIA CUDA-Q。其原生 GPU 加速能力对于大规模电路模拟（尤其是计算梯度和采样）至关重要。
化学积分与基准：PySCF 用于生成一元、二元分子积分，选择活性空间。PyCI 用于进行经典的 CI 对角化，作为基准参考。
KAN 实现：采用了开源的 QKAN 实现（基于 PyTorch），并利用 FlashQKAN 技术进行了张量网络优化。
强化学习：GRPO 算法实现，用于更新 Transformer 的 Policy 参数。

3.2 关键参数建议

潜在空间维度 (d_latent)：建议设置为 12。研究发现，过高的维度会增加不必要的参数，而 12 维已足以通过 KAN 模块捕捉复杂的算子相关性。
子空间维度 (d_max)：在 QSCI 后处理中，设置为 2000 即可在大多数系统中实现化学精度。
采样率：每次迭代采样 $M=10$ 个电路，总训练步数 $N_{iter}=100$。

3.3 开源仓库链接

QKAN 核心库：https://github.com/Jim137/qkan
GQE 基础框架：https://github.com/moken20/gqe-for-qsci

3.4 复现步骤

环境配置：安装 Python 3.10+, PyTorch 2.0+, CUDA-Q 及其依赖。
生成积分：使用 PySCF 处理目标分子（如 STO-3G 或是 cc-pVDZ 基组），保存 .hdf5 格式的积分文件。
模型初始化：构建 HQKANsformer 骨干网络，将 FFN 层替换为包含 DARUAN 激活的 HQKAN 模块。
训练：运行 GRPO 训练脚本，在 CUDA-Q 模拟器上并行生成电路并回传奖励信号。

4. 关键引用文献与深度评述

4.1 关键参考文献

KAN (2024): Liu et al., “KAN: Kolmogorov-Arnold Networks”. 提出了基础架构。
GQE (2024): Nakaji et al., “The generative quantum eigensolver (gqe)”. 奠定了生成式求解器的范式。
QSCI (2023): Kanno et al., “Quantum-selected configuration interaction”. 提供了高效的子空间对角化评估方法。
DARUAN (2025): Jiang et al., “Quantum variational activation functions empower Kolmogorov-Arnold networks”. 引入了量子启发激活函数。

4.2 局限性分析与批判性思维

尽管 GQKAE 在参数效率上取得了巨大成功，但作为技术评论者，我们仍需看到其局限性：

序列长度 $L$ 的硬编码：目前的 $L$（算子数量）仍需手动指定（如 $H_2O$ 需要 $L=130$）。如果 $L$ 设置过短，模型无法触达基态；过长则会浪费量子资源。未来的方向应该是动态 $L$ 预测。
对经典模拟的依赖：在训练阶段，模型需要频繁调用量子模拟器计算奖励。虽然 CUDA-Q 很快，但当比特数超过 40 时，经典模拟将成为瓶颈。如何利用零样本学习（Zero-shot Transfer）在小分子上训练并推广到大分子，是亟待解决的问题。
DARUAN 的实际量子硬件表现：论文中的 DARUAN 是在模拟器中实现的。在真实量子芯片上，由于读出误差和退相干，这种敏感的一元非线性映射是否还能保持预期的傅里叶特性，仍需实验验证。

5. 补充：HPC-量子协同设计的未来图景

GQKAE 的意义远不止于一个更快的本征求解器，它实际上为 HPC-Quantum Co-design 提供了一个范本。

5.1 边缘计算与分布式训练

由于模型规模压缩了 66%，我们现在可以将生成模型部署在更靠近量子硬件的控制端服务器上，甚至集成到低功耗的 FPGA/ASIC 中。这消除了将庞大权重在网络中频繁传输的延迟。

5.2 算子池的压缩演化

GQKAE 展现了其对算子序列模式的深度理解。结合 KAN 的可解释性，我们或许可以分析 HQKAN 内部的学到的一元函数，从而反向推导哪些 UCCSD 算子组合是“冗余”的。这可能导致更精简、更高效的量子 Ansatz 设计。

5.3 跨领域的可扩展性

除了量子化学，GQKAE 的这种“轻量化生成模型 + 物理反馈奖励”的架构，完全可以迁移到量子组合优化（QAOA）、量子纠错（QEC）码的自动发现等领域。KAN 的引入，标志着量子机器学习正从“大力出奇迹”的参数堆叠阶段，进入到“结构优化、参数精炼”的高质量发展阶段。

总结：GQKAE 凭借其量子启发的数学内核与极高的资源利用率，成功证明了即便在经典算力受限的情况下，我们也能够通过更聪明的模型结构，撬动量子化学模拟的巨大潜力。对于致力于近未来量子应用落地的研究者来说，这无疑是一个极具启发性的技术路线。