递归切线态传播：张量网络二阶优化的“炼金术” —— 深度解析基于 Hessian-向量积的高效算法

来源论文: https://arxiv.org/abs/2604.20384v1 生成时间: Apr 23, 2026 10:13

0. 执行摘要

张量网络（Tensor Networks, TNs）作为量子多体系统和高维数据处理的核心工具，其优化的效率直接决定了模拟的精度和可扩展性。长期以来，TN 社区主要依赖一阶梯度方法（如梯度下降、ADAM）或局部更新方案（如 DMRG 中的单点/两点优化）。然而，一阶方法在处理复杂、病态或平坦的能量景观（Energy Landscapes）时，往往表现出收敛缓慢和陷入局部极小值的问题。二阶优化虽然理论上具有更好的鲁棒性和收敛性，但显式构造 Hessian 矩阵的 $O(N^2)$ 存储和计算复杂度使其对大规模系统望尘莫及。

近日，Isabel Nha Minh Le 等人在其最新工作中突破了这一瓶颈，提出了一种基于**递归切线态传播（Recursive Tangent-State Propagation）**的解析型 Hessian-向量积（Hessian-Vector Product, HVP）内核。该方法巧妙地利用了 TN 收缩路径的多线性结构，将二阶导数的计算转化为两次（前向与后向）递归传播过程。其核心贡献在于：证明了在保持虚拟键维（Virtual Bond Dimension）有界的情况下，可以高效地计算 Hessian 的作用效果，从而无缝集成到黎曼信赖域（Riemannian Trust-Region）等高性能优化框架中。本文将从科研视角对该工作进行深度解析。

1. 核心科学问题，理论基础，技术难点与方法细节

1.1 核心科学问题：为何需要二阶导数？

在张量网络优化（如量子变分算法或态压缩）中，我们通常需要最小化一个代价函数 $f(\mathbf{z})$。一阶梯度 $\nabla f$ 提供了最陡下降方向，但在接近极小值点时，景观的曲率（Curvature）变得至关重要。如果景观呈现长条形的“山谷”，一阶方法会在山谷两侧震荡，而二阶方法利用 Hessian 矩阵 $H$ 的逆来校正步长和方向。科学问题在于：如何在不显式计算 $H$ 的情况下，获得 $H$ 对任意向量 $\mathbf{v}$ 的作用结果 $H\mathbf{v}$？

1.2 理论基础：Wirtinger 微积分与复数导数

由于张量网络通常涉及复参数，传统的实数导数定义变得臃肿。该工作采用了 Wirtinger 形式化方法，将复向量 $\mathbf{z}$ 及其共轭 $\mathbf{z}^*$ 视为独立变量。对于全纯（Holomorphic）函数（如多线性张量收缩中的标量重叠 $T(\mathbf{A})$），其二阶特性可以通过方向导数（Directional Derivative）来刻画。

文中定义了两个关键模式：

Reverse-over-Reverse 模式：通过计算方向导数的梯度来获取 HVP。
Forward-over-Reverse 模式：通过计算梯度的方向导数来获取 HVP。作者证明，对于 TN 的多线性结构，这两种模式在算法层面上归结为相同的递归结构。

1.3 技术难点：键维爆炸与扩展性

在自动微分（AD）中，如果直接对收缩路径求导，切线空间的维数会随着层数或站点数增加。在 TN 中，这表现为切线态（Tangent States）的虚拟键维 $\chi$ 可能会线性增长，导致计算成本失控。这是将二阶方法应用于大规模张量网络的主要障碍。

1.4 方法细节：递归切线态传播算法

作者提出的核心算法（Algorithm 1）将整体演化算符 $A$ 分解为一系列线性映射的组合：$A = A^{[K]} \dots A^{[1]}$。通过定义中间态：

正向传播态 $\psi^{[k]}$：输入态经过前 $k$ 层后的状态。
后向传播态 $\phi^{[k]}$：参考态经过伴随算符反向作用后的状态。

在此基础上，引入切线态（Tangent States） $\delta\psi^{[k]}$。它的递归更新规则为：

$$\delta\psi^{[k]} = A^{[k]}\delta\psi^{[k-1]} + V^{[k]}\psi^{[k-1]}$$

这个公式具有清晰的物理含义：第 $k$ 层的变分贡献由两部分组成——之前层变分的累积传播，加上当前层参数摄动 $V^{[k]}$ 产生的直接贡献。通过双向扫频，梯度 $\nabla T$ 和 HVP 可以在同一个循环内并行累积。

关键创新点： 算法证明了通过构造增广虚拟空间（Augmented Virtual Space），切线态的键维可以严格限制在 $2\chi$ 以内（其中 $\chi$ 是原状态的键维）。这一结论（详见附录 D）保证了算法的复杂度是线性的，而非二次方。

2. 关键 Benchmark 体系与性能数据分析

作者选取了量子电路压缩（Quantum Circuit Compression）作为核心基准测试。这一任务的目标是用一个浅层电路（Ansatz）去拟合一个深层的时间演化电路（Trotter 序列）。

2.1 体系 1：横场伊辛模型（TFIM）

参数：$N=50$ 个站点，$J=1, g=0.75, h=0.6$（非可积区域）。
目标：拟合一个 20 次重复的四阶 Trotter 演化（$t=2$）。
性能表现：
- 精度：相比于直接的 Trotter 演化，基于二阶优化的砖墙（Brickwall）电路将保真度损失（Test Risk）降低了 4 个数量级。
- 收敛性：在优化过程中，二阶信赖域方法（Trust-Region）表现出极度平滑的单调下降特征，而 Riemannian ADAM 则伴随着剧烈的波动和刺尖（Spikes）。

2.2 体系 2：海森堡链（Heisenberg Chain）

参数：$N=40$ 个站点，$J=(1, 1, -1/2), h=(3/4, 0, 0)$。
数据分析：
- 如图 4(b) 所示，对于 11 层的砖墙电路，Trust-Region 方法在达到相同精度时所需的导数评估次数显著少于 ADAM。虽然单次 HVP 评估的计算开销略高于梯度，但由于其提供了更高质量的更新方向，总体的计算效率优势巨大。

2.3 收敛行为深度对比

ADAM：依赖于历史梯度的移动平均，对局部曲率不敏感，容易在窄谷中反复横跳，需要精细调节学习率 $\eta$。
Trust-Region + HVP：通过局部 Hessian 信息自适应地调整信赖域半径。实验数据显示，即使在复杂的参数空间，二阶方法也能以极少的迭代次数（约 100-200 次）降至 $10^{-5}$ 以下的损失值，而一阶方法通常需要数千次迭代且精度受限。

3. 代码实现细节与复现指南

3.1 软件包与基础架构

该项目的核心代码已在 GitHub 开源。其技术栈选择体现了现代微分编程的特点：

核心语言：Python。
数值计算引擎：jax.numpy。利用 JAX 的高效算符融合和自动微分能力来处理底层的张量收缩，但上层的 HVP 逻辑是手工优化的解析形式，以绕过黑盒 AD 的内存瓶颈。
优化库：rqcopt (Riemannian Quantum Circuit Optimization)。这是作者团队开发的专门用于流形优化的库。

3.2 关键代码逻辑复现

复现 Algorithm 1 的核心在于实现 HVP_KERNEL 函数。开发者需要注意以下步骤：

缓存正向态：在执行前向循环时，必须存储所有的中间态 $\psi^{[k]}$ 和 $\delta\psi^{[k]}$。由于键维受限为 $2\chi$，内存开销是受控的。
伴随算符收缩：在后向循环中，利用伴随矩阵 $A^{[k]\dagger}$ 逐步更新 $\phi$ 和 $\delta\phi$。注意在 Wirtinger 框架下，复共轭的操作必须严格对齐。
黎曼投影：由于量子门 $G$ 位于酉流形 $U(d)$ 上，计算出的 Euclidean 梯度和 HVP 必须通过投影算子（Eq. F1 & F7）投影到切空间上。

3.3 开源资源链接

GitHub Repo: https://github.com/INMLe/rqcopt-hvp
依赖项: jax, optax, rqcopt。

4. 关键引用文献与局限性评论

4.1 关键引用文献

S. R. White (1992): 奠定了 DMRG 和 TN 的基础 [1]。
J. Haegeman et al. (2011/2016): 提出了切空间投影和 TDVP 算法，这是本文切线态传播的理论基石 [10, 16]。
P.-A. Absil (2008): 黎曼流形优化的权威教科书，提供了 Trust-Region 算法的严谨框架 [15]。
Griewank & Walther (2008): 自动微分算法的经典论述 [23]。

4.2 工作局限性评论

尽管该工作在效率上取得了显著突破，但仍存在以下局限：

序列化收缩依赖：目前的算法假设 TN 可以被解释为序列化的线性映射组合（如 MPS 或 brickwall 架构）。对于复杂的 2D 网络（如 PEPS）或具有环状结构的 TN，如何定义高效的解析 HVP 路径仍是挑战，因为这些网络的收缩本身就是 NP-hard 的。
SVD 截断的数学严谨性：在切线态传播过程中，作者采用了标准的 SVD 截断来维持键维。虽然实验证明这很稳定，但从严格的数学角度看，如何在不破坏切线空间代数结构的前提下进行最优截断（Optimal Truncation）仍是一个值得深入探讨的开放问题。
初始点敏感性：二阶方法虽然在收敛期表现优异，但在优化初期如果初始点极差，信赖域方法可能会因为局部 Hessian 的非正定性而陷入困境。

5. 补充：对量子化学与多体物理的深远影响

5.1 激发态的提取

在量子化学中，寻找基态之后的激发态通常需要处理正交约束或计算激发算符的导数。本文提供的 HVP 内核可以自然地与 Lanczos 方法结合。通过计算 Hessian 的特征值光谱（如附录 G 所示），研究人员可以直接提取系统的低能激发能谱，而无需显式构造庞大的 Hamiltonian 矩阵。

5.2 能量景观的特征化分析

通过分析 Riemannian Hessian 的本征谱，我们可以量化特定 TN 变分空间的“可训练性”。例如，如果谱中存在大量的近零特征值，说明参数空间存在严重的冗余（Flat Directions）；如果条件数极高，则暗示了梯度的病态性。本文提出的高效 HVP 算法为这种大规模景观诊断提供了实用工具。

5.3 向热力学极限的扩展

该方法可以无缝推广到具有平移对称性的无限张量网络（iTN）。在热力学极限下，算符的导数表现为转移矩阵（Transfer Matrix）的摄动。利用本文的递归传播思路，可以结合定点迭代（Fixed-point iteration）来处理无限维体系的曲率信息，这对于研究量子相变点附近的动力学行为具有重要意义。

5.4 总结

这项工作标志着张量网络优化从“一阶经验”向“二阶精确”的跨越。对于量子化学科研人员而言，这意味着在处理高度纠缠的电子结构问题时，我们拥有了更强大的武器来确保数值计算的收敛性和结果的可靠性。未来的研究重点将在于如何将这一框架适配到非线性收缩路径以及更通用的自动微分基础设施中。