来源论文: https://arxiv.org/abs/2605.22977v1 生成时间: May 26, 2026 16:28

核心优化轨道 (COO) 技术深度解析

0. 执行摘要

在现代量子化学和凝聚态物理中，强关联多体系统的精确模拟一直是一项极具挑战性的任务。传统的配置相互作用 (Configuration Interaction, CI) 方法由于其参数量随系统规模呈指数级增长，长期以来被学术界普遍认为无法高效处理复杂的动力学关联。近年来，以密度矩阵重正化群 (Density Matrix Renormalization Group, DMRG) 为代表的张量网络态 (Tensor Network States) 凭借其在低维系统中的优异表现，成为了处理强关联问题的标准工具。然而，张量网络态的效率极度依赖于轨道的空间局域性与一维排序；对于具有多中心、高度纠缠结构的复杂分子（如过渡金属催化中心、铁硫簇等），一维基底的限制导致张量网络的键维度 (Bond Dimension) 迅速膨胀，计算资源开销急剧上升。

本研究提出了一种全新的轨道优化范式——核心优化轨道 (Core-Optimized Orbitals, COO)。COO 巧妙地利用了变分轨道旋转自由度，将复杂的许多体关联（Many-Body Correlations）直接“吸附”到单粒子轨道基组（Single-Particle Basis）中。通过将最新发展的稀疏选择性 CI 算法（TrimCI）与基于 BFGS 的变分轨道优化进行协同求解（Co-optimization），COO 在包含数十个活性电子和轨道的强关联铁硫簇体系 $[Fe_2S_2]$、$[Fe_4S_4]$ 以及固氮酶 P 簇（P-cluster, $[Fe_8S_7]$）上取得了突破性的进展。

核心研究成果包括：

极高的参数压缩率：在最具挑战性的 $[Fe_4S_4]$ (54e, 36o) 体系中，基于 COO 基组的十亿（Billion）级行列式 TrimCI 波函数达到了传统局域分子轨道（LMO）基组下需要 $3 \times 10^{14}$ 个行列式才能达到的计算精度，实现了 $3 \times 10^5$ 倍的参数压缩。
超越最先进的张量网络：在相同能量精度下，TrimCI + COO 的变分参数量比目前最大的无限制 DMRG（Unrestricted-DMRG）基准少 8 倍（引入 PT2 二阶微扰修正后少 25 倍）。相比于采用纠缠极小化轨道（EMO）的 SU(2) 对称性适应 DMRG，COO 在铁硫簇系列中实现了 10 到 100 倍的参数压缩。
多中心纠缠的物理阐释：通过一个可调的“图上哈伯德模型”（Hubbard-on-Graph），本工作定量分解了 COO 的优势来源，证明其超越基底旋转的“波函数结构增益”来源于成功捕获了无法通过一维一维链式拓扑局域化的多中心纠缠。
工业级超大规模可扩展性：开发了基于双轴 ($K \times Z$) 可扩展的分布式 Davidson 求解器，利用无状态 GPU 任务束（Mini-task bundles）在异构机会性计算集群上成功实现了高达 51.2 亿行列式规模的完全变分计算。

1. 核心科学问题、理论基础与技术难点

1.1 核心科学问题：多中心强关联与轨道基底选择的物理本质

强关联系统的多体波函数写在特定的单粒子轨道基组 $\{\phi_p\}$ 下：

$$|\Psi\rangle = \sum_I c_I |D_I(\{\phi_p\})\rangle$$

其中 $|D_I\rangle$ 是由单粒子轨道构建的斯莱特行列式（Slater Determinant），$c_I$ 是相应的 CI 变分系数。传统的选域 CI (Selected CI) 算法（如 CIPSI、SHCI、TrimCI 等）致力于在特定的轨道基（通常是 Hartre-Fock 轨道或局域化轨道 LMO）下寻找最重要的行列式子空间。然而，轨道基的选择决定了多体关联在 Hilbert 空间中的分布形态。

如果单粒子基没有充分对齐物理关联，大量的弱动力学关联将会弥散在数以万亿计的微小系数行列式中，形成所谓的“长尾效应”（Long-tail effect）。要想获得化学精度，传统的选择性 CI 不得不膨胀行列式空间。与之相对，DMRG 将多体波函数表示为矩阵乘积态 (Matrix Product States, MPS)，其参数量受限于相邻轨道间的纠缠熵：

$$S_i = -\text{Tr}(\rho_i \log_2 \rho_i)$$

在诸如一维链等体系中，局域轨道使得纠缠随着距离指数衰减，MPS 展现了无与伦比的参数效率。但在多中心过渡金属簇中，如 $[Fe_4S_4]$，铁中心之间的超交换作用（Superexchange）和双交换作用（Double exchange）导致纠缠在空间中呈现三维网络化分布。一维排序无法避免强纠缠轨道对之间的远程跨越，导致 MPS 的键维度 $D$ 指数级增加。此时，如何在稀疏 CI 的框架下，通过轨道旋转将动力学关联“吸收到轨道内部”，同时保持波函数表示的紧凑性，就成为了处理多中心强关联的关键科学问题。

1.2 理论基础：轨道旋转与多体紧凑性的协同变分

轨道的单一旋转可以表示为一个幺正变换：

$$\tilde{\phi}_p = \sum_q U_{qp} \phi_q, \quad U \in U(n)$$

利用实反对称矩阵 $\kappa$（具有 $n(n-1)/2$ 个独立变分参数，其中 $n$ 为活性空间轨道数），幺正变换矩阵 $U$ 可以参数化表示为矩阵指数形式：

$$U = e^\kappa$$

在第二量子化表象下，该轨道旋转对应于 Fock 空间中的单体幺正算符：

$$\hat{U} = e^{\hat{\kappa}}, \quad \hat{\kappa} = \sum_{a > i} \kappa_{ai} (\hat{a}_a^\dagger \hat{a}_i - \hat{a}_i^\dagger \hat{a}_a)$$

轨道变换对多体波函数的作用是非线性的。一个在旧基底 $\{D_I\}$ 下极其复杂的波函数，在新基底 $\{\tilde{D}_I\}$ 下可能变得高度紧凑。协同变分优化的目标是同时最小化能量关于变分系数 $\{c_I\}$ 和轨道参数 $\kappa$ 的泛函：

$$E(\{c_I\}, \kappa) = \frac{\langle \Psi(\{c_I\}, \kappa) | \hat{H} | \Psi(\{c_I\}, \kappa) \rangle}{\langle \Psi(\{c_I\}, \kappa) | \Psi(\{c_I\}, \kappa) \rangle}$$

1.3 技术难点：参数高度耦合与局部极小值陷阱

在传统的轨道优化选域 CI 方法中（例如 CASSCF 或传统的选域 CI 轨道优化），人们通常在规模庞大的行列式空间（如 $10^6 - 10^9$ 行列式）上计算轨道梯度。这种“大波函数方法”面临两个致命的瓶颈：

计算开销极大：每一次轨道梯度评估都需要收敛一个大型 CI 波函数，计算一、二体对角化密度矩阵（RDMs），在大规模体系中这在计算上是不可承受的。
陷入局部极小值：由于轨道参数 $\kappa$ 与数量庞大的变分参数 $\{c_I\}$ 之间存在极强的非线性耦合，优化算法极易在远离全局最优解的局部能量盆地（local basins）中停滞。交替优化（Alternating optimization）即固定波函数更新轨道、再固定轨道更新波函数，在强关联区域通常会发生严重的振荡或过早收敛。

1.4 COO 方法细节：基于小规模高质量核心的“线搜索重新对角化”协议

COO（Core-Optimized Orbitals）方法通过一种极其反常规的路径解决了上述技术难点。其核心思想是：在一个极小（~100 行列式）但物理性质极高、结构极准的核心（Core）波函数上，实施全耦合的轨道优化。

1.4.1 算法流程

COO 的整体流程分为交替进行的两个主循环（Phase 0 全局优化阶段）：

核心行列式空间搜索 (TrimCI)：在当前的轨道基底 $\{\phi_p\}$ 下，利用 TrimCI 算法从随机行列式出发，通过哈密顿量图的不断扩张与修剪（Expansion and Trimming），寻找一个极紧凑的、仅包含 $N_{det}^0 = 100$ 个行列式的核心波函数 $|\Psi_{core}\rangle$。尽管这个空间极小，但由于 TrimCI 的高效动力学修剪，它精确捕获了基态的主要强关联物理组分（如磁性对称破缺结构）。
BFGS 轨道变分优化：固定核心行列式空间 $C = \{D_I\}$ 的物理配置，通过 L-BFGS/BFGS 算法在 $n(n-1)/2$ 维流形上寻找最优的 $\kappa$。为了彻底消除 $\{c_I\}$ 与 $\kappa$ 的非线性耦合，COO 在 BFGS 内部的**每一次线搜索试探步 (Line Search Trial Step)**中，均执行完全的重新对角化：
- 输入试探旋转参数 $\kappa_{try} = \kappa_t + \alpha d_t$
- 计算变换后的哈密顿量矩阵元（通过快速积分旋转 $h \to U^T h U$ 和 $V \to (U\otimes U)^T V (U\otimes U)$）
- 在固定的核心行列式基底上，利用微型的 Davidson 求解器重新对角化投影哈密顿量 $H_C = P_C \hat{H} P_C$，获得完全弛豫后的变分系数 $\{c_I^{try}\}$ 和对应的试探能量 $E_{try}$
- 根据 $E_{try}$ 的实际降低情况决定是否接受该步长或调整线搜索阻尼 $\alpha$。

由于核心空间 $|C| \sim 100$，Davidson 重新对角化只需耗时数毫秒，使得在每个 BFGS 试探步中进行完全对角化成为可能。BFGS 优化所需的轨道梯度 $\partial E / \partial \kappa_{ai}$ 可通过解析闭合形式高效计算：

$$\frac{\partial E}{\partial \kappa_{ai}} = 2 \sum_{p} (h_{ap} D_{ip} - h_{ip} D_{ap}) + 4 \sum_{pqr} (V_{apqr} d_{ipqr} - V_{ipqr} d_{apqr})$$

其中 $D_{pq}$ 和 $d_{pqrs}$ 分别是核心波函数的单体对角化密度矩阵（1-RDM）和双体对角化密度矩阵（2-RDM）。

1.4.2 增益转移物理机制 (Gain Transfer)

COO 的物理合理性立足于一个被称为增益转移 (Gain Transfer) 的重要物理事实：在仅 100 个行列式的微小核心上学到的轨道旋转，当行列式空间通过选域 CI 扩展 5 到 7 个数量级（达到 $10^7 - 10^9$ 规模）时，其优秀的压缩性能依然能够完美保持。

其数学根源在于，第二量子化下的轨道旋转算符 $e^{\hat{\kappa}}$ 是一个单体指数算符，它以相干的方式作用于整个许多体 Hilbert 空间。当我们应用在核心上学到的 $\hat{\kappa}$ 作用于一个包含少量行列式的紧凑波函数时：

$$|\Psi_{COO}\rangle = e^{\hat{\kappa}} \sum_{I=1}^{10^2} c_I |D_I\rangle$$

如果将其展开回到初始的未旋转轨道基底 $J$，它将投影成一个包含巨大数量、系数各异的行列式线性组合：

$$|\Psi_{COO}\rangle = \sum_J \left( \sum_{I=1}^{10^2} U_{JI} c_I \right) |D_J\rangle$$

这表明，单体轨道旋转算符 $e^{\hat{\kappa}}$ 实际上充当了许多体关联的“预条件子”（Preconditioner）。COO 并不是在 Hilbert 空间中寻找更复杂的变分路径，而是通过重构基础轨道，将弥散在万亿个高阶激发行列式中的动力学关联，相干地“回卷”到单粒子轨道变换中。这解释了为何仅仅 100 个核心行列式学到的几何信息能够主导千亿维空间的压缩效率。

2. 关键 Benchmark 体系与计算数据分析

本工作对一系列具有极高挑战性的强关联多中心铁硫簇体系进行了深入的研究。这些体系是生物固氮、光合作用和电子传递链中活性中心的核心模拟对象。

2.1 $[Fe_4S_4]$ (54e, 36o) 的极限压缩基准

对于具有对称性破缺基态 BS-1（两铁自旋向上，两自旋向下：$\text{Fe}_1\uparrow, \text{Fe}_2\uparrow, \text{Fe}_3\downarrow, \text{Fe}_4\downarrow$）的 $[Fe_4S_4]$ 簇，本工作对比了 COO 轨道与传统 LMO 轨道的收敛行为。

2.1.1 核心轨道变分演化数据 (Phase 0 阶段)

如下表（摘自论文 Table S6）所示，在固定 100 核心行列式下，随着优化循环（Cycle）的进行，变分能量迅速下降：

循环周期 (Cycle)	$E_{BFGS}$ (Ha)	$E_{CI}$ (Ha)	$\Delta E_{COO}$ (mHa)
0 (LMO 初始基)	—	-326.722135	0.00
1	-327.052937	-327.078142	-356.01
2	-327.102801	-327.108337	-386.20
3	-327.125327	-327.129260	-407.13
4	-327.130326	-327.129505	-407.37
10	-327.132071	-327.131776	-409.64

关键数据结论：仅仅经历 3 次外循环，轨道优化就已经捕获了超过 99% 的能量降低（达 407 mHa）。最终第 10 代 COO 轨道在 100 行列式下的能量就已经低于 LMO 轨道在 $4.7 \times 10^6$ 个行列式下的能量，实现了惊人的空间压缩。

2.1.2 极限外推与参数量对比（与最高精度 DMRG 相比）

本工作将 TrimCI + COO 空间扩展至前所未有的 $5.12 \times 10^9$ 个行列式，并通过幂律外推（Power-law extrapolation）$E(N_{det}) = E_{extrap} + a N_{det}^{-\alpha}$ 得到了精确的全 CI（FCI）能量限：

$E_{extrap} = -327.2441(26)$ Ha。
独立的高精度无限制 DMRG ($D=12000$) 变分能量为 $-327.2417$ Ha（外推值为 $-327.2443$ Ha，完美交叉验证）。

对比在相同能量精度（$-327.2417$ Ha）下，不同方法的参数量需求（摘自论文图 2 及表 S10 相关分析）：

无限制 DMRG ($D=12000$)：需要 $2 \times 10^{10}$ 个变分参数。
TrimCI + COO (变分)：仅需 $2.6 \times 10^9$ 个参数即可达到该能量，参数量压缩了 8 倍。
TrimCI + COO + PT2 (二阶修正)：仅需 $7.7 \times 10^8$ 个参数即可匹配该能量，参数量压缩了 25 倍。
传统 LMO 选域 CI 外推：达到相同精度，传统的 LMO 轨道外推需要 $3.23 \times 10^{14}$ 个行列式，COO 实现了 $3.2 \times 10^5$ 倍的直接压缩！

2.2 铁硫簇系列体系 [$Fe_2S_2$], [$Fe_4S_4$], P-cluster 的系统表现

下表（汇总自论文 Fig.3, Fig.4 与 Table I）展示了在三个不同尺寸铁硫体系中，TrimCI + COO 与带有纠缠极小化轨道（EMO）的先进 SU(2)-DMRG ($D=100$) 的参数紧凑性及 dominant 行列式占比 $p_0 = |c_{max}|^2$ 的对比：

体系	活性空间 (e, o)	能量匹配下：$N_{params}$ 比例 (DMRG+EMO / COO)	能量匹配下：$N_{params}$ 比例 (DMRG+LMO / COO)	$p_0$ 提升比 (COO / EMO)	$p_0$ 提升比 (COO / LMO)
$[Fe_2S_2]$	(30e, 20o)	16×	49×	1.0×	12×
$[Fe_4S_4]$	(54e, 36o)	71×	4700×	3.9×	930×
P-cluster	(114e, 73o)	78×	$1 \times 10^5$×	35×	$5 \times 10^4$×

物理趋势分析：优势随系统规模单调急剧放大。在最庞大的 P-cluster (114e, 73o) 中，COO 对局域轨道的压缩比达到了难以置信的 100,000 倍，变分 dominant 行列式重叠度相比 EMO 轨道高出 35 倍。这表明，COO 所实现的绝对紧凑化彻底拉开了与基于局域化纠缠极小化方法的差距。

2.3 Hubbard-on-Graph 模型的机制剖析

为了剖析为什么稀疏 CI 结合 COO 能够颠覆“DMRG 始终比 CI 更压缩”的常识，作者引入了具有精确 FCI 解的 8 节点半填充 Hubbard-on-Graph 玩具模型。哈密顿量为：

$$\hat{H} = -t \sum_{\langle ij \rangle, \sigma} \hat{c}_{i\sigma}^\dagger \hat{c}_{j\sigma} - \alpha t \sum_{ij \notin nn, \sigma} r_{ij} (\hat{c}_{i\sigma}^\dagger \hat{c}_{j\sigma} + \text{h.c.}) + U \sum_i \hat{n}_{i\uparrow} \hat{n}_{i\downarrow}$$

其中 $\alpha \in [0, 1]$ 是控制图拓扑连接度的旋钮：$\alpha=0$ 对应标准的一维链（DMRG 极度擅长），$\alpha=1$ 对应全连接图（最大多中心特征，DMRG 的噩梦）。

通过对参数需求比值 $N_{DMRG}/N_{COO}$ 随 $\alpha$ 的扫描（图 5e），他们发现该比例由 1 倍（$\alpha=0$ 链极限）单调上升至 12 倍（$\alpha=1$ 全连接极限）。他们进一步将这一优势因子分解为两个独立因子的乘积：

$$\frac{N_{DMRG}}{N_{COO}} = \mathcal{F}_{orbital} \times \mathcal{F}_{ansatz}$$

轨道因子 (Orbital Factor) $\mathcal{F}_{orbital} = N_{noCOO} / N_{COO}$：刻画了在固定变分 ansatz 下，纯粹由于轨道旋转将动力学关联吸附进基底内部所带来的参数节省（约为 1.3 - 3.3 倍）。
Ansatz 因子 (Ansatz Factor) $\mathcal{F}_{ansatz} = N_{DMRG} / N_{noCOO}$：刻画了固定在 site 基底上，稀疏 CI ansatz 相较于 MPS 对多中心无向非局域纠缠的内在表示优势（随着连接度增加从 1 指数上升到 3.5 倍）。

铁硫簇 $[Fe_4S_4]$ 的物理区域正处于高连接度的 $\alpha \to 1$ 强耦合区间，这解释了 COO+TrimCI 相较于张量网络的巨大乘积优势。

3. 代码实现细节、高扩展性 Davidson 求解器设计与复现指南

本研究的所有核心算法均已开源。项目地址为：https://github.com/hao-zhang-quantum/TrimCI。该软件采用高性能 C++ 作为底层计算后端，并通过高效的 Python 接口进行高级逻辑控制与用户交互。

3.1 核心数据结构与超大规模三阶段工作流实现

复现经典的三阶段工作流（Phase 0 -> Phase 1 -> Phase 2）需要在软件配置文件中合理设置超参数。以下是基于文章 S1 节整理的规范参数推荐表：

# 经典 TrimCI + COO 协同优化三阶段 Python 代码示例
from trimci import TrimCIEngine, COOOptimizer

# 初始化计算引擎
engine = TrimCIEngine(
    fcidump="Fe4S4_BS1.fcidump",
    max_final_dets=100,
    threshold=1e-2,
    pool_core_ratio=40,
    local_trim_keep_ratio=4
)

# 实例化 COO 轨道优化器 (Phase 0)
coo_opt = COOOptimizer(
    engine=engine,
    optimizer="bfgs",
    maxiter=100,
    ftol=1e-8,
    davidson_tol=1e-7,
    tracking_dets=False,
    loaded_dets_randomness=0.0
)

# 运行 10 个 Cycle 的 Phase 0 轨道优化
coo_opt.run_phase0(cycles=10, num_runs=64)

# Phase 1: 局域微调（慢速空间扩张 + 轨道微调）
engine.set_hyperparams(growth_factor=1.1, max_n_dets=1e6)
coo_opt.run_phase1(davidson_energy_tol=1e-4, use_connection_cache=True)

# Phase 2: 冻结轨道，爆发式快速扩张至极限空间
engine.freeze_orbitals()
engine.set_hyperparams(growth_factor=2.0, max_n_dets=1e9)
engine.run_phase2(pt2_correction=True, davidson_energy_tol=1e-5)

3.2 高度可扩展的双轴 ($K \times Z$) 分布式 Davidson 求解器

在 Phase 2 的最后，行列式规模达到了惊人的 51.2 亿。此时，单体试验向量 $v$ 和对角化子空间已经达到了 41 GB，而由于 Davidson 算法频繁进行哈密顿量与向量的乘积（Matvec）：

$$\sigma_i = \sum_j H_{ij} v_j$$

其对应的内存和运算量处于经典单节点的瓶颈之外。为了解决这个问题，TrimCI 设计了极具工业创新性的分布式无状态架构：

3.2.1 双轴 sharding 策略

工厂轴 (K-factories)：将哈密顿量的目标行（Destination rows）切分成 $K$ 个连续的分片。每个 Factory 独立拥有这一行分片的 $v_i$, $\sigma_i$ 及其对角线元素。这种行切分避免了在单节点上装载全部的高激发波函数，实现了内存的 row-sharding 分布式。
工人轴 (Z-workers)：在每个 Factory 下部署 $Z$ 个完全无状态的 GPU Worker。这些 Worker 之间不需要进行复杂的 MPI 通信，仅通过高带宽、低延迟的 HTTP 协议向对应的 Factory 索取试探任务。

3.2.2 任务单元：无状态微型任务束 (Mini-task bundles)

为了将 Matvec 计算彻底并行化且实现负载均衡，哈密顿算符动作被分解为三种不同物理激发类型的“通道”（Channels）：

Type (a)：$\alpha$ 自旋结构相同，$\beta$ 发生单/双激发。
Type (b)：$\beta$ 自旋结构相同，$\alpha$ 发生单/双激发。
Type (m)：混合型双激发（$\alpha, \beta$ 各发生一次单激发）。

这些通道被整合成包含 $C \approx 10^5$ 个同类型激发的“微型任务”（Mini-tasks），并进一步打包成适合 GPU 硬件线程吞吐的“任务束”（Bundles，通常每个 Bundle 包含 $B=243$ 个 Mini-tasks）。

+-------------------------------------------------------------+
|                        HTTP Controller                      |
+-------------------------------------------------------------+
                               | (GET/POST task bundles)
                               v
          +-----------------------------------------+
          |          Stateless GPU Workers          |
          |  (T4, A100, H100, H200, L40S Mixed)     |
          +-----------------------------------------+
                               | (Sends back partial sigma)
                               v
+-------------------------------------------------------------+
|                 K-Factories (Row-Sharded)                   |
|        Factory 1             ...             Factory K      |
|   [Row 0 - Row r_1]                       [Row r_k - Ndet]  | 
+-------------------------------------------------------------+

无状态工人的计算优势：

硬件异构友好：每个任务束的显存开销控制在 1 GB 以内，因此代码可以无缝混合使用 NVIDIA T4, A100, H100, H200 和 L40S 等任意硬件。设备性能差异仅体现为处理任务束的速度不同，这非常适合利用学术计算集群中的闲置 GPU（Backfill 模式）。
容错能力极高：因为 Worker 是无状态的，任何单个 GPU 在计算任务束时的崩溃或超时只会导致任务被重新分配给其他 Worker，而不会影响整个计算的正确性。
极限规模外推预测：文章 S9 节提供了将该架构扩展到万亿（$10^{12}$）行列式的路线图。通过将 $K$ 扩展到 200，$Z$ 维持在 20 左右，可维持恒定的单节点物理资源消耗，同时支持总计达 4,000 个异构 GPU 并行。预计在 $10^{12}$ 规模下，总向量显存需求为 8 TB，每个 Factory 的 OOC Krylov 存储为 640 GB。

4. 关键引用文献与此项工作的局限性微评

4.1 关键参考文献及其地位

Zhai et al. [arXiv:2601.04621] (Ref. [17] / [S7])
- 地位：提供了 $[Fe_4S_4]$ 体系目前最强大的、基于局域轨道的无限制 DMRG（$D=12000$）变分参考基准。COO 算法直接将其作为精度上限进行对标，在参数压缩率上实现了超越。
Z. Li [Physical Review Letters 135, 210601 (2025)] (Ref. [50] / [S11])
- 地位：提出了最先进的纠缠极小化轨道（EMO）方法，这是此前量子化学界通过轨道排序和局部旋转来优化 DMRG 初始态的标准方法。COO 与其进行了严苛的匹配基准对比，证明了直接面向绝对紧凑度变分优化的优越性。
Y. Yao and C. J. Umrigar [JCTC 17, 4183 (2021)] (Ref. [56] / [S2])
- 地位：提出了选域 CI 框架下经典的轨道优化算法（在 SHCI 中应用）。COO 算法在轨道更新、BFGS 步的线搜索控制和核心选择策略上对其进行了根本性的改进（解决了其优化在强关联区域容易陷入亚稳态的问题）。
H. Zhang and M. Otten [arXiv:2511.14734] (Ref. [30] / [S1])
- 地位：开发了 TrimCI 算法，这是 COO 能够得以高效运行的许多体解法器基石。

4.2 本工作局限性、科学局限性与改进空间点评

尽管 COO 取得了令人瞩目的成就，但作为一项处于前沿探索阶段的技术，它在理论和应用层面仍存在以下局限性：

轨道优化计算开销的标度分析：尽管核心波函数的 Davidson 对角化非常迅速（毫秒级），但积分变换（即双电子积分从 LMO 基到 COO 基的旋转 $V \to U^TU V U^T$）在大活性空间中依然遵循 $O(n^5)$ 或更不利的标度。当活性轨道数 $n$ 进一步增加时，即便核心波函数大小 $N_{det}^0$ 维持在 100，积分重构本身也会逐渐成为不可忽视的瓶颈。未来可能需要引入张量超收缩（Tensor Hypercontraction, THC）或密度拟合（Density Fitting, DF）技术来近似加速这一过程。
对 Phase 0 初始种子（Initial Seed）的潜在敏感性：尽管研究表明 COO 具有极佳的强纠错和强鲁棒性，能够在宏观层面上将大部分随机选择的 LMO 结构收敛至正确的自旋破缺盆地（如铁硫簇的三个基本物理盆地 BS-1, BS-2, BS-3）。然而，在极其庞大的活性空间中，Hilbert 空间的磁性盆地极度稠密，随机产生的 100 个初始行列式种子可能偶尔会因为物理对称性过早缺失而卡在亚稳态的物理分支上。开发一种更加确定性、基于局域电荷/自旋对称性辅助的初始核心选择机制将十分必要。
分子性质与解析梯度的缺失：目前的 COO 工作集中在能量的变分优化上。对于化学应用至关重要的物性观测（如磁超精细耦合常数、核磁共振位移、外加场响应等），需要波函数关于外场的解析响应（衍生导数）。由于 COO 经过了交替选择与对角化，其解析梯度的公式构建将会极其复杂，目前仍需要依赖数值有限差分来完成，这极大地限制了其在精细谱学模拟中的大规模应用。
在准一维或极弱动力学关联体系中的局限： Hubbard-on-Graph 的分析非常清晰地表明，在 $\alpha \to 0$（纯一维链）极限下，由于纠缠随空间自然指数衰减，DMRG 的一维矩阵乘积结构具有理论天然优势，COO 相较于 DMRG 的 Ansatz 因子 $\mathcal{F}_{ansatz}$ 优势降为 1。因此，对于高度各向异性的薄膜、分子链或一维长链聚合物，COO 并不具备超越 DMRG 的本质物理优势；其主战场依然是且应当集中在高度稠密的多中心过渡金属簇和复杂非局域纠缠体系。

5. 补充物理讨论：纠缠特征与自旋动力学深度剖析

5.1 轨道互信息 (Orbital Mutual Information, OMI) 矩阵的拓扑分析

为了展示 $[Fe_4S_4]$ 的非局域关联，作者利用基于波函数的单、双体密度矩阵，严格计算了轨道互信息：

$$I_{ij} = S_i + S_j - S_{ij}$$

其中 $S_{ij}$ 是双轨道约化密度矩阵的冯·诺伊曼熵。在经过 Fiedler 谱启发式重排序（DMRG 优化一维链的行业标准方法）后，对比 H36 一维链与 $[Fe_4S_4]$ 簇（图 S4）：

H36 一维链：其 95% 的互信息质量被完美压缩在半带宽 $k_{95} = 3$ 的紧邻对角线区域，在 $|i - j| > 3$ 的区域仅存有 4% 的弥散纠缠。这代表了典型的 MPS 友好型拓扑。
$[Fe_4S_4]$ 过渡金属簇：即便经历了严格的 Fiedler 重新排序，其 95% 互信息质量带宽依然高达 $k_{95} = 15$（整整宽了 5 倍！），且有 37.8% 的大量纠缠质量游离在 $|i - j| > 3$ 的长程相互作用区间。这从物理第一性原理的层面证明，多中心体系的纠缠结构无法被压缩到一维狭窄的对角线带内，从而在理论上锁定了一维张量网络在应对这类体系时的局限性。

5.2 强关联多中心激发模式（Multi-Center Excitation Analysis）

为了从物理构成上直接透视波函数的具体激发特征，本研究对高权重的行列式进行了空间中心的分类（图 S5）。他们将整个体系划分为 $K = n_{\text{Fe}} + 1$ 个原子中心：每个 Fe 原子各自为一个中心，所有的 S 原子合并为另一个配体中心：

$$\mathcal{C} = \{\text{Fe}_1, \text{Fe}_2, \text{Fe}_3, \text{Fe}_4, \text{S}\}$$

定义一个行列式所波及的“中心数” $|\mathcal{F}(I)|$ 为：其相较于主导行列式发生轨道占据数改变的原子中心数量。结果汇总于下表（摘自论文 Table S21 与分析）：

| 体系 | $|\mathcal{F}(I)| \ge 2$ 的行列式占总激发权重的比例 | | :— | :—: | | $[Fe_2S_2]$ | 100.00% | | $[Fe_4S_4]$ | 99.93% | | P-cluster | 99.70% |

物理含义：在所有三个铁硫簇体系中，超过 99.7% 的激发能量权重全部分布在同时波及两个或更多中心的多中心激发（Multi-center excitations）上。

这彻底否定了将这些簇体系近似处理为“局域自旋之间弱耦合”的物理模型假设。电荷转移、非局域超交换以及金属-配体反馈作用（Metal-to-ligand backbonding）极度强烈，整个分子在多体关联的层面上表现为一个高度协同的有机整体。COO 通过变分轨道旋转，成功地将这些极其复杂的非局域电荷跃迁和交换关联效应相干地吸收，这正是 COO 取得重大成功的物理根基所在。

5.3 总结：对未来模拟科学的启示

COO（核心优化轨道）的出现颠覆了传统的计算方法层级认知。在长达数十年的时间里，人们普遍认为：

$$\text{选域 CI} \xrightarrow{\text{参数效率落后}} \text{张量网络 (DMRG)}$$

而 COO 以严苛的 Benchmark 数据宣告，一旦将单粒子基组与许多体选择性方法进行全变分协同求解，稀疏 CI 的潜力将被彻底释放：

$$\text{选域 CI + COO} \xrightarrow{\text{在多中心强关联中}} \text{大幅超越 DMRG/张量网络}$$

这对于解决诸如固氮酶活性中心（FeMoco）等生物催化中的世纪难题、寻找新型非贵金属多核催化剂以及未来在量子计算机上高效初始化多体波函数，都提供了全新的极具前景的物理和工程路线。