二分乔莱斯基图网络（BCGN）：用张量分解重构多体量子化学深度学习

来源论文: https://arxiv.org/abs/2605.25268v1 生成时间: May 26, 2026 12:42

0. 执行摘要

在量子化学与凝聚态物理的核心领域，精确预测分子的电子关联能（Correlation Energy）是理解化学反应机制、材料物性以及进行药物设计的基石。然而，求解多体薛定谔方程的核心难点在于高维度的电子排斥积分（Electron Repulsion Integral, ERI）。作为一个四阶张量，ERI 的存储与计算复杂度随基组大小 $N$ 呈 $O(N^4)$ 指数级增长，这成为了经典算法与现代机器学习（ML） surrogate 模型的共同瓶颈。

为了绕过这一“维度灾难”，现有的轨道空间图神经网络（Orbital GNNs）通常采用激进的降维策略（例如将 ERI 压缩为一维标量描述符或经典的库仑 $J$ / 交换 $K$ 矩阵）。这种对相互作用拓扑的剪枝虽然降低了计算量，但不可避免地抹去了对于描述动力学电子关联至关重要的高阶协同相互作用信息。

近期发表的论文《Bipartite Cholesky Graph Networks for Many-Body Quantum Chemistry》提出了一种颠覆性的解决方案——二分乔莱斯基图网络（Bipartite Cholesky Graph Network, BCGN）。该方法不仅没有被动地适应或强行压缩 ERI 物理张量，反而巧妙地利用不完全乔莱斯基分解（Incomplete Cholesky Decomposition）的数学性质，自然地在轨道自由度与辅助相互作用通道之间诱导出了一个二分消息传递图架构。

核心突破：

物理与算法的同构性：证明了 ERI 的三阶 Cholesky 因子 $B^L_{pq}$ 能够直接作为图的无源、确定性连接权重，从而建立了一个将物理算符直接映射为图拓扑结构的严谨框架。
次三次方计算复杂度：通过 Dense Einsum 操作进行张量收缩，避免了显式构建 $O(N^4)$ 大小的邻接矩阵，在保持高阶关联信息的同时，实现了 $O(N^{2.20})$ 的经验前向传播复杂度。
卓越的预测精度：在 PennyLane 双原子分子基准数据集（涵盖 6 种分子、132 种几何构型）上，BCGN 实现了 0.0296 Ha 的五折交叉验证平均绝对误差（MAE），相比于传统压缩积分的 GNN 基线实现了近 17 倍的误差消减。
深刻的泛化可解释性：通过留一分子（LOMO）跨物种零射（Zero-Shot）验证，揭示了模型的泛化能力并不简单取决于核电荷不对称性（$\Delta Z$），而是与目标分子在轨道空间中的“结构相似度”密切相关。

1. 核心科学问题、理论基础、技术难点与方法细节

1.1 核心科学问题：多体关联与 $O(N^4)$ 维度灾难

在非相对论量子化学中，系统在特定基组下的电子哈密顿量在二次量子化表示下写为：

$$\hat{H} = \sum_{pq}^{N} h_{pq} \hat{a}^\dagger_p \hat{a}_q + \frac{1}{2} \sum_{pqrs}^{N} g_{pqrs} \hat{a}^\dagger_p \hat{a}^\dagger_q \hat{a}_s \hat{a}_r$$

其中：

$h_{pq}$ 是单电子核心哈密顿矩阵（One-electron core Hamiltonian），描述电子的动能以及电子与原子核之间的静电吸引作用。
$g_{pqrs}$ 即为双电子排斥积分（ERI）张量，定义为两个轨道对密度之间的库仑相互作用：

$$g_{pqrs} = (pq|rs) = \iint \phi_p^*(\mathbf{r}_1)\phi_q(\mathbf{r}_1) \frac{1}{|\mathbf{r}_1 - \mathbf{r}_2|} \phi_r^*(\mathbf{r}_2)\phi_s(\mathbf{r}_2) d\mathbf{r}_1 d\mathbf{r}_2$$

当空间轨道数量为 $N$ 时，$g_{pqrs}$ 的总元素量为 $N^4$。在后哈特里-福克（Post-Hartree-Fock）多体方法中（如全构型相互作用 FCI、耦合簇理论 CCSD(T)），计算能量的核心在于将 $g_{pqrs}$ 与各类约化密度矩阵（RDMs）进行高维张量收缩。对于 $N=100$ 的中等体系，ERI 包含 $10^8$ 个矩阵元素；而 $N=1000$ 时则膨胀至 $10^{12}$，不仅计算极其昂贵，其内存占用也超出了传统硬件的极限。

传统的轨道机器学习（如 OrbNet, SchNOrb 等）为了在神经网络中输入这些特征，通常采用以下压缩策略：

库仑均值化（Mean-field Compression）：将 ERI 降维为库仑矩阵 $J_{pq} = \sum_{rs} g_{pqrs} D_{rs}$ 和交换矩阵 $K_{pq} = \sum_{rs} g_{prqs} D_{rs}$（其中 $D_{rs}$ 为一阶密度矩阵）。
标量化特征工程：提取矩阵的迹、本征值或低维物理描述符。

这些压缩方法抹去了四中心（four-center）相互作用中空间轨道的相对拓扑关联，使得 GNN 无法在更高阶的流形上重构多体散射路径，限制了其学习真正电子关联能（Correlation Energy, $\Delta E_{corr} = E_{FCI} - E_{HF}$）的能力。

1.2 理论基础：正定超矩阵与不完全乔莱斯基分解

BCGN 的物理本源基于一个关键的数学事实：由库仑核（Coulomb Kernel） $1/|\mathbf{r}_1 - \mathbf{r}_2|$ 诱导的 ERI 超矩阵具有半正定性（Positive Semi-Definite, PSD）。

如果我们定义复合指数映射（Composite Index Mapping） $I = (pq)$ 和 $J = (rs)$，可以将四阶张量 $g_{pqrs}$ 展平为一个大小为 $N^2 \times N^2$ 的对称超矩阵 $\mathbf{G}$：

$$G_{I,J} \equiv g_{pqrs}$$

由于 $\mathbf{G}$ 是半正定的，根据矩阵分析理论，必然存在一个（不完全的）乔莱斯基分解：

$$\mathbf{G} \approx \mathbf{L}\mathbf{L}^T$$

我们设定一个截断容差 $\epsilon$。将上述矩阵乘积形式重新展开回轨道复合指数，可以得到：

$$g_{pqrs} \approx \sum_{L=1}^{N_{aux}} B^L_{pq} B^L_{rs}$$

其中：

$N_{aux}$ 是辅助基组（Auxiliary Basis）的大小。在实际的高精度量子化学计算中（如密度拟合技术 Density Fitting），由于线性相关性的存在，$N_{aux} \approx 2N \sim 3N$ 即可保证极高的精度（截断误差 $\epsilon < 10^{-6}$ a.u.）。
$B^L_{pq}$ 即为三阶 Cholesky 因子张量，其维度为 $N_{aux} \times N \times N$。

这一变换的物理与计算意义极为深远：

参数空间降维：将交互空间从 $O(N^4)$ 成功压缩至 $O(N^2 N_{aux}) \approx O(N^3)$。
物理意义解耦：四中心积分 $g_{pqrs}$ 被解耦成了两个双中心（two-center）跃迁密度与一个辅助虚拟通道 $L$ 耦合的产物。这在形式上与场论中的哈伯德-斯特拉托诺维奇（Hubbard-Stratonovich）变换或辅助场（Auxiliary Field）理论高度契合，为图神经网络中引入中间辅助媒介节点提供了坚实的物理学支撑。

1.3 技术难点：如何在 GNN 中保持张量对称性与避免 explicit $O(N^4)$ 构建

如果在 GNN 中显式地为每一个四中心相互作用建立一条超边（Hyperedge），图的拓扑规模仍将是 $O(N^4)$。如何在消息传递中既利用 Cholesky 分解的低阶优势，又不显式写出或生成任何 $O(N^4)$ 的中间状态，是该项工作最核心的技术难点。

BCGN 的核心设计是引入了二分图拓扑结构 $\mathcal{G} = (\mathcal{V}_O, \mathcal{V}_A, \mathcal{E})$：

轨道节点（Orbital Nodes） $\mathcal{V}_O$：包含 $N$ 个节点，代表系统的分子轨道自由度。初始特征 $\mathbf{x}_p^{(0)}$ 由单电子核心哈密顿量 $h_{pq}$ 的对角元和行范数构成。
辅助相互作用节点（Auxiliary Interaction Nodes） $\mathcal{V}_A$：包含 $N_{aux}$ 个节点，代表不完全 Cholesky 分解派生出的辅助相互作用通道。初始特征 $\mathbf{h}_L^{(0)}$ 设为全零向量。
二分连接边 $\mathcal{E}$：边仅存在于轨道对 $(p, q)$ 与辅助节点 $L$ 之间，其权重由确定性的 Cholesky 因子 $B^L_{pq}$ 充当。特别注意：轨道与轨道之间、辅助节点与辅助节点之间不设置任何直接物理边。

这一架构完美避开了显式的高阶边连接，将原本复杂的四阶关联流转转译为了一个纯粹的“轨道 $\leftrightarrow$ 辅助通道 $\leftrightarrow$ 轨道”的双向二分流动过程。

 轨道节点 V_O:     [ ψ_p ]       [ ψ_q ]       [ ψ_r ]       [ ψ_s ]
                      \           /             \           /
     边权重 B^L_pq:    B^{L1}_pq  /               \         / 
                        \       /                 \       /  B^{L3}_rs
                         ▼     ▼                   ▼     ▼
 辅助节点 V_A:          [  L1  ]      [  L2  ]      [  L3  ]

1.4 方法细节：双向二分消息传递算法（Bipartite Message Passing）

BCGN 的每一次前向传播迭代包含以下两个核心的消息收缩步骤：

1.4.1 轨道到辅助（Orbital-to-Auxiliary, O2A）的消息聚集

为了让辅助节点捕获空间中所有轨道对的协同涨落，我们将当前步骤中任意两个轨道 $p$ 和 $q$ 的潜在状态特征做 Hadamard 积（元素级乘积 $\odot$），模拟出轨道对密度的 bilinear 交互。随后，通过 Cholesky 因子权重 $B^L_{pq}$ 进行加权求和，聚集到辅助节点 $L$：

$$\mathbf{m}_L^{(t)} = \sum_{p=1}^{N} \sum_{q=1}^{N} B^L_{pq} \left( \mathbf{x}_p^{(t)} \odot \mathbf{x}_q^{(t)} \right)$$

其中，$\mathbf{x}_p^{(t)}, \mathbf{x}_q^{(t)} \in \mathbb{R}^H$ 分别为轨道 $p, q$ 在第 $t$ 步的隐藏状态特征。该公式计算得到的 $\mathbf{m}_L^{(t)} \in \mathbb{R}^H$ 即为辅助节点收到的综合场信息。

接着，辅助节点通过一个共享参数的多层感知机（MLP）更新自身状态：

$$\mathbf{h}_L^{(t+1)} = \mathbf{h}_L^{(t)} + \sigma \left( \mathbf{W}_A^{(t)} \mathbf{m}_L^{(t)} \right)$$

这里 $\mathbf{W}_A^{(t)}$ 是可学习的线性变换矩阵，$\sigma$ 为非线性激活函数。

1.4.2 辅助到轨道（Auxiliary-to-Orbital, A2O）的消息广播

在辅助节点完成了关联信息的非线性聚合后，需要将这些多体极化信息广播回每个单独的物理轨道。此时，辅助节点的状态 $\mathbf{h}_L^{(t+1)}$ 通过相同的 Cholesky 耦合键重新分配，并与另一轨道 $q$ 的状态协同作用，更新目标轨道 $p$：

$$\mathbf{m}_p^{(t)} = \sum_{L=1}^{N_{aux}} \sum_{q=1}^{N} B^L_{pq} \left( \mathbf{h}_L^{(t+1)} \odot \mathbf{x}_q^{(t)} \right)$$

最后，通过轨道更新网络（MLP）更新轨道的表示，并引入残差连接：

$$\mathbf{x}_p^{(t+1)} = \mathbf{x}_p^{(t)} + \sigma \left( \mathbf{W}_O^{(t)} \mathbf{m}_p^{(t)} \right)$$

通过设计这两步对偶的收缩过程，模型实现了等价于物理上对 $g_{pqrs}$ 的全收缩操作，但最大张量维度在计算过程中始终不超过三阶（即 $B^L_{pq}$ 的 $N_{aux} \times N \times N$）。

2. 关键 Benchmark 体系、计算数据与性能分析

为了严谨评估 BCGN 的物理表征能力和计算效率，论文在控制变量的严格条件下，将其与一系列主流机器学习基线模型进行了对比测试。

2.1 关键测试体系：PennyLane 双原子分子基准集

数据集选用了广泛应用于轨道机器学习测试的 PennyLane diatomic benchmark。该数据集具有极强的代表性，专为评估模型在不同键长（化学键断裂过程中的强关联区域）下的表现而设计：

涵盖分子：6 种双原子分子，包括异核双原子分子（CO、HF、LiH）和同核双原子分子（$\text{Li}_2$、$\text{N}_2$、$\text{O}_2$）。
几何构型：每种分子包含 22 个不同的键长采样点（从高压缩状态到平衡键长，再到拉伸解离状态），共计 132 个独立分子几何构型。
基组设定：统一采用 STO-3G 最小基组，通过 PySCF 提取一电子积分 $h_{pq}$ 以及设定筛选阈值为 $10^{-6}$ a.u. 的 Cholesky 向量 $B^L_{pq}$。
参考能量：使用精确的 全构型相互作用（FCI） 能量作为 Ground Truth。靶向预测目标设定为更具挑战性的纯电子关联能： $$\Delta E_{corr} = E_{FCI} - E_{HF}$$

2.2 性能对比测试结果（5-Fold Cross-Validation）

表 1 汇总了 BCGN 与其他同等隐藏维度、相同训练流程下的基线模型在五折交叉验证（Out-of-Fold, OOF）下的预测 MAE 表现：

表 1：FCI 电子关联能预测的五折交叉验证平均绝对误差（MAE）对比

模型	图拓扑结构设计 / 特征表示	MAE (Hartree)
MLP (Flattened $h_{pq}$)	无图结构，直接展平一电子哈密顿矩阵	$1.02 \pm 0.15$
DeepSets	无消息传递，各轨道特征解耦嵌入后直接加和	$0.85 \pm 0.12$
Compressed Orbital GNN	基于压缩的 $J$ (库仑) 和 $K$ (交换) 矩阵迹构建静态边特征	$0.51 \pm 0.08$
$\text{GNN}_G$ (Carrasquilla-Gomez, 2025)	基于 Fock / $J$ / $K$ 矩阵构建的分子轨道图网络	$\sim 0.55$
Bipartite-Chol (Ours)	由 Cholesky 分解自然诱导的二分图消息传递	0.0296 $\pm$ 0.0176
Ablation: No Aux. Nodes	消融实验：移除辅助通道，退化为同质轨道 Deep-Set 聚合	$0.0665 \pm 0.0173$

核心结论分析：

关联精度的飞跃：BCGN 取得了 0.0296 Ha 的极低误差。这相比于传统的压缩轨道 GNN 基线（0.51 Ha）降低了 17.2 倍 的预测误差。这意味着显式地保留 Cholesky 辅助通道对提取动力学关联效应具有决定性的影响。
消融实验的支撑：当移除辅助中间节点（Ablation: No Aux. Nodes），模型退化为纯轨道自聚合网络时，预测 MAE 骤增至 0.0665 Ha（误差增大 2.2 倍）。这定量证实了“轨道-辅助通道”消息传递回路在物理表达上的不可替代性。
Δ-ML 框架的优势：传统基于绝对总能量 $E_{FCI}$ 的直接预测往往被核排斥能 $V_{nn}$ 和哈特里-福克平均场能 $E_{HF}$ 的巨大方差（跨物种达 $10^2$ Ha 级别）主导，导致神经网络对微弱的多体关联效应（$\sim 10^{-1}$ Ha）不敏感。BCGN 通过靶向预测 $\Delta E_{corr}$，有效净化了损失函数的景观（Loss Landscape）。

2.3 跨物种零射泛化分析（Leave-One-Molecule-Out, LOMO）

为了评估该模型作为量子化学“通用关联能代理模型”的潜力，论文进行了一项极其严苛的泛化性测试：每次从 6 个分子中抽出 1 个分子作为完全未知的测试集，仅在其余 5 个分子上训练，随后进行零射（Zero-Shot）能量预测。

表 2：LOMO 跨分子零射预测 MAE 表现与核电荷不对称性对比

被留出（测试）分子	核电荷不对称性 $\Delta Z = \\|Z_A - Z_B\\|$	零射预测 MAE (Ha)
LiH	2	0.0401
HF	8	0.0785
$\text{O}_2$	0	0.0945
CO	2	0.1074
$\text{N}_2$	0	0.1130
$\text{Li}_2$	0	0.1611

泛化物理机制探讨：

通常人们会直觉地假设，对称性相同的分子（如同核双原子分子 $\Delta Z = 0$）之间泛化能力最强。然而，表 2 和图 4 展示了一个完全相反的有趣物理现象：

最易泛化的分子：LiH (MAE = 0.0401 Ha)。尽管它是异核分子，但其组成原子环境分别独立存在于训练集中的 $\text{Li}_2$ 和 HF 中。这意味着辅助相互作用节点已经从训练集中分别学习到了锂和氢原子的“相互作用先验”（Interaction Prior），因此能够实现无缝拼装组合。
最难泛化的分子：$\text{Li}_2$ (MAE = 0.1611 Ha)。虽然它是最对称的同核分子，但其化学键本质上是由两个非常弥散的 2s 轨道重叠 形成的极弱键 $\sigma$ 体系。而在其余五个训练分子（CO, HF, LiH, $\text{N}_2$, $\text{O}_2$）中，化学键全是由紧致的 2p 轨道 或混合的 $\sigma$-$\pi$ 系统主导。由于辅助节点此前从未遭遇过如此弥散的 2s 交互环境，导致该通道对 $\text{Li}_2$ 的极化关联能预测出现了明显的泛化偏差。

这表明：模型的泛化能力并不取决于宏观的核对称性特征 $\Delta Z$，而是完全由轨道空间（Hilbert 空间）的微观局域“结构相似度”决定的。

2.4 计算复杂度评估与实测 Scaling

理论上，不完全 Cholesky 分解的辅助基规模 $N_{aux} \sim O(N)$，因此 BCGN 双向收缩消息传递的理论复杂度极限为 $O(N^3)$。为了评估其在真实计算环境中的表现，作者在 CPU 平台上针对活性轨道数 $N \in \{10, 20, 30, 40, 50\}$ 进行了吞吐量和时间消耗基准测试。

经验缩放指数（Empirical Scaling）：拟合得出实测计算开销曲线为 $O(N^{2.20})$（参见图 2）。这显著优于显式计算或处理 ERI 张量的 $O(N^4)$ 门槛。
实际推断时间：对于包含 50 个活性轨道的体系，单次前向推断时间在普通消费级处理器上低于 20 ms。这证明了该方案在未来大规模化学数据库筛选中的高度实用性与可扩展性。

3. 代码实现细节、复现指南及开源工具链

本章提供一个完全自包含的、符合论文核心算法设计的 PyTorch 核心实现模块，并给出具体的数据集提取和复现操作步骤。

3.1 核心算法的 Python/PyTorch 代码实现

基于论文 Appendix A.3 节所述的张量代数设计，我们使用 torch.einsum 构建核心的 BipartiteCholeskyLayer 和完整的 BipartiteCholeskyGNN。

import torch
import torch.nn as nn

class BipartiteCholeskyLayer(nn.Module):
    """
    论文核心：二分乔莱斯基消息传递层
    执行双向收缩过程：
    1. 轨道 -> 辅助通道 (O2A)
    2. 辅助通道 -> 轨道 (A2O)
    """
    def __init__(self, hidden_dim:
                 int):
        super(BipartiteCholeskyLayer, self).__init__()
        # 辅助节点状态更新网络 (W_A)
        self.W_A = nn.Linear(hidden_dim, hidden_dim)
        # 轨道节点状态更新网络 (W_O)
        self.W_O = nn.Linear(hidden_dim, hidden_dim)
        # 激活函数选用广泛的带有非线性自适应能力的 SiLU (Swish)
        self.act = nn.SiLU()

    def forward(self, x: torch.Tensor, h_L: torch.Tensor, B: torch.Tensor):
        """
        参数:
            x: 轨道节点隐藏状态特征, 维度: [Batch, N_orb, Hidden_dim]
            h_L: 辅助节点隐藏状态特征, 维度: [Batch, N_aux, Hidden_dim]
            B: 确定性 Cholesky 三阶因子张量, 维度: [Batch, N_aux, N_orb, N_orb]
        """
        # ========================================== #
        # 步骤 1: 轨道到辅助 (O2A) 消息聚合 (公式 5)
        # 计算每一个轨道对 (p, q) 的 Hadamard 积并与 Cholesky 因子收缩
        # Einstein 符号说明:
        #   b: Batch 维度
        #   L: N_aux (辅助通道数)
        #   p, q: N_orb (轨道索引)
        #   h: Hidden_dim (隐藏层特征维度)
        # ========================================== #
        m_L = torch.einsum('bLpq,bph,bqh->bLh', B, x, x)
        
        # 更新辅助节点状态 (公式 6)
        h_L_new = h_L + self.act(self.W_A(m_L))

        # ========================================== #
        # 步骤 2: 辅助到轨道 (A2O) 消息广播 (公式 7)
        # 将更新后的辅助状态广播回每个轨道对，最终收缩至单轨道 p
        # ========================================== #
        m_p = torch.einsum('bLpq,bLh,bqh->bph', B, h_L_new, x)
        
        # 更新轨道节点状态并应用残差连接 (公式 8)
        x_new = x + self.act(self.W_O(m_p))
        
        return x_new, h_L_new


class BipartiteCholeskyGNN(nn.Module):
    """
    完整的 Bipartite Cholesky 图神经网络模型
    """
    def __init__(self, input_dim: int = 2, hidden_dim: int = 128, num_layers: int = 3):
        super(BipartiteCholeskyGNN, self).__init__()
        # 轨道特征投影嵌入层
        self.embedding = nn.Linear(input_dim, hidden_dim)
        
        # 构建多层二分消息传递层
        self.layers = nn.ModuleList([
            BipartiteCholeskyLayer(hidden_dim) for _ in range(num_layers)
        ])
        
        # 最终池化与关联能回归头
        self.regressor = nn.Sequential(
            nn.Linear(hidden_dim, hidden_dim),
            nn.SiLU(),
            nn.Linear(hidden_dim, 1)  # 预测标量 Delta E_corr
        )

    def forward(self, h_pq_diag: torch.Tensor, h_pq_row_norm: torch.Tensor, B: torch.Tensor):
        """
        参数:
            h_pq_diag: 核心一电子哈密顿量对角元, 维度: [Batch, N_orb]
            h_pq_row_norm: 一电子哈密顿量行范数, 维度: [Batch, N_orb]
            B: Cholesky 因子张量, 维度: [Batch, N_aux, N_orb, N_orb]
        """
        batch_size, n_aux, n_orb, _ = B.shape
        device = B.device
        
        # 1. 拼装初始化轨道特征 (x_p = [h_pp, ||h_p||_2])
        x_init = torch.stack([h_pq_diag, h_pq_row_norm], dim=-1) # [Batch, N_orb, 2]
        x = self.embedding(x_init)                              # [Batch, N_orb, Hidden_dim]
        
        # 2. 初始化辅助节点特征为零
        h_L = torch.zeros(batch_size, n_aux, x.shape[-1], device=device)
        
        # 3. 逐层进行双向消息传递
        for layer in self.layers:
            x, h_L = layer(x, h_L, B)
            
        # 4. 对轨道表示进行全局池化 (Sum Pooling)
        g_x = torch.sum(x, dim=1) # [Batch, Hidden_dim]
        
        # 5. 回归预测能量目标值
        out_energy = self.regressor(g_x).squeeze(-1) # [Batch]
        return out_energy

3.2 深度复现指南：数据预处理与工具链安装

要完全复现此项目，需要结合量子化学第一性原理计算软件与深度学习计算框架。以下是完整的环境构建与数据流水线流程：

3.2.1 基础环境安装依赖包

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install pyscf pennyLane numpy scipy pandas tensorboard

3.2.2 数据预处理脚本：从几何构型到 Cholesky 特征提取

使用 PySCF 完成 Hartree-Fock 自洽场计算，并执行 ERI 的不完全乔莱斯基分解：

import numpy as np
from pyscf import goc, scf

def generate_cholesky_data(xyz_string, basis='sto-3g', threshold=1e-6):
    """
    输入分子几何坐标，计算单电子积分并对 ERI 进行不完全乔莱斯基分解
    """
    # 1. 初始化分子体系
    mol = goc.Mole()
    mol.atom = xyz_string
    mol.basis = basis
    mol.build()
    
    # 2. 运行 Hartree-Fock 自洽场计算
    mf = scf.RHF(mol)
    mf.kernel()
    
    # 提取分子轨道系数矩阵 C
    mo_coeff = mf.mo_coeff
    
    # 3. 获取分子轨道表象下的一电子哈密顿矩阵 h_pq
    h_core_ao = mf.get_hcore()
    h_pq = np.einsum('pi,pq,qj->ij', mo_coeff, h_core_ao, mo_coeff)
    h_diag = np.diag(h_pq)
    h_row_norm = np.linalg.norm(h_pq, axis=1)
    
    # 4. 提取双电子积分并执行 Cholesky 分解
    # 提取自积分超矩阵 G (维度为 N^2 x N^2)
    eri_ao = mol.intor('int2e') # AO 表象下的 ERI
    # 将 ERI 变换至 MO 表象 (gpqrs)
    eri_mo = goc.ao2mo.kernel(mol, mo_coeff)
    # 注: PySCF 返回的 eri_mo 通常是紧凑的对称二维数组, 我们需恢复其全四阶张量形式
    n_mo = mo_coeff.shape[1]
    eri_full = goc.ao2mo.restore(1, eri_mo, n_mo) # [N, N, N, N]
    
    # 展平成超矩阵 G_IJ
    G_IJ = eri_full.reshape(n_mo**2, n_mo**2)
    
    # 5. 执行不完全 Cholesky 分解 (利用 Pivoted Cholesky 避免低本征值奇异性)
    # 这里为了演示提供一个利用 scipy 的标准 Pivoted Cholesky 的近似流程
    from scipy.linalg import cholesky
    # 实际生产中可以采用 PySCF 的 density fitting 模块或定制的 screening 循环
    try:
        L_flat = cholesky(G_IJ, lower=True, check_finite=False)
        n_aux = L_flat.shape[1]
    except Exception:
        # 如果存在微小负本征值，进行轻微正则化
        G_IJ += np.eye(G_IJ.shape[0]) * 1e-9
        L_flat = np.linalg.cholesky(G_IJ)
        n_aux = L_flat.shape[1]
        
    # 将扁平化 Cholesky 因子重构成三阶张量形式: B^L_pq [N_aux, N_orb, N_orb]
    B_L_pq = L_flat.T.reshape(n_aux, n_mo, n_mo)
    
    return {
        "h_diag": h_diag,          # [N_orb]
        "h_row_norm": h_row_norm,  # [N_orb]
        "B_L_pq": B_L_pq,          # [N_aux, N_orb, N_orb]
        "E_HF": mf.e_tot           # Hartree-Fock 参考总能量
    }

3.2.3 官方开源仓库链接

本项目所有的开源模型、完整基准集数据预处理管道以及自动化训练测试脚本，均可以在以下地址获取： 👉 GitHub 开源地址: https://github.com/maestroK/bipartite-cholesky-gnn

4. 关键引用文献与局限性评述

4.1 关键引用文献

本工作建立在量子化学数值近似方法与先进图几何深度学习的交叉结合之上，关键前置性学术成果包括：

Beebe & Linderberg (1977) [Simplications in the generation and transformation of two-electron integrals]:
- 理论奠基：首次将不完全乔莱斯基分解引入电子排斥积分处理，奠定了后哈特里-福克计算中降维的理论根基。
Ramakrishnan et al. (2015) [Big data meets quantum chemistry approximations: The $\delta$-machine learning approach]:
- 框架来源：提出了 $\Delta$-机器学习范式，通过预测高级别基底（如 FCI）与低级别近似（如 HF）之间的差值（即能量偏置），大幅降低了模型在拟合势能面时的优化难度。
Qiao et al. (2020) [Orbnet: Deep learning for quantum chemistry using symmetry-adapted atomic-orbital features]:
- 技术参照：展示了如何通过将紧束缚轨道特征输入 GNN 来代替空间核三维坐标，从而显著提升分子能量预测的物理外推泛化力。
Carrasquilla-Gomez & Vargas-Hernández (2025) [Graph neural networks on one- and two-body integrals for molecular energy prediction]:
- 直接竞争基线：开发了一种直接利用 Fock 矩阵、库仑 $J$ 矩阵和交换 $K$ 矩阵的对角线和非对角项构建分子图拓扑的方法，是 BCGN 最强有力的领域参照基准。

4.2 局限性深度评述（Critical Critique）

尽管 BCGN 在精度和形式主义上取得了令人瞩目的突破，但从严苛的工业应用和学术深耕角度审视，该方法依然存在以下局限性：

4.2.1 基组依赖性与维数爆炸（Basis Set Extrapolation Limitation）

当前研究仅在极其局限的最小基组（STO-3G）下完成了实证评估。在 STO-3G 下，分子的活性轨道数 $N$ 通常很小（例如 CO 仅有 10 个空间轨道）。而在真实高精度化学计算中，为了逼近基组极限，通常需要采用诸如 cc-pVDZ、cc-pVTZ 乃至更庞大的相关一致极化基组。

技术瓶颈：随着基组规模增加，轨道数 $N$ 会轻松突破数百或数千。尽管 BCGN 的复杂度为 $O(N^3)$，但由于中间的 $B^L_{pq}$ 耦合边维度为 $N_{aux} \times N \times N$，当 $N=1000$ 时，$N^2 \times N_{aux} \approx 2 \times 10^9$ 个浮点数。这在单张 GPU 显存中面临着严重的内存写瓶颈，其物理收缩在没有分布式张量并行优化的场景下将难以运转。

4.2.2 轨道排序不一致性导致的跨分子对齐难点（The Sorting & Permutation Invariance Puzzle）

虽然论文在 5.5 节中通过对同一分子内的轨道索引进行任意置换（Permutation），验证了模型能保持极佳的等变性（能量预测误差 $< 10^{-5}$ Ha）。然而，跨分子的轨道对齐依旧是一个棘手的隐形问题：

机理挑战：Cholesky 分解是一个纯代数计算过程，其输出的辅助轴 $L = 1, 2, \dots, N_{aux}$ 是根据数值重要性（Pivoting 机制）自适应排序的。不同化学体系在经历乔莱斯基分解后，其第 $L$ 个辅助节点所代表的物理极化通道可能风马牛不相及（例如在 HF 中可能代表氢原子的 s 极化，而在 CO 中可能代表碳原子的 p-d 轨道跃迁）。在这种情况下，跨分子的共享 MLP 权重 $\mathbf{W}_A$ 必须具有极强的鲁棒性才能在如此异构的轨道通道空间中抽象出通用先验。

4.2.3 单参考态（Single-Reference）框架绑定

BCGN 输入强依赖于底层的哈特里-福克参考态（RHF 或 ROHF）提供的一电子哈密顿特征与分子轨道系数。当面对强关联体系（Strongly Correlated Systems）（如过渡金属催化剂、光化学反应中的过渡态、化学键在解离极限处的完全断裂区）时，由于静态关联效应极其显著，单参考态哈特里-福克方法本身会发生波函数不稳定性崩溃，提供完全失真的物理基底。此时，BCGN 将面临“垃圾进，垃圾出”（Garbage in, Garbage out）的尴尬境地，如何将其推广至多参考态（Multi-Reference, 如 CASSCF）框架是当前亟待解决的难点。

5. 其他必要的学术补充与前瞻展望

5.1 数学证明：BCGN 预测能量对轨道置换的严格不变性

在量子力学中，轨道的标记和索引顺序是人为设定的，因此任何合理的物理表征学习网络，其最终预测能量值必须在轨道重排列下保持严格的不变性（Permutation Invariance）。以下提供 BCGN 架构能够天然保护此置换不变性的严谨数学论证：

设 $\mathbf{\Pi} \in \mathbb{R}^{N \times N}$ 为任意一个轨道置换矩阵。在进行轨道重排后，输入的一电子哈密顿矩阵和 Cholesky 因子变换为：

$$h'_{pq} = \sum_{a,b} \Pi_{pa} \Pi_{qb} h_{ab}$$$$B'^{L}_{pq} = \sum_{a,b} \Pi_{pa} \Pi_{qb} B^L_{ab}$$

对应的初始轨道节点特征发生了同样的置换变换：$\mathbf{x}'^{(0)}_{p} = \mathbf{x}^{(0)}_{\pi(p)}$。

现在我们考察在第 $t$ 次 O2A 消息传递中，辅助节点 $L$ 聚集到的消息 $\mathbf{m}'^{(t)}_L$：

$$\mathbf{m}'^{(t)}_L = \sum_{p,q} B'^{L}_{pq} \left( \mathbf{x}'^{(t)}_{p} \odot \mathbf{x}'^{(t)}_{q} \right)$$

代入置换关系式：

$$\mathbf{m}'^{(t)}_L = \sum_{p,q} \left[ \sum_{a,b} \Pi_{pa} \Pi_{qb} B^L_{ab} \right] \left( \mathbf{x}^{(t)}_{\pi(p)} \odot \mathbf{x}^{(t)}_{\pi(q)} \right)$$

由于置换矩阵具有唯一的非零映射性质 $\pi(p) = a$ 且 $\pi(q) = b$，对整个双重和空间重构变换后可知：

$$\mathbf{m}'^{(t)}_L = \sum_{a,b} B^L_{ab} \left( \mathbf{x}^{(t)}_{a} \odot \mathbf{x}^{(t)}_{b} \right) = \mathbf{m}^{(t)}_L$$

此结果表明：置换仅改变了局域轨道上的求和顺序，而辅助节点聚集的信息 $\mathbf{m}^{(t)}_L$ 以及其随后的状态更新 $\mathbf{h}_L^{(t+1)}$ 表现为置换下的绝对标量（严格不变）。

同理，对于 A2O 广播更新步骤，目标轨道的更新消息为：

$$\mathbf{m}'^{(t)}_p = \sum_{L,q} B'^{L}_{pq} \left( \mathbf{h}^{(t+1)}_L \odot \mathbf{x}'^{(t)}_q \right)$$

当作用于变换轨道时：

$$\mathbf{m}'^{(t)}_{\pi(p)} = \mathbf{m}^{(t)}_p$$

这完美证明了：虽然中间轨道节点的特征隐向量是置换协变的（Covariant），但其排列严格随着轨道索引的变换而同步变换。最终，我们在输出端通过对所有轨道隐藏表示进行完全无向的全局 Sum Pooling 操作：

$$\mathbf{X}_{global} = \sum_{p=1}^{N} \mathbf{x}_p$$

由于求和操作的交换律，最终送入 MLP 回归器的特征向量 $\mathbf{X}_{global}$ 能够不打任何折扣地保持严格的置换不变形。这一严谨的数学闭环保证了 BCGN 在物理应用中的高度确定性与预测结果的数值单值性。

5.2 场论视角：二分乔莱斯基网络与辅助场粒子流的映射关联

除了数学推导，BCGN 的二分连接结构也可以从更深刻的量子场论（Quantum Field Theory）中找到美妙的呼应。

在凝聚态物理求解关联电子体系时，Hubbard-Stratonovich 变换通常用来将具有四粒子交互的物理算符（如电子-电子排斥力，具有四脚顶点 $g_{pqrs}$）转换为两个独立的双脚顶点（跃迁密度算符 $\hat{\rho}_{pq} = \hat{a}^\dagger_p \hat{a}_q$）与一个随时间随机涨落的经典辅助标量玻色场（Auxiliary Boson Field, $\Phi_L$）的局部耦合：

 传统四脚顶点 (g_pqrs):           Cholesky / HS 变换 (B^L_pq): 
     p \     / r                        p \     / r
        \   /                              \   /  
         ●====●   (ERI 相互作用)            ●===■===● 
        /   \                              /   |   \  
     q /     \ s                        q /    |    \ s
                                             玻色场 (Auxiliary Field L)

BCGN 正是在神经网络体系中具象化了这一场论思想：

它没有允许轨道与轨道之间发生复杂的超多体信息混淆，而是强制规定所有的关联信息流必须首先坍缩至“辅助相互作用通道” $V_A$。
这些辅助节点正是涨落玻色场 $\Phi_L$ 在网络中的映射。它们接收来自轨道对的动态极化信息，进行非线性自我激发更新（QFT 中的极化自能修正），然后再将这种屏蔽/增强后的介电物理场反馈回周边电子轨道。

这种优雅的、将先进的凝聚态理论物理学原理直接嫁接到图深度学习架构的设计思路，不仅提供了令人信服的可解释性，更为后续探索将此类神经网络用于强关联阻挫系统、超导物理学建模等前沿科学应用打开了充满想象力的新大门。