来源论文: https://arxiv.org/abs/2606.07879v1 生成时间: Jun 09, 2026 06:07

强化学习驱动的自动活性空间选择：RLEASE 架构深度解析与量化化学实践指南

0. 执行摘要

在现代量子化学中，强关联（Strong Correlation）和多参考（Multireference）体系的精确描述一直是最具挑战性的前沿课题之一。这类体系——包括共价键断裂过程、过渡金属催化剂、双自由基中间体及电子激发态——其波函数无法通过单一 Slater 行列式进行定性描述。通常，量子化学家们需要借助于完整活性空间自共合场（CASSCF）或密度矩阵重整化群（DMRG）方法来处理活性空间（Active Space）内的静态关联，并辅以多参考微扰理论（如 sc-NEVPT2）或耦合簇理论来回收动态关联。

然而，如何合理选择活性空间（Active Space Selection）是该领域长达数十年的瓶颈。 传统的活性空间选择极度依赖于专家的化学直觉，通常需要通过昂贵且低效的“试错法（Trial-and-Error）”进行。近年来，基于单轨道熵（Single-Orbital Entropy, $s_1$）的自动选择方法（如 autoCAS）虽然取得了一定成功，但其严重依赖于前期的“试探性 DMRG（Pilot DMRG）”计算，这在大基组或复杂体系中本身就面临高昂的计算成本，且其阈值选择依然具有一定的经验性和主观性，无法保证下游能量计算的误差最小化。

为了打破这一局限，PsiQuantum 团队提出了 RLEASE（Reinforcement Learning Efficient Active Space Engine）。这是一种全新的、基于强化学习的高效活性空间引擎。RLEASE 的核心思想是将活性空间选择问题重构为一个端到端学习的、能量驱动的优化问题：

低成本特征预测：利用一个深度神经网络，仅通过极其廉价的 Hartree-Fock（HF）轨道描述符，即可精确预测每个轨道的单轨道熵诊断分数 $\hat{s}_1$，从而彻底免去了昂贵的 Pilot DMRG 计算。
能量驱动的策略优化：引入近端策略优化（PPO）算法，动态学习一个与分子几何构型密切相关的标量阈值 $\tau$。该阈值直接将轨道划分为活性空间与非活性空间。
直接的能量反馈（Reward）：策略网络在训练中以预测活性空间下的 sc-NEVPT2 能量与精确 DMRG 参考能量之间的偏差作为奖励信号，确保所选活性空间在物理上直接服务于下游能量的精确度。
极强的泛化能力：RLEASE 仅在 STO-3G 极小基组下对 3 个简单的分子（$\text{Na}_2$、$\text{ClF}$、$\text{SiO}_2$）进行了训练，便能完美泛化至包含主族双原子分子、多原子分子、自由基体系以及过渡金属氢化物（如 $\text{ZnH}$、$\text{CuH}$）的化学多样性测试集，并能直接无缝迁移到 cc-pVDZ 等大基组下，保持极高的能量预测精度和活性空间紧凑性。

RLEASE 实现了在部署阶段无需任何 Pilot DMRG 计算或分子特异性的重新训练，推理时间在毫秒级别，为高通量多参考计算工作流和未来基于容错量子计算（FTQC）的活性空间约化开辟了全新的技术路径。

1. 核心科学问题、理论基础与方法细节

1.1 核心科学问题：活性空间选择的症结

在完整活性空间（CAS）框架下，轨道的选择决定了计算的成败。活性空间太小，会导致 zeroth-order 参考波函数定性错误，后续的微扰修正（如 NEVPT2）也无法修复此物理缺陷；活性空间太大，则会导致计算复杂度呈指数级爆炸（FCI 的尺度为 $O(N!)$）。

理想的自动选择算法应当满足以下四个条件：

几何自适应性（Geometry Dependence）：在势能面上，随着化学键的拉伸，强关联的特征会发生剧烈变化。选择器必须能沿着反应路径动态调整活性空间大小。
能量耦合性（Energy Coupling）：选择机制应当与下游的关联能回收方法直接挂钩，而不是脱节的预处理步骤。
低成本性（Low Cost）：部署时不能依赖于本身就很昂贵的高精度多参考计算。
化学泛化性（Generalization）：能够处理训练集之外的全新化学环境，而无需重新训练。

现有方案中，autoCAS 解决了“几何自适应性”，但无法满足“低成本性”；而传统的机器学习方案直接预测固定大小的活性空间，剥离了与物理能量的直接关联，丧失了“能量耦合性”与“几何自适应性”。

1.2 理论基础

1.2.1 单轨道熵 (Single-Orbital Entropy)

在多参考计算中，定量表征轨道关联度的经典工具是单轨道熵 $s_1(i)$。它源于量子信息论，定义为：

$$s_1(i) = -\sum_{\alpha=1}^{4} \omega_{\alpha}^{(i)} \ln \omega_{\alpha}^{(i)}$$

其中，$\omega_{\alpha}^{(i)}$ 是第 $i$ 个轨道的单轨道约化密度矩阵（1-RDM）的特征值。由于每个空间轨道在电子配置上存在四种可能状态：空轨道（$|0\rangle$）、单电子自旋向上（$|\uparrow\rangle$）、单电子自旋向下（$|\downarrow\rangle$）以及双占据（$\lvert\uparrow\downarrow\rangle$），因此特征值之和为 1，且 $s_1(i) \in [0, \ln 4]$。当 $s_1(i) \approx 0$ 时，说明该轨道可以用单行列式完美描述（接近纯的双占据或空轨道）；而当 $s_1(i)$ 显著大于 0 时，则表明该轨道与其它轨道存在强烈的纠缠，具有明显的多参考特征。然而，获取精确的 $s_1(i)$ 必须通过 DMRG 求解全空间波函数，这在计算上极为昂贵。

1.2.2 动态关联回收：sc-NEVPT2 与增减组合形式（ASF）

选定活性空间 $\mathcal{A}$ 后，静态关联在活性空间内被精确处理，而活性空间外的动态关联则通过两种方式回收：

强收缩N电子价态微扰理论（sc-NEVPT2）：
$$E_{\text{sc-NEVPT2}} = E_{\text{CASCI}} + E_{\text{NEVPT2}}^{\text{corr}}$$
它利用无侵入状态（intruder-state-free）的微扰表述，能经济地收回核心轨道与虚拟轨道带来的动态关联能。
增减组合耦合簇方法（Additive-Subtractive Formalism, ASF）：为了在经典和容错量子计算（FTQC）中融合多参考和高精度耦合簇，本文提出了基于耦合簇的 ASF 能谱估计。其表达式为：
$$E_{\text{ASF}} = E_{\text{full}}^{L} + \left( E^{H}(\mathcal{A}) - E^{L}(\mathcal{A}) \right)$$
其中：
- $L$ 代表低成本基线方法（如全空间单双取代耦合簇 CCSD 或外加三取代校正 CCSD(T)）。
- $H$ 代表高精度活性空间求解器（如 CASCI）。
- $\mathcal{A}$ 是 RLEASE 选择的活性空间。该公式通过扣除活性空间内的低阶耦合簇贡献（$E^L(\mathcal{A})$），并补偿为高精度的多参考处理（$E^H(\mathcal{A})$），有效地消除了关联能的双重计数（Double Counting）问题。这对于未来的量子计算尤为重要，因为高精度的 $E^H(\mathcal{A})$ 可以直接由量子硬件通过相位估计（QPE）等算法计算，而剩余的动态关联则可以在经典计算机上低成本回收。

1.3 RLEASE 方法细节与技术难点

RLEASE 的核心工作流由五个关键步骤组成：描述符构建 $\to$ 轨道熵神经网络预测 $\to$ 状态向量（State）表征 $\to$ PPO 强化学习决策 $\to$ 物理能量评估与奖励更新。

[HF 轨道] -> [26-D 描述符] -> [ML 轨道熵预测器] -> [状态向量构建] -> [PPO 策略网络]
                                                                           |
                                                                       预测阈值 τ
                                                                           |
[DMRG 参考能量] <- (计算 Reward) <- [sc-NEVPT2 能量评估] <- [活性空间 A(τ)] <-

1.3.1 26维分子轨道描述符（Orbital Descriptors）

为了在不进行任何关联计算的前提下捕捉轨道的物理化学特性，RLEASE 为每个分子轨道 $i$ 构建了一个包含 26 维特征的向量 $\mathbf{x}_i \in \mathbb{R}^{26}$：

能量学特征（4个分量）：
- canonical 轨道能 $\epsilon_i$
- 对角单电子积分 $h_{ii} = \langle i | \hat{h} | i \rangle$
- 对角双电子自排斥积分 $g_{iiii} = (ii|ii)$（用于表征轨道的局域化程度）
- 空间自乘积（Spatial Extent） $\langle r^2 \rangle_i = \langle i | \hat{r}^2 | i \rangle$（表征轨道的弥散性质）
偶极矩大小（1个分量）：
- 轨道偶极矩矢量的模长 $|\boldsymbol{\mu}_i| = |\langle i|\hat{\mathbf{r}}|i\rangle|$。使用模长而非笛卡尔分量，确保了描述符在分子整体刚性旋转下的不变形性（Rotational Invariance）。
占据与成键标签（2个分量）：
- 占据数标签 $n_i \in \{0, 1, 2\}$，指示其在 HF 行列式中是虚拟、单占据还是双占据。
- 成键性质标签：基于跨原子重叠权重系数 $S_{AB} = \sum_{\mu \in A} \sum_{\nu \in B} c_\mu S_{\mu\nu} c_\nu$ 累加计算。若单一原子贡献了该轨道超过 95% 的权重，则归类为非键轨道（0）；若总贡献为正，则归为成键（+1），为负则归为反键（-1）。
原子轨道投影成分（15个分量）：
- 采用二值化编码指示哪些 AO 壳层类型（如 1s, 2s, 3s… 3d, 4f, 5g 等 15 类）对该 MO 有贡献（以系数 $|c_\mu| > 10^{-8}$ 为判定基准）。这种设计巧妙地规避了显式的 Mulliken 种群分析，增强了对基组大小变化的鲁棒性。
近似对系数（APC）衍生特征（4个分量）：
- 引入基于双占据和虚拟轨道之间对角 Fock 与交换矩阵元计算出的 APC 纠缠分数（包含标准 APC 和及软占据变体，以避免开壳层体系中的不连续性）。

1.3.2 轨道熵神经网络预测器

该预测器 $f_\theta: \mathbb{R}^{26} \to \mathbb{R}$ 为一个 8 层的多层感知机（MLP），包含 Layer Normalization 和 ReLU 激活函数。训练的目标是最小化预测值 $\hat{s}_1(i)$ 与 DMRG 参考值 $s_1(i)$ 之间的 Smooth-$L_1$ 损失函数。为确保数值稳定性，对靶标值采用了 $\ln(1+x)$ 的正则化变换。

1.3.3 PPO 强化学习框架与技术难点

活性空间的选择（即决定哪些轨道进入活性空间）属于离散的、非微分的操作。梯度无法直接通过量子化学求解器（如自洽场与微扰计算）进行反向传播。因此，RLEASE 引入了强化学习中的 近端策略优化（PPO） 算法，将这一过程建模为一个策略搜索问题。

状态空间（State, $\mathbf{s} \in \mathbb{R}^{86}$）：由于分子的轨道数随体系大小而改变，RL 代理无法直接接收变长的轨道特征。RLEASE 将其转换为一个固定维度的 86 维状态向量 $\mathbf{s}$，包含：
1. 预测轨道熵 $\hat{s}_1$ 分布的 7 个统计量（均值、标准差、最大/最小值、中位数，以及超过 0.1 和 0.2 阈值的轨道比例）。
2. 对 26 维物理描述符在全空间轨道上进行池化（Pooling）得到的统计量（均值、标准差、最大值，共 $3 \times 26 = 78$ 个）。
3. 归一化后的分子大小（轨道数除以 60）。
动作空间（Action, $a = \tau \in \mathbb{R}^+$）：策略网络预测一个连续变量 $\tau > 0$。该动作通过一个由两层神经网络参数化的状态条件高斯分布（State-conditioned Gaussian Policy）产生：
$$\mu(\mathbf{s}) = \text{softplus}(\pi_\phi(\mathbf{s})), \quad \tilde{\tau} \sim \mathcal{N}(\mu(\mathbf{s}), \sigma^2), \quad \tau = \max(\tilde{\tau}, 0)$$
其中 $\sigma$ 是可学习的方差项。得到阈值后，所有满足 $\hat{s}_1(i) > \tau$ 的轨道进入活性空间 $\mathcal{A}$。
奖励函数（Reward, $r$）：奖励函数是驱动 RLEASE 实现“能量耦合”的灵魂。它的形式为：
$$r = - |E_{\text{DMRG}} - E_{\text{sc-NEVPT2}}(\mathcal{A})| - \lambda_n |\mathcal{A}|$$
这个设计包含两部分：
1. 物理精确度惩罚项：$|E_{\text{DMRG}} - E_{\text{sc-NEVPT2}}(\mathcal{A})|$，活性空间在 sc-NEVPT2 水平下的绝对能量误差。这迫使网络选择包含所有强关联轨道的空间。
2. 紧凑性正则化项：$\lambda_n |\mathcal{A}|$，对所选活性空间轨道数（$|\mathcal{A}|$）的惩罚项。在此项中，$\lambda_n = 0.05 \text{ eV}$（约 $1.15 \text{ kcal/mol}$ 或 $1.8 \text{ mEh}$）。它的物理意义在于：每额外引入一个轨道，必须带来大于 $0.05 \text{ eV}$ 的关联能精度提升，否则该轨道应当被排除在外。这一参数巧妙地平衡了“精确度”与“计算成本（紧凑性）”。

2. 关键 Benchmark 体系与计算所得数据

为了检验 RLEASE 的性能、外推能力和基组迁移性，设计了极为苛刻的测试场景：模型仅在 $\text{Na}_2$、$\text{ClF}$、$\text{SiO}_2$ 三个小分子及组成原子的 STO-3G 极小基组势能面上训练，然后直接在 cc-pVDZ 较大基组下，对包含主族双原子、开壳层自由基、多原子分子以及过渡金属氢化物在内的 12 个分子进行测试。

2.1 轨道熵预测精度

在持有的验证集（Held-out Test Set）上，RLEASE 预测出的 $\hat{s}_1$ 与精确的 DMRG 单轨道熵表现出惊人的吻合度：

决定系数 $R^2$ = 0.99
均方根误差 (RMSE) = 0.071
平均绝对误差 (MAE) = 0.054 这证明了利用极廉价的 HF 描述符预测多参考关联程度在物理上和数学上是完全可行的。

2.2 活性空间大小与相似性分析

如图 2 所示，RLEASE 在主族体系上选择的活性空间非常紧凑（通常在 4 到 8 个轨道之间）。

通过计算 RLEASE 选择的活性空间与其它基准方法（如 autoCAS、$\tau=0.1$ 和 $\tau=0.1\ln 4$ 固定阈值）的 Jaccard 相似度（如图 3 所示）：

$$J(\mathcal{A}_{\text{RLEASE}}, \mathcal{A}_{\text{ref}}) = \frac{|\mathcal{A}_{\text{RLEASE}} \cap \mathcal{A}_{\text{ref}}|}{|\mathcal{A}_{\text{RLEASE}} \cup \mathcal{A}_{\text{ref}}|}$$

大多数分子的平均 Jaccard 相似度均高于 0.7。在一些特定拉伸几何构型下（如 $\text{CH}_4$ 和 $\text{NH}_3$），autoCAS 由于采用经验的平台阈值算法，会导致活性空间过度膨胀（分别达到 17 和 13 个轨道），而 RLEASE 凭借在训练中学习到的能量-尺寸平衡，成功将其压制在 8 和 6 个轨道的紧凑尺度（如图 4 所示），避免了计算资源的浪费。

2.3 势能面（PES）能量精度对比

表 II 详细列出了在不同下游关联方法下，各算法相较于全空间 DMRG 基准在势能面（PES）上的相对能量平均绝对误差（MAE, 单位为 eV）：

下游方法 / 分子体系	RLEASE (本文)	autoCAS [20]	$\tau = 0.1$	$\tau = 0.1 \ln 4$
ASF-CCSD (Overall)	0.333	0.357	0.348	0.345
$\text{BeH}_2$	0.055	0.124	0.067	0.083
$\text{BH}_3$	0.202	0.199	0.179	0.188
$\text{CH}_4$	0.224	0.254	0.217	0.218
$\text{N}_2$	0.616	0.643	0.644	0.644
$\text{NH}_3$	0.662	0.679	0.735	0.714
$\text{P}_2$	0.237	0.243	0.243	0.225
ASF-CCSD(T) (Overall)	0.103	0.101	0.141	0.116
$\text{BeH}_2$	0.057	0.071	0.063	0.063
$\text{BH}_3$	0.021	0.020	0.020	0.024
$\text{CH}_4$	0.097	0.089	0.097	0.097
$\text{N}_2$	0.168	0.160	0.115	0.104
$\text{NH}_3$	0.216	0.212	0.496	0.349
$\text{P}_2$	0.059	0.052	0.052	0.056
sc-NEVPT2 (Overall)	0.120	0.221	0.282	0.178
$\text{BeH}_2$	0.180	0.173	0.270	0.212
$\text{BH}_3$	0.125	0.097	0.375	0.326
$\text{CH}_4$	0.243	0.482	0.499	0.310
$\text{N}_2$	0.109	0.107	0.131	0.091
$\text{NH}_3$	0.026	0.367	0.312	0.081
$\text{P}_2$	0.039	0.102	0.102	0.049

数据深度剖析：

在训练关联方法（sc-NEVPT2）下的超越表现：RLEASE 在 sc-NEVPT2 水平下的整体误差仅为 0.120 eV，远优于 autoCAS 的 0.221 eV 和固定阈值方法。尤其在 $\text{CH}_4$ 和 $\text{NH}_3$ 上，autoCAS 虽然选择了极大的活性空间，但由于其阈值不具能量关联性，反而导致微扰能估计的 MAE 高达 0.482 eV 和 0.367 eV。RLEASE 通过选择更合理、更少噪音的活性空间，将误差控制在 0.243 eV 和 0.026 eV。
在未训练方法（ASF-CCSD(T)）下的完美外推：训练 RLEASE 时未进行任何耦合簇计算，但由于其选择的活性空间成功锁定了真实的物理强关联轨道，部署于 ASF-CCSD(T) 下时，其整体误差（0.103 eV）与基于精确 DMRG 单轨道熵生成的 autoCAS（0.101 eV）几乎完全一致，大幅度领先于固定阈值模型。

2.4 典型案例研究：$p$-benzyne（对苯炔）的挑战

对苯炔（1,4-didehydrobenzene）是一个经典的 $\sigma,\sigma$ 双自由基体系。由于其对称（S）和反对称（A）自由基轨道之间存在极其强烈的近简并度，是极难被单参考方法描述的硬骨头。根据 Clark 和 Davidson 的经典研究，其标准的完整活性空间需要包含 6 个 $\pi/\pi^*$ 环轨道和 2 个 $\sigma$ 自由基轨道，即 $\text{CAS}(8e,8o)$。

在没有任何分子特异性调节、且训练集中完全不包含任何芳香族或双自由基分子的情况下，RLEASE 为对苯炔自动选择出了一个非常精妙的 $\text{CAS}(6e,6o)$ 活性空间。如图 9 所示，该空间完美囊括了：

两个局域在 1,4-自由基位点的 $\sigma$ 轨道；
四个最关键的 $\pi/\pi^*$ 环成键/反键轨道。

物理分析表明，被 RLEASE 舍弃的最后两个 $\pi/\pi^*$ 轨道的天然占据数（Natural Occupation）极其接近整数，关联效应微弱。RLEASE 以极高的物理敏锐度，仅凭 HF 轨道特征便挑出了这 6 个支配静态纠缠的核心轨道，构建出了一个既紧凑又物理完备的活性空间，凸显了该框架惊人的物理泛化能力。

3. 代码实现细节与复现指南

虽然 RLEASE 的核心代码属于 PsiQuantum 内部资产，但基于论文披露的完整技术细节，我们可以在开源电子结构软件包 PySCF 以及深度学习框架 PyTorch 下对其完整算法流进行重构与复现。

3.1 基础依赖库与工具链

PySCF (>= 2.3.0): 处理 Hartree-Fock 轨道生成、积分提取、sc-NEVPT2 以及耦合簇计算。
Block2 (>= 0.5.0): 提供精确的 DMRG 基准计算和一电子约化密度矩阵（1-RDM）以生成参考单轨道熵 $s_1$。
PyTorch (>= 2.0.0): 构建 $\hat{s}_1$ 预测网络与 PPO 策略优化器。

3.2 关键模块的代码实现框架

3.2.1 描述符构建模块 (Python/PySCF)

以下展示如何使用 PySCF 提取 26 维轨道描述符中一些关键物理特征（如一电子/二电子积分对角元、偶极矩模长及空间自乘积）：

import numpy as np
from pyscf import gto, scf, ao2mo

def extract_orbital_descriptors(mol_xyz, basis='cc-pvdz'):
    # 1. 初始化分子与 Hartree-Fock 计算
    mol = gto.M(atom=mol_xyz, basis=basis, symmetry=True)
    mf = scf.RHF(mol)
    mf.kernel()
    
    # 获取分子轨道系数 (MO coeffs) 和轨道能
    mo_coeff = mf.mo_coeff
    mo_energy = mf.mo_energy
    n_mo = mo_coeff.shape[1]
    
    # 2. 提取核心物理量
    # (a) 对角一电子积分 h_ii
    h1e = mf.get_hcore()
    h1e_mo = np.einsum('pi,pq,qi->i', mo_coeff, h1e, mo_coeff)
    
    # (b) 对角双电子自排斥积分 g_iiii
    # 廉价提取对角元，避免全空间 O(N^4) 转换
    g_iiii = np.zeros(n_mo)
    for i in range(n_mo):
        coeff_i = mo_coeff[:, i]
        eri_i = ao2mo.kernel(mol, (coeff_i, coeff_i, coeff_i, coeff_i))
        g_iiii[i] = eri_i[0]
        
    # (c) 空间自乘积 <r^2>_i
    mol.set_common_orig([0.0, 0.0, 0.0])
    r2_ao = mol.intor('int1e_r2')
    r2_mo = np.einsum('pi,pq,qi->i', mo_coeff, r2_ao, mo_coeff)
    
    # (d) 轨道偶极矩模长 |mu_i|
    dip_x = mol.intor('int1e_r')[0]
    dip_y = mol.intor('int1e_r')[1]
    dip_z = mol.intor('int1e_r')[2]
    
    mu_x = np.einsum('pi,pq,qi->i', mo_coeff, dip_x, mo_coeff)
    mu_y = np.einsum('pi,pq,qi->i', mo_coeff, dip_y, mo_coeff)
    mu_z = np.einsum('pi,pq,qi->i', mo_coeff, dip_z, mo_coeff)
    mu_mag = np.sqrt(mu_x**2 + mu_y**2 + mu_z**2)
    
    # 整合特征 (此处简化展示，其余部分包括AO壳层二值化、成键标签、APC衍生项)
    descriptors = []
    for i in range(n_mo):
        feature = [
            mo_energy[i],
            h1e_mo[i],
            g_iiii[i],
            r2_mo[i],
            mu_mag[i]
        ]
        descriptors.append(feature)
        
    return np.array(descriptors)

3.2.2 轨道熵 $\hat{s}_1$ 预测模型 (PyTorch)

构建用于拟合单轨道熵的神经网络层：

import torch
import torch.nn as nn

class S1Predictor(nn.Module):
    def __init__(self, input_dim=26, hidden_dim=256, depth=8):
        super(S1Predictor, self).__init__()
        layers = []
        in_features = input_dim
        for _ in range(depth):
            layers.append(nn.Linear(in_features, hidden_dim))
            layers.append(nn.ReLU())
            layers.append(nn.LayerNorm(hidden_dim))
            in_features = hidden_dim
        layers.append(nn.Linear(hidden_dim, 1))  # 输出未反变换的熵值
        self.network = nn.Sequential(*layers)
        
    def forward(self, x):
        # 期望输入尺寸: (num_orbitals, 26)
        return self.network(x).squeeze(-1)

3.2.3 PPO 策略网络与动作生成

import torch.distributions as pdf

class PPORLPolicy(nn.Module):
    def __init__(self, state_dim=86, hidden_dim=128):
        super(PPORLPolicy, self).__init__()
        self.mean_net = nn.Sequential(
            nn.Linear(state_dim, hidden_dim),
            nn.GELU(),
            nn.LayerNorm(hidden_dim),
            nn.Linear(hidden_dim, hidden_dim),
            nn.GELU(),
            nn.LayerNorm(hidden_dim),
            nn.Linear(hidden_dim, 1),
            nn.Softplus() # 确保均值大于0
        )
        # 方差项设定为可训练的标量参数
        self.log_std = nn.Parameter(torch.tensor([np.log(0.02)]))
        
    def forward(self, state):
        mean = self.mean_net(state)
        std = torch.exp(self.log_std).clamp(1e-4, 0.08)
        dist = pdf.Normal(mean, std)
        return dist

3.3 训练与部署流程复现指南

要完成 RLEASE 的闭环复现，需要严格按照以下四个阶段执行：

阶段 1：数据准备

收集 $\text{Na}_2$、$\text{ClF}$、$\text{SiO}_2$ 的势能面几何构型（通常为拉伸和压缩键长下的 30 个几何点）。
使用 PySCF 进行稳定受限/非受限 Hartree-Fock 计算，提取每个构型的 26 维轨道描述符。
使用 Block2 执行 DMRG 参考计算，设定键合维度 $D=1500$，提取 1-RDM，并依据公式 (2) 计算单轨道熵 $s_1(i)$ 作为拟合靶标。

阶段 2：$\hat{s}_1$ 预测器有监督训练

将所有轨道的描述符 $\mathbf{x}_i$ 进行标准化处理（均值0，方差1），对靶标 $s_1$ 执行 $\ln(1+x)$ 的缩放。
采用 AdamW 优化器训练 S1Predictor，使用 Smooth-$L_1$ 损失（调整参数 $\beta=0.05$），采用余弦退火学习率策略（初始 $5\times 10^{-3}$），训练 2000 个 Epoch 并实施早停（Early Stopping）。

阶段 3：强化学习阈值优化

冻结 S1Predictor 的参数 $\theta$，仅将其作为“状态特征提取器”。
每一个 Episode 中，针对训练集中的每个几何构型：
- 计算 86 维状态向量 $\mathbf{s}$。
- 策略网络生成阈值分布并采样得到 $\tau$。若 $\tau < 0$，则截断为 0。
- 对通过判定式 $\hat{s}_1 > \tau$ 筛选出的活性空间，在 PySCF 下执行 CASCI 结合 sc-NEVPT2 计算，获取 $E_{\text{sc-NEVPT2}}(\mathcal{A})$。
- 根据公式 (9) 计算奖励值 $r$ 并回传。
通过 PPO 剪切损失函数更新策略网络参数 $\phi$，利用独立的 Value 网络更新优势估计（Advantage Estimation）。设定 PPO 剪切参数 $\epsilon=0.3$，RL 学习率为 $5\times 10^{-3}$，训练 6 个 Epoch 即可收敛。

阶段 4：跨基组部署与推理

加载已经训练完毕的 $\hat{s}_1$ 预测器和 PPO 策略网络。
输入全新测试分子（如 $\text{ZnH}$ 在 cc-pVDZ 基组下的坐标），仅执行一次单参考 RHF 计算，提取 26 维描述符。
通过神经网络预测各轨道熵 $\hat{s}_1$，策略网络一瞬间给出确定性动作 $\tau = \mu(\mathbf{s})$。
构建活性空间并输入下游计算（如 ASF-CCSD(T) 或 sc-NEVPT2）。

4. 关键文献引用与局限性评论

4.1 关键引用文献

本工作建立在多参考关联理论与机器学习活性空间选择的几项奠基性工作之上：

autoCAS 协议：Stein, C. J.; Reiher, M. J. Chem. Theory Comput. 2016, 12, 1760. （首次提出了利用 DMRG 单轨道熵并结合经验启发式平台算法自动确定活性空间，是 RLEASE 的直接物理对标基准）。
单轨道熵概念：Legeza, O.; Sólyom, J. Phys. Rev. B 2003, 68, 195116. （首次将量子纠缠和单/双轨道熵引入多参考波函数性质分析中）。
sc-NEVPT2 理论：Angeli, C.; Cimiraglia, R.; Evangelisti, S.; Valerio, T.; Malrieu, J.-P. J. Chem. Phys. 2001, 114, 10252. （定义了无侵入状态的强收缩二阶 N 电子价态微扰理论，构成了 RLEASE 奖励函数评估的核心）。
PPO 算法：Schulman, J.; Wolski, P.; Dhariwal, A.; Radford, A.; Klimov, O. arXiv:1707.06347 2017. （设计了对裁剪概率比敏感的鲁棒策略梯度算法，构成了 RLEASE 寻找最优阈值策略的数学底座）。

4.2 技术局限性与客观评论

尽管 RLEASE 在精确度和泛化性能上表现突出，但作为一门新兴的 AI 与量子化学融合技术，它在当前的实现上依然存在以下显著的局限性，在实际科研部署中需要格外注意：

1. 强依赖于单参考 Hartree-Fock 轨道的品质（The HF Bottleneck）

RLEASE 的所有描述符都派生自 Hartree-Fock 计算。如果在某些极度拉伸的过渡金属体系中，Hartree-Fock 自洽场本身就发生了极其严重的对称性破缺（Symmetry Breaking）或无法收敛到物理正确的态，那么提取出来的能量积分、空间弥散度等描述符将会带有极大的物理噪点。这会导致下游 $\hat{s}_1$ 预测器输出质量劣化。未来需要研究更鲁棒的初始轨道产生机制（如廉价的 DFT 或半经验方法轨道）。

2. CASCI 与 CASSCF 的折衷（Lack of Orbital Relaxation）

RLEASE 在评估和训练中，活性空间内采用的是 CASCI（即不重新优化活性空间轨道，直接使用 HF 轨道）而非标准的 CASSCF（对活性空间轨道进行自共合旋转优化）。这虽然规避了 CASSCF 极其令人头疼的轨道收敛和非线性优化问题，但对于那些具有极强“轨道弛豫（Orbital Relaxation）”效应的体系（如某些含有未成对 d 电子的早期过渡金属配合物），不进行轨道优化会带来显著的零阶能量偏差。如何将活性空间轨道优化低成本地整合到强化学习环境里，依然是一个开放问题。

3. 单阈值决策假设的局限性（Single Scalar Threshold Assumption）

RLEASE 将多参考纠缠分类问题简化为了一个“一刀切”的单标量阈值 $\tau$。这种决策机制建立在一个底层物理假定之上：所有轨道按照预测熵值 $\hat{s}_1$ 的大小单调排序，其关联重要性也是单调的。然而，在一些存在多通道协同激发的超大分子中，可能存在不同的关联类型（例如，两组完全解耦但各自强纠缠的轨道子集）。此时，简单的单一阈值可能无法完美刻画这种复杂的、多模态的活性空间图谱，需要未来引入更精细的多分枝策略决策（Multi-branch Policy）。

4. 奖励设计中的超参数敏感度

在奖励函数中，紧凑性惩罚因子 $\lambda_n = 0.05 \text{ eV}$ 是人为设定的经验常数。虽然它在本文的测试体系中表现优异，但对于某些对化学精度要求极高（如期望达到 $1 \text{ kcal/mol}$ 传统化学精度，即 $0.043 \text{ eV}$）或者对活性空间规模极度敏感的量子硬件，这一超参数需要人工微调，尚未实现完全自适应的无参化设计。

5. 补充探讨：对容错量子计算（FTQC）与高通量分子动力学的启示

5.1 面向早期容错量子计算的活性空间“减负”

在量子计算时代，解决量子化学问题最被看好的算法是 量子相位估计（QPE）。然而，QPE 的 qubit 数量和 T 门（T-gate）深度直接取决于要处理的活跃轨道数。在量子硬件资源极其昂贵的早期容错量子计算（FTQC）阶段，限制活性空间规模是让问题“可解”的唯一途径。

RLEASE 在此展现出了巨大的应用价值。由于它能直接输出极度紧凑（通常比 autoCAS 小 2-9 个轨道，如图 4 所示）且物理完整的活性空间，这可以直接节约数个乃至数十个逻辑量子比特（Logical Qubits），并呈指数级减少量子线路中的 T 门深度。同时，结合 ASF 增减组合形式，我们可以将高精度的活性空间计算置于量子硬件上，而将大量的外部动态关联交由经典计算机通过低成本的 CCSD 或 CCSD(T) 解决，从而实现了完美的经典-量子混合计算框架。

5.2 开启“即时（On-the-fly）”多参考分子动力学（MD）

传统的多参考分子动力学（尤其是沿着势能面演化时）的一大梦魇在于：随着分子键角和键长的变化，原先设定的活性空间轨道会发生无序的漂移和跳跃，导致动力学势能面出现非物理的不连续断裂（Discontinuity）。为了解决这个问题，研究人员必须在每个步长都进行繁琐的人工干预或运行极其昂贵的全局探测。

RLEASE 的推理速度在毫秒级别（提取描述符 + NN 推理 $< 1 \text{ s}$）。这种惊人的即时性使其能够直接与机器学习原子间势（MLIPs，如 MACE、NequIP）或者传统的分子动力学步长结合。在每一个积分步长，RLEASE 都能根据当前原子坐标瞬间自适应地调谐活性空间范围，并在势能面扫描中提供连续、平滑且无断裂的动力学轨迹，为复杂反应动力学和催化过程的自动高通量筛选扫清了计算障碍。