来源论文: https://arxiv.org/abs/2604.16613v1 生成时间: Apr 21, 2026 12:35

GreenPeas：利用即时编译解码超图解锁自适应量子纠错

0. 执行摘要

在追求容错量子计算（FTQC）的道路上，量子纠错（QEC）是跨越“嘈杂中型量子（NISQ）”时代到实用化阶段的关键技术。特别是对于量子化学模拟、药物研发等需要极低逻辑错误率（10⁻⁶ 到 10⁻¹²）的应用场景，高效的解码器至关重要。然而，新兴的自适应量子电路（其门序列根据运行时的中间测量结果动态调整）给传统的解码流程带来了巨大挑战。

传统的解码超图编译通常采用离线（Ahead-of-Time, AOT）方式，无法应对自适应电路呈指数级增长的可能分支。本文介绍的 GreenPeas 是一套基于 C++/CUDA 的高性能工具链，专门为解码超图的**即时编译（Just-in-Time, JIT）**而设计。通过引入空间-时间中间表示（Space-Time IR）并充分利用 GPU 的大规模并行能力，GreenPeas 将编译延迟降低到了亚毫秒级，比目前行业标准工具 Stim 快 10 倍以上。这一突破使得在自适应证候测量电路中使用高精度的电路级解码器成为可能，为中性原子、离子阱等具有“慢时钟”特性的量子硬件平台提供了坚实的经典计算支撑。

1. 核心科学问题，理论基础，技术难点，方法细节

1.1 核心科学问题：自适应电路的解码困境

量子纠错的核心在于通过测量辅助比特（Ancilla Qubits）提取证候（Syndromes），并利用解码器识别物理错误。电路级解码器依赖于一个复杂的解码超图（Decoding Hypergraph），该图描述了电路中每一个可能的物理错误如何转化为观测到的证候。

在静态电路中，这个超图可以提前计算好。但在自适应电路中，门序列（如条件逻辑或动态证候测量协议）取决于运行时的测量结果。这意味着如果我们要采用 AOT 编译，就必须为所有可能的执行路径预先生成超图，而这些路径的数量随电路深度呈指数级增长，导致内存爆炸。因此，必须实现在运行时、在微秒到毫秒级的周期内完成超图的即时编译（JIT）。

1.2 理论基础：稳定器代码与错误传播

GreenPeas 的理论基础是稳定器形式化（Stabilizer Formalism）。其核心算法源自 Stim 的回溯算法（Backtracking Algorithm）。

证候测量电路：通过受控门将数据比特的错误转移到辅助比特。
错误等价类：不同的物理错误可能导致完全相同的证候集，这些错误被归为同一等价类。解码器的任务就是找到概率最大的等价类。
辛表示（Symplectic Representation）：为了处理 Pauli X 和 Z 错误及其相互转换，系统采用辛向量来跟踪错误传播。

1.3 技术难点：串行回溯算法的并行化

Stim 的回溯算法本质上是顺序的：它从每个检测器（Detector）开始，逆着时间方向通过电路指令逐个回溯。在面对拥有数千个物理比特和深层门操作的实用级电路时，这种单核 CPU 上的顺序处理成为了严重的延迟瓶颈，无法满足实时 QEC 的时钟要求。

1.4 方法细节：GreenPeas 的架构设计

GreenPeas 通过以下技术创新解决了上述难点：

1.4.1 空间-时间中间表示 (STEPG)

GreenPeas 首先将量子电路降低（Lowering）为一种称为**空间-时间错误传播图（Space-Time Error Propagation Graph, STEPG）**的 IR。这是一个层级化的有向无环图（DAG）：

节点：代表潜在的 Pauli 错误位置。
边：代表由于量子门操作引起的错误传播。例如，一个 CNOT 门会将控制比特上的 X 错误传播到目标比特。

1.4.2 ELLPACK 矩阵与存储优化

为了在 GPU 上实现极高的内存访问效率，STEPG 被存储为一种紧凑的 ELLPACK 格式矩阵。这种格式确保了在图形遍历期间，成千上万个线程可以实现完全合并的内存访问（Coalesced Memory Access）。每个节点的数据（后继索引）被打包进 64 位单词（高/低 32 位分别存两个后继），极大减少了全局内存请求次数。

1.4.3 大规模并行错误分析

GreenPeas 将回溯过程重构为层同步的并行负载。对于每一层门操作，数千个线程并发处理该层内所有独立节点的等价类计算。每一节点的等价类 $\epsilon_u$ 计算公式为：

$$\epsilon_u = \bigoplus_{v \in N^+(u)} \epsilon_v$$

其中 $\bigoplus$ 是位异或运算。这种设计将复杂度从 $O(nl)$ 的序列处理降低到了 $O(l)$ 的并行步数（$n$ 为比特数，$l$ 为层数）。

1.4.4 哈希过滤与排序-归约流水线

生成的原始位数组（代表错误签名）通常很长（取决于检测器数量）。GreenPeas 使用 FNV-1 哈希算法将这些长向量映射为 64 位固定宽度键值，随后利用 NVIDIA CUB 原语进行高效的基数排序（Radix Sort）和融合归约（Fused Reduction）。这一流程能够快速去重并合并具有相同签名的错误概率。

2. 关键 Benchmark 体系，计算所得数据，性能数据

为了验证 GreenPeas 的有效性，研究团队在多种先进量子纠错码上进行了详尽的测试。

2.1 测试平台

GPU: NVIDIA RTX 3090 (Ampere 架构) 和 RTX 6000 Ada (Blackwell 架构预览)。
CPU (Baseline): AMD EPYC 9335 (单核运行 Stim 1.13)。
软件环境: C++/CUDA 工具链，集成 Stim 和 Tesseract 解码器。

2.2 评估体系：表面码与双变量单车码

研究选择了两种最具代表性的纠错码：

表面码 (Surface Codes)：码距 $d=3, 5, 7, 9$，是目前超导量子计算的主流方案。
双变量单车码 (Bivariate Bicycle Codes)：码距 $d=6, 10, 12$，属于量子低密度奇偶校验（qLDPC）码，因其低开销而备受关注。

2.3 编译延迟性能数据 (Table 2 & Fig 3)

在最高相关能级（$L_2$）下，GreenPeas 展示了显著的加速效果：

平均加速比：在 Ampere 架构上达到 8.99x，在 Blackwell 架构上达到 12.09x。
绝对延迟：对于码距 $d=9$ 的表面码，Stim 的编译时间超过 3ms，而 GreenPeas 成功压低至 0.3ms 左右。
扩展性：随着码距 $d$（以及物理比特数）的增加，GreenPeas 的优势更加明显，呈现出良好的弱扩展性，始终保持在 1ms 以内的亚毫秒阈值。

2.4 解码准确性与延迟 (Fig 4)

实验在物理错误率 $p=0.1\%$ 下进行：

准确性：GreenPeas 生成的超图在逻辑错误率（Logical Error Rate）上与 Stim 完全一致，证明了其 JIT 编译的数学正确性。
解码延迟：配合 Tesseract 解码器，使用 GreenPeas 编译的 $L_0$ 级超图，其解码时间比静态电路更短。这是因为自适应协议通过减少不必要的门操作，实际上缩小了超图的体积。

2.5 关键结论：解锁自适应证候测量

研究展示了一个关键用例：将 Iceberg 码（一种小型纠错码）与外部表面码级联。通过 GreenPeas 的实时超图更新，自适应协议在 $d=10$ 时将逻辑错误率降低了近 2 倍，同时由于“解码体积”的压缩，解码延迟降低了约 35%。

3. 代码实现细节，复现指南，软件包及开源 Repo Link

3.1 代码实现架构

GreenPeas 采用了高度模块化的 C++/CUDA 设计：

前端解析器：能够解析 Stim 格式的电路文件。
STEPG 生成器：将指令流转换为内存对齐的二叉图结构。
核心内核 (Kernels)：
- ErrorEquivalenceClassGenerator：负责大规模并行位异或回溯。
- HashingKernel：实现 FNV-1 哈希映射。
- SortReducePipeline：调用 CUB 库实现的基数排序。
导出器：生成标准的检测器错误模型（DEM）文件，与现有 QEC 生态系统无缝对接。

3.2 关键实现优化：二元矩阵列主序存储

为了解决 GPU 在处理长位数组时的带宽挑战，GreenPeas 将错误等价类 $\mathcal{E}$ 存储为**列主序（Column-major）**的位矩阵。这意味着所有等价类的第 $w$ 个字在内存中是连续的，使得 $k$ 个并行线程可以在单次事务中获取所需数据，极大地提升了缓存命中率。

3.3 复现指南

硬件要求：建议使用支持 CUDA 11.0+ 的 NVIDIA GPU（计算能力 8.0 及以上，如 A100, RTX 30 系列）。
依赖库：
- NVIDIA CCCL / CUB：用于高性能排序和并行算法。
- Stim：用于性能对标和电路生成。

构建流程：

mkdir build && cd build
cmake .. -DCMAKE_CUDA_ARCHITECTURES=86
make -j

运行示例：提供一个 .stim 电路文件，运行 greenpeas --input circuit.stim --correlation 2 即可得到 DEM 输出。

3.4 开源 Repo 与资源

项目名称：GreenPeas
开源计划：作者在文中表示旨在开源 GreenPeas 以支持未来自适应协议的研究。
开发者团队：伦敦帝国理工学院 (Imperial College London) 的 Abbas B. Ziad 团队。

4. 关键引用文献，以及对工作局限性的评论

4.1 关键引用文献

Stim (Gidney et al. [10])：本文的主要对比基准，定义了现代 QEC 模拟和超图编译的标准。
Adaptive Syndrome Extraction (Berthusen et al. [4])：提出了 Iceberg 码级联自适应协议，是本文 GreenPeas 最核心的应用场景驱动。
Bivariate Bicycle Codes (Bravyi et al. [6])：提供了高性能 qLDPC 码的测试背景。
Symplectic Representation (Gottesman [12])：量子错误传播的数学基石。

4.2 工作局限性评论

尽管 GreenPeas 取得了显著成就，但仍存在以下局限：

仿真性能瓶颈：虽然解码超图编译变快了，但在模拟自适应电路时，仍需频繁调用 Stim 的 Tableau 模拟器。由于分支逻辑的存在，Tableau 模拟比 Frame 模拟慢几个数量级，这限制了大规模 Monte Carlo 采样的效率。
GPU 数据搬运延迟：虽然计算本身是亚毫秒级的，但如果控制系统与 GPU 之间通过 PCIe 频繁交换数据，延迟仍可能超标。未来可能需要探索在 FPGA 或 SoC 上实现类似的逻辑。
解耦的初始化开销：论文指出，许多解码器（如 Tesseract 或集群解码器）本身有很重的初始化 routine。仅仅加速超图编译是不够的，必须实现编译与解码器状态初始化的深度融合。
硬件匹配度：目前的 1ms 延迟对中性原子平台很完美，但对于超导比特（其 SM 周期约为 1μs）来说，GreenPeas 仍然太慢。正如作者在 6.3 节所言，未来需要专用的数据流硬件加速器（Dataflow Accelerators）。

5. 其他补充：量子化学视角下的意义

对于量子化学科研工作者而言，这项工作具有特殊的意义。量子化学模拟通常要求极高的精度（Chemical Accuracy），这意味着我们需要在逻辑比特层级运行极其复杂的算子（如二阶导数计算或深层 UCCSD 线路）。

为什么 GreenPeas 对量子化学很重要？

资源开销优化：通过支持自适应 SM 协议，我们可以显著减少所需的 CNOT 门数量（如图 5 所示）。在模拟大型分子（如 FeMoCo 辅因子）时，这种门数量的节省直接转化为对物理比特需求的下降，使得原本需要数百万比特的任务可能在数万比特规模上实现。
动态修正的重要性：化学模拟往往涉及非 Pauli 噪声和漂移。GreenPeas 提供的 JIT 能力允许我们根据实时收集的噪声统计数据，定期重新标定（Re-calibrate）解码器，从而在长达数小时乃至数天的量子计算任务中维持逻辑保真度。
qLDPC 码的适配：论文测试的双变量单车码是未来实现“廉价”容错量子化学计算的希望，GreenPeas 对此类代码的高效支持，填补了 qLDPC 实用化工具链的空白。

总之，GreenPeas 不仅仅是一个编译器优化工具，它是通往大规模、动态调整、高性能容错量子计算堆栈的重要基石。