来源论文: https://arxiv.org/abs/2605.11382v1 生成时间: May 13, 2026 11:16

跨越算力鸿沟：Q-IRIS 智能运行时环境如何赋能异构多 QPU 任务并行与量子线路切割

0. 执行摘要

随着量子硬件步入 NISQ（含噪声中等规模量子）时代，如何在现有的经典高性能计算（HPC）架构中高效集成量子加速器成为科研领域的重大挑战。传统的量子软件栈往往是孤立的，难以实现复杂的量子-经典混合工作流。本文深入解析了来自美国橡树岭国家实验室（ORNL）的最新研究成果：一种基于任务的智能运行时环境——Q-IRIS。该系统通过集成智能运行时系统（IRIS）与量子中间表示执行引擎（QIR-EE），实现了在单个节点上并发调用多个量子处理单元（QPU）和经典处理器（CPU/GPU）的能力。研究重点展示了如何利用量子线路切割（Quantum Circuit Cutting）技术，将大规模量子电路拆分为更小的子电路，并由 Q-IRIS 调度在不同的后端上并行执行，从而在降低单任务算力需求的同时，保持了计算结果的准确性。

1. 核心科学问题，理论基础，技术难点与方法细节

1.1 核心科学问题：量子与经典的“隔离屏障”

在当前的量子化学与材料模拟中，变分量子求解器（VQE）等算法要求量子加速器与经典计算集群进行极其频繁的数据交换。然而，现有的软件架构面临三个痛点：

设备孤立性：大多数软件栈（如早期 Qiskit 或 Cirq）主要针对单一后端设计，缺乏对多 QPU 并行调度的原生支持。
资源调度不透明：开发者需要手动管理数据在 CPU、GPU 和 QPU 之间的移动，这在处理大规模、具有复杂依赖关系的混合任务时几乎不可行。
量子中间表示（QIR）的执行效率：虽然 QIR 提供了跨平台的通用性，但如何将其高效地映射到异步任务流中仍是空白。

1.2 理论基础：任务驱动的异步调度（IRIS）

Q-IRIS 的核心理论源于 IRIS (Intelligent RuntIme System)。IRIS 的设计哲学是将计算抽象为有向无环图（DAG）中的任务节点。每个任务包含：

Kernel：具体的计算代码（如 CUDA, OpenMP, 或量子 QIR）。
Data Dependencies：明确的输入/输出缓冲区，由 IRIS 自动处理数据迁移。
Scheduling Policy：动态或静态的设备放置策略。

1.3 技术难点：非线程安全的量子执行引擎（QIR-EE）

研究中的一个主要技术壁垒是 QIR-EE 的线程安全性。当前的 QIR-EE 执行引擎在处理多线程并发调用时存在冲突。为了克服这一挑战，ORNL 的团队设计了一种基于**进程隔离（Process Isolation）**的驱动模型：

QIREE-Device 驱动：在 IRIS 框架内，为每个 QPU 目标创建一个独立的驱动实例。
内存映射（MMAP）：主进程通过 MMAP 与隔离的 QIR-EE 进程通信，共享 QIR LLVM 模块、控制命令和最终的期望值结果。这种设计巧妙地规避了库函数的线程安全限制，同时维持了极高的通信效率。

1.4 方法细节：从 QIR 到多 QPU 并行

Q-IRIS 的执行流程如下：

QIR 加载与编译：用户通过 IRIS 提交 Python 或 C++ 编写的任务。Q-IRIS 加载 .ll (LLVM QIR) 文件。
即时编译（JIT）：QIR-EE 根据目标后端（如 QSIM 模拟器或 IonQ 硬件）在运行时动态编译 QIR。
内存预估：系统自动计算输出期望值所需的内存空间，并预分配 IRIS 异构内存。
并发分发：IRIS 调度器识别出互不依赖的量子子任务（如切割后的电路碎片），并将其同时派发到不同的物理 QPU 或模拟器进程中。

2. 关键 Benchmark 体系，计算所得数据，性能数据

为了验证 Q-IRIS 的实用性，作者设计了一个复杂的量子线路切割（Circuit Cutting）实验。实验对象是 4 量子位和 20 量子位的 GHZ 状态电路。

2.1 实验设置

线路切割算法：使用 QCut 库将电路切割。对于 4 位 GHZ，切割产生了 3 个子电路。按照准概率分解（Quasi-probability decomposition），这演变为 192 个独立的 2 量子位任务节点。
硬件/后端体系：
- 经典后端：OpenMP CPU 驱动。
- 量子后端：Google QSIM, XACC (AER, QPP), 以及 IonQ 的物理离子阱量子处理器（FORTE-1）。

2.2 性能数据分析（基于 Table I）

对于 4 量子位 GHZ 电路的测试（1000 次采样），Q-IRIS 展现了极高的保真度：

理想值：$\langle ZZZZ \rangle = 1.0$
XACC/AER：0.971745 (误差 < 3%)
QIR-QSIM (原生直连)：0.989994 (表现最优，最接近理论值)
执行时间：在 QIR-QSIM 后端下，整个切割、并发分发、计算及后期经典处理的总时间（Full Time）仅为 3.6968 秒。相比之下，IonQ 的远程模拟器（SIM.ARIA-1）由于网络延迟，耗时高达 81.2 秒。

2.3 大规模模拟（20 量子位 GHZ）性能（基于 Table II）

在 20 量子位的实验中，对比尤为显著：

无切割版本：直接运行 20 位 GHZ 电路在 QIR-QSIM 上需耗时 82.74 秒。
切割版本（192 个子任务并发）：单任务负载显著降低，Q-IRIS 通过并行调度极大提高了吞吐量。尽管在 20 位案例中，全流程总耗时受制于经典后处理的聚合复杂度，但量子部分的仿真负担被有效分散。
物理硬件性能：在 IonQ FORTE-1 上运行 4 位 GHZ 切割电路，总时间由于云端排队和物理标定达到了 22,061 秒。这说明了在 NISQ 时代，优化“等待时间”和“任务粒度”是混合运行时环境的核心竞争力。

3. 代码实现细节，复现指南，所用的软件包及开源 Repo Link

3.1 核心组件与开源链接

IRIS Runtime: 高性能、任务驱动的异构计算框架。
- [Repo: ORNL/IRIS (预计在 GitHub 发布，参考论文 [4][5])]
QIR-EE: 针对量子中间表示的执行引擎，支持 XACC 和 QSIM。
- GitHub Repo: ORNL-QCI/qiree
XACC: 极大规模加速器编程框架，连接不同量子后端的核心枢纽。
- GitHub Repo: eclipse/xacc
QCut: 用于执行电路切割的 Python 工具库。
- GitHub Repo: JooNiv/QCut

3.2 复现指南

环境准备：需要具备 LLVM 开发环境（用于 QIR 编译）以及支持 Python 3.8+ 的异构计算环境。

编译 QIR-EE：

git clone https://github.com/ORNL-QCI/qiree.git
mkdir build && cd build
cmake .. -DXACC_DIR=/path/to/xacc -DQSIM_DIR=/path/to/qsim
make install

编写混合任务流：使用 IRIS 的 Python API 定义任务。关键代码逻辑在于将 .ll 文件路径传递给 IRIS 的量子任务句柄，并设置目标设备（如 iris_qpu）。
执行电路切割：使用 QCut 将目标线路拆分为 Fragment，生成一组 QIR 文件。通过循环向 IRIS 调度器异步提交这些碎片，最后通过一个具有依赖性的经典任务（Post-processing）来执行聚合公式。

4. 关键引用文献，以及对这项工作局限性的评论

4.1 关键引用

[6] QIR Alliance: 定义了量子中间表示的标准，是本项目可移植性的基石。
[12] XACC (McCaskey et al.): 提供了与 IonQ 等物理硬件对接的 API 抽象。
[16] Harada et al.: 提供了“双重最优并行线切割（Doubly optimal parallel wire cutting）”的理论指导，是本实验算法的核心。

4.2 局限性评论

尽管 Q-IRIS 在任务并行化上取得了巨大进步，但作为技术作者，我认为仍存在以下局限：

通信开销：虽然 MMAP 解决了线程安全问题，但在处理极小粒度的量子任务时，进程间通信（IPC）和上下文切换的开销可能会抵消掉并行带来的收益。未来的版本应致力于 QIR-EE 本身的线程安全重构。
电路切割的爆炸性增长：电路切割会引入显著的经典后处理负担。切割 $k$ 条线会产生 $4^k$ 阶的任务增长。Q-IRIS 虽然能并行量子部分，但经典侧的期望值重组公式可能成为新的瓶颈。
动态资源分配尚不成熟：目前设备选择仍有较大的人工预设成分。真正的“智能”运行时应能根据 QPU 的当前保真度（Calibration Data）实时调整任务放置，这在文中仅作为未来工作提及。

5. 其他补充：量子化学科研人员的视角

对于从事量子化学模拟（如计算基态能或分子动力学）的工作者来说，Q-IRIS 的出现意味着我们终于可以开始考虑**“分布式量子化学仿真”**。

5.1 对 VQE 算法的启示

VQE 算法中的算子测量通常涉及成千上万个 Pauli Term。通过 Q-IRIS，我们可以将这些 Term 自动分布到集群中的 10 个不同的 QPU 节点上，实现近乎线性的加速。这比手动在 Qiskit 脚本里写 loop 要高效得多，因为 IRIS 调度器具备自动的故障转移和动态负载均衡能力。

5.2 内存管理的未来：IRIS-DMEM

论文中提到的异构内存管理模型（IRIS-DMEM）值得高度关注。在量子模拟中，状态矢量的存储极其消耗内存（$2^n$ 指数增长）。如果 Q-IRIS 能进一步实现 QPU 结果直接映射到 GPU 内存进行后续的高维张量收缩，这将极大加速量子化学工作流，减少数据在主机内存和加速器之间的无效拷贝。

5.3 结论

Q-IRIS 不仅仅是一个运行时系统，它是高性能量子计算（HPQC）的一个缩影。它证明了通过成熟的经典并行计算理念（任务驱动、异步调度、中间表示），我们能够显著提升现有量子硬件的利用率，为即将到来的百亿亿级（Exascale）量子-经典融合计算奠定坚实的软件基础。