来源论文: https://arxiv.org/abs/2605.11382v1 生成时间: May 13, 2026 11:16
跨越算力鸿沟:Q-IRIS 智能运行时环境如何赋能异构多 QPU 任务并行与量子线路切割
0. 执行摘要
随着量子硬件步入 NISQ(含噪声中等规模量子)时代,如何在现有的经典高性能计算(HPC)架构中高效集成量子加速器成为科研领域的重大挑战。传统的量子软件栈往往是孤立的,难以实现复杂的量子-经典混合工作流。本文深入解析了来自美国橡树岭国家实验室(ORNL)的最新研究成果:一种基于任务的智能运行时环境——Q-IRIS。该系统通过集成智能运行时系统(IRIS)与量子中间表示执行引擎(QIR-EE),实现了在单个节点上并发调用多个量子处理单元(QPU)和经典处理器(CPU/GPU)的能力。研究重点展示了如何利用量子线路切割(Quantum Circuit Cutting)技术,将大规模量子电路拆分为更小的子电路,并由 Q-IRIS 调度在不同的后端上并行执行,从而在降低单任务算力需求的同时,保持了计算结果的准确性。
1. 核心科学问题,理论基础,技术难点与方法细节
1.1 核心科学问题:量子与经典的“隔离屏障”
在当前的量子化学与材料模拟中,变分量子求解器(VQE)等算法要求量子加速器与经典计算集群进行极其频繁的数据交换。然而,现有的软件架构面临三个痛点:
- 设备孤立性:大多数软件栈(如早期 Qiskit 或 Cirq)主要针对单一后端设计,缺乏对多 QPU 并行调度的原生支持。
- 资源调度不透明:开发者需要手动管理数据在 CPU、GPU 和 QPU 之间的移动,这在处理大规模、具有复杂依赖关系的混合任务时几乎不可行。
- 量子中间表示(QIR)的执行效率:虽然 QIR 提供了跨平台的通用性,但如何将其高效地映射到异步任务流中仍是空白。
1.2 理论基础:任务驱动的异步调度(IRIS)
Q-IRIS 的核心理论源于 IRIS (Intelligent RuntIme System)。IRIS 的设计哲学是将计算抽象为有向无环图(DAG)中的任务节点。每个任务包含:
- Kernel:具体的计算代码(如 CUDA, OpenMP, 或量子 QIR)。
- Data Dependencies:明确的输入/输出缓冲区,由 IRIS 自动处理数据迁移。
- Scheduling Policy:动态或静态的设备放置策略。
1.3 技术难点:非线程安全的量子执行引擎(QIR-EE)
研究中的一个主要技术壁垒是 QIR-EE 的线程安全性。当前的 QIR-EE 执行引擎在处理多线程并发调用时存在冲突。为了克服这一挑战,ORNL 的团队设计了一种基于**进程隔离(Process Isolation)**的驱动模型:
- QIREE-Device 驱动:在 IRIS 框架内,为每个 QPU 目标创建一个独立的驱动实例。
- 内存映射(MMAP):主进程通过 MMAP 与隔离的 QIR-EE 进程通信,共享 QIR LLVM 模块、控制命令和最终的期望值结果。这种设计巧妙地规避了库函数的线程安全限制,同时维持了极高的通信效率。
1.4 方法细节:从 QIR 到多 QPU 并行
Q-IRIS 的执行流程如下:
- QIR 加载与编译:用户通过 IRIS 提交 Python 或 C++ 编写的任务。Q-IRIS 加载
.ll(LLVM QIR) 文件。 - 即时编译(JIT):QIR-EE 根据目标后端(如 QSIM 模拟器或 IonQ 硬件)在运行时动态编译 QIR。
- 内存预估:系统自动计算输出期望值所需的内存空间,并预分配 IRIS 异构内存。
- 并发分发:IRIS 调度器识别出互不依赖的量子子任务(如切割后的电路碎片),并将其同时派发到不同的物理 QPU 或模拟器进程中。
2. 关键 Benchmark 体系,计算所得数据,性能数据
为了验证 Q-IRIS 的实用性,作者设计了一个复杂的量子线路切割(Circuit Cutting)实验。实验对象是 4 量子位和 20 量子位的 GHZ 状态电路。
2.1 实验设置
- 线路切割算法:使用
QCut库将电路切割。对于 4 位 GHZ,切割产生了 3 个子电路。按照准概率分解(Quasi-probability decomposition),这演变为 192 个独立的 2 量子位任务节点。 - 硬件/后端体系:
- 经典后端:OpenMP CPU 驱动。
- 量子后端:Google QSIM, XACC (AER, QPP), 以及 IonQ 的物理离子阱量子处理器(FORTE-1)。
2.2 性能数据分析(基于 Table I)
对于 4 量子位 GHZ 电路的测试(1000 次采样),Q-IRIS 展现了极高的保真度:
- 理想值:$\langle ZZZZ \rangle = 1.0$
- XACC/AER:0.971745 (误差 < 3%)
- QIR-QSIM (原生直连):0.989994 (表现最优,最接近理论值)
- 执行时间:在 QIR-QSIM 后端下,整个切割、并发分发、计算及后期经典处理的总时间(Full Time)仅为 3.6968 秒。相比之下,IonQ 的远程模拟器(SIM.ARIA-1)由于网络延迟,耗时高达 81.2 秒。
2.3 大规模模拟(20 量子位 GHZ)性能(基于 Table II)
在 20 量子位的实验中,对比尤为显著:
- 无切割版本:直接运行 20 位 GHZ 电路在 QIR-QSIM 上需耗时 82.74 秒。
- 切割版本(192 个子任务并发):单任务负载显著降低,Q-IRIS 通过并行调度极大提高了吞吐量。尽管在 20 位案例中,全流程总耗时受制于经典后处理的聚合复杂度,但量子部分的仿真负担被有效分散。
- 物理硬件性能:在 IonQ FORTE-1 上运行 4 位 GHZ 切割电路,总时间由于云端排队和物理标定达到了 22,061 秒。这说明了在 NISQ 时代,优化“等待时间”和“任务粒度”是混合运行时环境的核心竞争力。
3. 代码实现细节,复现指南,所用的软件包及开源 Repo Link
3.1 核心组件与开源链接
- IRIS Runtime: 高性能、任务驱动的异构计算框架。
- [Repo: ORNL/IRIS (预计在 GitHub 发布,参考论文 [4][5])]
- QIR-EE: 针对量子中间表示的执行引擎,支持 XACC 和 QSIM。
- XACC: 极大规模加速器编程框架,连接不同量子后端的核心枢纽。
- QCut: 用于执行电路切割的 Python 工具库。
3.2 复现指南
- 环境准备:需要具备 LLVM 开发环境(用于 QIR 编译)以及支持 Python 3.8+ 的异构计算环境。
- 编译 QIR-EE:
git clone https://github.com/ORNL-QCI/qiree.git mkdir build && cd build cmake .. -DXACC_DIR=/path/to/xacc -DQSIM_DIR=/path/to/qsim make install - 编写混合任务流:
使用 IRIS 的 Python API 定义任务。关键代码逻辑在于将
.ll文件路径传递给 IRIS 的量子任务句柄,并设置目标设备(如iris_qpu)。 - 执行电路切割:使用
QCut将目标线路拆分为 Fragment,生成一组 QIR 文件。通过循环向 IRIS 调度器异步提交这些碎片,最后通过一个具有依赖性的经典任务(Post-processing)来执行聚合公式。
4. 关键引用文献,以及对这项工作局限性的评论
4.1 关键引用
- [6] QIR Alliance: 定义了量子中间表示的标准,是本项目可移植性的基石。
- [12] XACC (McCaskey et al.): 提供了与 IonQ 等物理硬件对接的 API 抽象。
- [16] Harada et al.: 提供了“双重最优并行线切割(Doubly optimal parallel wire cutting)”的理论指导,是本实验算法的核心。
4.2 局限性评论
尽管 Q-IRIS 在任务并行化上取得了巨大进步,但作为技术作者,我认为仍存在以下局限:
- 通信开销:虽然 MMAP 解决了线程安全问题,但在处理极小粒度的量子任务时,进程间通信(IPC)和上下文切换的开销可能会抵消掉并行带来的收益。未来的版本应致力于 QIR-EE 本身的线程安全重构。
- 电路切割的爆炸性增长:电路切割会引入显著的经典后处理负担。切割 $k$ 条线会产生 $4^k$ 阶的任务增长。Q-IRIS 虽然能并行量子部分,但经典侧的期望值重组公式可能成为新的瓶颈。
- 动态资源分配尚不成熟:目前设备选择仍有较大的人工预设成分。真正的“智能”运行时应能根据 QPU 的当前保真度(Calibration Data)实时调整任务放置,这在文中仅作为未来工作提及。
5. 其他补充:量子化学科研人员的视角
对于从事量子化学模拟(如计算基态能或分子动力学)的工作者来说,Q-IRIS 的出现意味着我们终于可以开始考虑**“分布式量子化学仿真”**。
5.1 对 VQE 算法的启示
VQE 算法中的算子测量通常涉及成千上万个 Pauli Term。通过 Q-IRIS,我们可以将这些 Term 自动分布到集群中的 10 个不同的 QPU 节点上,实现近乎线性的加速。这比手动在 Qiskit 脚本里写 loop 要高效得多,因为 IRIS 调度器具备自动的故障转移和动态负载均衡能力。
5.2 内存管理的未来:IRIS-DMEM
论文中提到的异构内存管理模型(IRIS-DMEM)值得高度关注。在量子模拟中,状态矢量的存储极其消耗内存($2^n$ 指数增长)。如果 Q-IRIS 能进一步实现 QPU 结果直接映射到 GPU 内存进行后续的高维张量收缩,这将极大加速量子化学工作流,减少数据在主机内存和加速器之间的无效拷贝。
5.3 结论
Q-IRIS 不仅仅是一个运行时系统,它是高性能量子计算(HPQC)的一个缩影。它证明了通过成熟的经典并行计算理念(任务驱动、异步调度、中间表示),我们能够显著提升现有量子硬件的利用率,为即将到来的百亿亿级(Exascale)量子-经典融合计算奠定坚实的软件基础。