GPU加速 | Paper Notes

迈向大规模量子分子生成：GPU加速张量网络模拟的深度解析

2026-04-16

本文深度解析了 SQMG 框架，探讨其如何通过“原子不复用、键复用”架构与 GPU 加速张量网络模拟，将量子分子生成的规模扩展至 40 个重原子，突破了传统状态向量模拟的内存瓶颈。

突破算力瓶颈：基于缓存分块、Boost 加速与门融合优化的超大规模量子线路模拟深度解析

2026-04-15

本文深度解析了由台湾大学与成功大学团队提出的量子模拟优化框架，该工作通过 Merge Booster 和 Diagonal Detector 算法，在 64 片 NVIDIA H100 GPU 集群上实现了对 38 比特量子线路的高效模拟，最高加速比达 160 倍。

突破模拟极限：NVIDIA 统一路径变分与非简并分批采样技术，实现量子张量网络 10^8 倍加速

2026-04-09

本文深度解析 NVIDIA 团队通过统一路径变分 (UPV) 与非简并分批采样 (NBS) 技术，将量子张量网络噪声模拟速度提升至最高 1 亿倍的突破性工作，为量子化学与纠错研究提供强力支持。

gyaradax：深度解析基于 JAX 的可微局部回旋动力学仿真框架

2026-04-09

本文深度解析了 gyaradax——一个仅用 3000 行 JAX 代码实现的高性能、可微局部回旋动力学求解器，探讨其在 GPU 加速、自动微分及 AI 辅助开发方面的突破。

深度解析 GPU 加速量子线路模拟：经验后端选择、门融合与自适应精度技术

2026-04-07

本文深度解析了一种新型 GPU 加速量子模拟框架，该框架通过经验后端选择、DAG 门融合及自适应精度技术，在 A100 GPU 上实现了相较于传统 CPU 模拟最高 146 倍的加速，为 NISQ 时代的算法验证提供了高效工具。

自适应张量网络模拟：基于熵反馈 PID 控制与 GPU 加速 SVD 的深度解析

2026-04-07

本文深度解析了一种创新的自适应张量网络模拟框架，该框架通过 PID 控制算法动态管理键维数 χ，结合 GPU 加速的 SVD 计算，在保持高精度的同时显著提升了量子多体系统模拟的效率与自动化程度。

Tsim：基于 ZX 演算与稳定子秩分解的 GPU 加速通用量子纠错模拟器深度解析

2026-04-02

Tsim 是由 QuEra 开发的高性能、通用量子电路模拟器，通过结合 ZX 演算简化与稳定子秩分解，在保持 Stim API 兼容性的同时，实现了对非克利福德门的快速模拟与 GPU 加速。

深度解析 Hyperion：利用 GPU 加速与 SV-MPS 混合策略突破量子化学模拟极限

2026-04-01

本文深度解析了 Hyperion 量子模拟器如何通过创新的 SV-MPS 划分策略和定制化 GPU 内核，在 16 张 H100 GPU 上实现 36-40 量子位的强相干化学系统高精度模拟。

桥接 AI 算力与量子化学：基于 INT8 精细模拟的 Ab Initio 电子结构计算加速方案深度解析

2026-04-01

本文深度探讨了如何利用现代 GPU 的 AI 加速单元（INT8 Tensor Cores）通过 Ozaki 精度模拟技术加速传统双精度 FP64 的量子化学负载，并在 MuST 软件包中实现了显著的性能提升。

纳米光子学逆向设计中的内存革命：基于 FDTDX 的低精度与时间子采样场优化深度解析

2026-03-27

本文深度解析了 Mahlau 等人提出的通过减少位宽表示（如 FP8）和时间步子采样来优化 FDTD 时间反转梯度计算内存效率的方法，实现了在不损失优化精度的前提下 64 倍的内存节省。

GPU 加速 PySCF 多尺度高斯-平面波 (FFTDF) 算法：开启大规模量子化学模拟的新纪元

2026-03-26

本文深度解析了 PySCF 最新推出的 GPU 加速多尺度高斯-平面波 (FFTDF) 算法实现，探讨其如何在 H100 GPU 上实现 25 倍加速，并达到 FP64 峰值性能的 80%。

soliton_solver：基于 GPU 加速的二维非线性场论拓扑孤子通用求解器深度解析

2026-03-26

本文深度解析了开源软件包 soliton_solver，探讨其如何利用 Numba CUDA 实现跨学科的二维非线性场论数值模拟，通过理论不可知架构与 Arrested Newton Flow 算法解决复杂物理体系的能量极小化问题。

迈向超大规模超快动力学模拟：ABACUS 软件包中基于数值原子轨道（NAO）的实时 TDDFT 异构并行实现深度解析

2026-03-24

本文深度解析了北京大学等团队在 ABACUS 中实现的统一异构 RT-TDDFT 框架。通过三层抽象结构与针对数值原子轨道的 GPU 核函数优化，该工作实现了高达 12 倍的算子加速，为探索大体系非平衡态电子动力学奠定了高性能计算基础。

深度解析神经网络变分蒙特卡洛（NNVMC）：从计算负荷特性到软硬件协同设计

2026-03-24

本文深度剖析了 NNVMC 在现代 GPU 上的计算瓶颈，揭示了拉普拉斯算子计算与内存墙之间的矛盾，并为量子化学模拟的硬件加速提供了战略性建议。

深度解析：面向下一代GPU的超高效耦合簇（CCSD）Python框架——CuPy与PyTorch在Hopper架构上的性能对决

2026-03-24

本文深度探讨了如何在NVIDIA Hopper和Grace Hopper架构上通过改进批处理算法，利用CuPy和PyTorch显著提升CCSD计算效率，最高实现10倍加速，为大规模量子化学计算提供了新的技术范式。

QuaSARQ：利用 GPU 并行前缀和算法突破量子稳定器电路模拟瓶颈

2026-03-21

本文深度解析 Leiden 大学开发的 QuaSARQ 框架，探讨其如何通过重构高斯消元为并行前缀和操作，实现 105 倍的 Clifford 电路模拟加速。

量子化学计算的大规模飞跃：多 GPU 加速 MBE(3)-OSV-MP2 方法深度解析

2026-03-17

本文深度解析香港大学杨钧教授团队开发的多 GPU 并行 MBE(3)-OSV-MP2 算法，该方法实现了 O(N^1.9) 的优异标度，并在 24 块 GPU 上展现出极高的计算效率。

PySCF 十年征程：开源量子化学框架的深度解析与未来展望

2026-03-17

本文深度解析 PySCF 项目十年来的技术演进，涵盖从周期性体系计算到 GPU 加速及自动微分的核心进展，是量子化学科研人员的必备指南。

基于 GEMM 的非均匀网格 Poisson 直解法：高性能计算视角下的流体与量子化学计算加速

2026-03-11

深度解析 Costa 等人提出的基于 GEMM 的 3D Poisson 直接求解器，该方法通过张量分解与特征值分解，巧妙解决了非均匀网格下 FFT 的局限性，在现代 GPU 架构上实现了极高的并行效率。

并行 iQCC 赋能 200 量子比特级量子化学模拟：在钌催化剂体系超越经典基准

2026-03-10

本文深度解析了一种并行化、GPU 加速的迭代量子比特耦合簇（iQCC）方法，该方法成功突破了 200 量子比特规模的经典模拟瓶颈，在钌催化剂体系中展现了超越 DMRG 的精度，重新定义了量子计算在化学领域的实用化边界。

深度解析：面向先进封装设计的全尺度 GPU 加速瞬态电磁-热-力耦合仿真

2026-03-10

本文深度解析了一种新型 GPU 加速的瞬态电磁-热-力（EM-Thermal-Mechanical）全耦合仿真方案，旨在解决 2.5D/3D 高密度封装设计中瞬态信号引发的局部热冲击与应力集中问题。

量子动力学模拟的GPU加速新范式：深度解析paces协同演化子空间方法

2026-03-09

本文深度解析 paces 方法：一种基于 GPU 并行化的协同演化子空间算法，旨在突破量子动力学模拟中的指数级维度灾难，并与矩阵乘积态 (MPS) 进行性能对标。

ByteQC：ByteDance 开源的高性能 GPU 加速大尺度量子化学计算软件包深度解析

2026-03-07

ByteQC 是由字节跳动研究团队开发的开源量子化学软件包，通过创新的 GPU 算法设计（如 Warp Specialization 和无转置张量缩并）及 SIE 嵌入方法，将 CCSD(T) 等高精度计算推向了万级轨道的超大规模体系。

深入 mumax+ 磁子学：实现从相干到耗散耦合的多模腔磁子学仿真架构解析

2026-03-05

本文深度解析了针对 mumax+ 框架开发的双层腔磁子学扩展，该工具实现了对磁子-光子强耦合、多模杂化及非相干耗散过程的高效仿真。

突破显存瓶颈：基于 Triton 门融合的量子机器学习高效经典仿真深度解析

2026-03-04

本文深度解析了 Yoshiaki Kawase 提出的门融合技术，该技术通过优化 Triton 核函数，在 GPU 上实现了 QML 训练 20-30 倍的吞吐量提升，为深层量子线路的大规模模拟提供了可能。

极速 3D 多孔介质生成：GPU 加速的列表索引显式步进 LIETS-QSGS 算法深度解析

2026-02-28

本文深度解析了一种名为 LIETS-QSGS 的新型算法，该算法通过列表索引显式时间步进技术，将 3D 多孔介质的生成效率提升了数个数量级，使其在消费级 GPU 上仅需 24 秒即可完成 400³ 规模的重构。

破局维数灾难：深度学习规模的精确离散随机模拟与梯度优化深度解析

2026-02-27

本文深度解析了发表在《Science》级别期刊潜力的突破性工作：通过解耦前向模拟与反向传播，利用Gumbel-Softmax直通估计器实现了20万参数规模的精确化学主方程梯度优化。

深度解析 ipie：迈向超大规模 CPU/GPU 混合架构 AFQMC 计算新纪元

2026-02-24

本文深度评述了 ipie 软件包的最新进展，重点分析其在多 Slater 行列式支持、分布式 GPU 算力扩展以及有限温度、声子耦合等前沿物理问题上的技术创新与性能突破。

深度解析 Meta-Learning + GPU 加速：开启量子多体问题模拟的新纪元

2026-02-19

本文深度解析了如何利用 LSTM 元学习框架与 NVIDIA CUDA-Q 平台结合，通过 GPU 加速大幅提升变分量子特征值求解器 (VQE) 的收敛速度与精度，解决量子化学与物理模拟中的关键瓶颈。

基于有效哈密顿量虚时演化的非马尔可夫路径积分高效模拟：EH-TEMPO 算法深度解析

2026-02-18

本文深度解析了由北京师范大学任佳骏课题组提出的 EH-TEMPO 算法，该方法通过将 Feynman-Vernon 影响泛函重构为有效哈密顿量的虚时演化，显著降低了多态系统模拟的计算复杂度，并在 GPU 上实现了高达 17.5 倍的加速。