迈向大规模量子分子生成:GPU加速张量网络模拟的深度解析
本文深度解析了 SQMG 框架,探讨其如何通过“原子不复用、键复用”架构与 GPU 加速张量网络模拟,将量子分子生成的规模扩展至 40 个重原子,突破了传统状态向量模拟的内存瓶颈。
本文深度解析了 SQMG 框架,探讨其如何通过“原子不复用、键复用”架构与 GPU 加速张量网络模拟,将量子分子生成的规模扩展至 40 个重原子,突破了传统状态向量模拟的内存瓶颈。
本文深度解析了由台湾大学与成功大学团队提出的量子模拟优化框架,该工作通过 Merge Booster 和 Diagonal Detector 算法,在 64 片 NVIDIA H100 GPU 集群上实现了对 38 比特量子线路的高效模拟,最高加速比达 160 倍。
本文深度解析 NVIDIA 团队通过统一路径变分 (UPV) 与非简并分批采样 (NBS) 技术,将量子张量网络噪声模拟速度提升至最高 1 亿倍的突破性工作,为量子化学与纠错研究提供强力支持。
本文深度解析了 gyaradax——一个仅用 3000 行 JAX 代码实现的高性能、可微局部回旋动力学求解器,探讨其在 GPU 加速、自动微分及 AI 辅助开发方面的突破。
本文深度解析了一种新型 GPU 加速量子模拟框架,该框架通过经验后端选择、DAG 门融合及自适应精度技术,在 A100 GPU 上实现了相较于传统 CPU 模拟最高 146 倍的加速,为 NISQ 时代的算法验证提供了高效工具。
本文深度解析了一种创新的自适应张量网络模拟框架,该框架通过 PID 控制算法动态管理键维数 χ,结合 GPU 加速的 SVD 计算,在保持高精度的同时显著提升了量子多体系统模拟的效率与自动化程度。
Tsim 是由 QuEra 开发的高性能、通用量子电路模拟器,通过结合 ZX 演算简化与稳定子秩分解,在保持 Stim API 兼容性的同时,实现了对非克利福德门的快速模拟与 GPU 加速。
本文深度解析了 Hyperion 量子模拟器如何通过创新的 SV-MPS 划分策略和定制化 GPU 内核,在 16 张 H100 GPU 上实现 36-40 量子位的强相干化学系统高精度模拟。
本文深度探讨了如何利用现代 GPU 的 AI 加速单元(INT8 Tensor Cores)通过 Ozaki 精度模拟技术加速传统双精度 FP64 的量子化学负载,并在 MuST 软件包中实现了显著的性能提升。
本文深度解析了 Mahlau 等人提出的通过减少位宽表示(如 FP8)和时间步子采样来优化 FDTD 时间反转梯度计算内存效率的方法,实现了在不损失优化精度的前提下 64 倍的内存节省。
本文深度解析了 PySCF 最新推出的 GPU 加速多尺度高斯-平面波 (FFTDF) 算法实现,探讨其如何在 H100 GPU 上实现 25 倍加速,并达到 FP64 峰值性能的 80%。
本文深度解析了开源软件包 soliton_solver,探讨其如何利用 Numba CUDA 实现跨学科的二维非线性场论数值模拟,通过理论不可知架构与 Arrested Newton Flow 算法解决复杂物理体系的能量极小化问题。
本文深度解析了北京大学等团队在 ABACUS 中实现的统一异构 RT-TDDFT 框架。通过三层抽象结构与针对数值原子轨道的 GPU 核函数优化,该工作实现了高达 12 倍的算子加速,为探索大体系非平衡态电子动力学奠定了高性能计算基础。
本文深度剖析了 NNVMC 在现代 GPU 上的计算瓶颈,揭示了拉普拉斯算子计算与内存墙之间的矛盾,并为量子化学模拟的硬件加速提供了战略性建议。
本文深度探讨了如何在NVIDIA Hopper和Grace Hopper架构上通过改进批处理算法,利用CuPy和PyTorch显著提升CCSD计算效率,最高实现10倍加速,为大规模量子化学计算提供了新的技术范式。
本文深度解析 Leiden 大学开发的 QuaSARQ 框架,探讨其如何通过重构高斯消元为并行前缀和操作,实现 105 倍的 Clifford 电路模拟加速。
本文深度解析香港大学杨钧教授团队开发的多 GPU 并行 MBE(3)-OSV-MP2 算法,该方法实现了 O(N^1.9) 的优异标度,并在 24 块 GPU 上展现出极高的计算效率。
本文深度解析 PySCF 项目十年来的技术演进,涵盖从周期性体系计算到 GPU 加速及自动微分的核心进展,是量子化学科研人员的必备指南。
深度解析 Costa 等人提出的基于 GEMM 的 3D Poisson 直接求解器,该方法通过张量分解与特征值分解,巧妙解决了非均匀网格下 FFT 的局限性,在现代 GPU 架构上实现了极高的并行效率。
本文深度解析了一种并行化、GPU 加速的迭代量子比特耦合簇(iQCC)方法,该方法成功突破了 200 量子比特规模的经典模拟瓶颈,在钌催化剂体系中展现了超越 DMRG 的精度,重新定义了量子计算在化学领域的实用化边界。
本文深度解析了一种新型 GPU 加速的瞬态电磁-热-力(EM-Thermal-Mechanical)全耦合仿真方案,旨在解决 2.5D/3D 高密度封装设计中瞬态信号引发的局部热冲击与应力集中问题。
本文深度解析 paces 方法:一种基于 GPU 并行化的协同演化子空间算法,旨在突破量子动力学模拟中的指数级维度灾难,并与矩阵乘积态 (MPS) 进行性能对标。
ByteQC 是由字节跳动研究团队开发的开源量子化学软件包,通过创新的 GPU 算法设计(如 Warp Specialization 和无转置张量缩并)及 SIE 嵌入方法,将 CCSD(T) 等高精度计算推向了万级轨道的超大规模体系。
本文深度解析了针对 mumax+ 框架开发的双层腔磁子学扩展,该工具实现了对磁子-光子强耦合、多模杂化及非相干耗散过程的高效仿真。
本文深度解析了 Yoshiaki Kawase 提出的门融合技术,该技术通过优化 Triton 核函数,在 GPU 上实现了 QML 训练 20-30 倍的吞吐量提升,为深层量子线路的大规模模拟提供了可能。
本文深度解析了一种名为 LIETS-QSGS 的新型算法,该算法通过列表索引显式时间步进技术,将 3D 多孔介质的生成效率提升了数个数量级,使其在消费级 GPU 上仅需 24 秒即可完成 400³ 规模的重构。
本文深度解析了发表在《Science》级别期刊潜力的突破性工作:通过解耦前向模拟与反向传播,利用Gumbel-Softmax直通估计器实现了20万参数规模的精确化学主方程梯度优化。
本文深度评述了 ipie 软件包的最新进展,重点分析其在多 Slater 行列式支持、分布式 GPU 算力扩展以及有限温度、声子耦合等前沿物理问题上的技术创新与性能突破。
本文深度解析了如何利用 LSTM 元学习框架与 NVIDIA CUDA-Q 平台结合,通过 GPU 加速大幅提升变分量子特征值求解器 (VQE) 的收敛速度与精度,解决量子化学与物理模拟中的关键瓶颈。
本文深度解析了由北京师范大学任佳骏课题组提出的 EH-TEMPO 算法,该方法通过将 Feynman-Vernon 影响泛函重构为有效哈密顿量的虚时演化,显著降低了多态系统模拟的计算复杂度,并在 GPU 上实现了高达 17.5 倍的加速。