JZ-TREE 深度解析:利用 JAX 与 CUDA 协同实现 GPU 友好的邻域搜索与 FoF 聚类
本文深度解析了 JZ-TREE 框架,这是一种基于 Morton 序(Z-Order)平面层级的 GPU 树形结构,通过双树遍历和 JAX/CUDA 协同,在处理超大规模粒子体系时性能优于传统库一个数量级。
本文深度解析了 JZ-TREE 框架,这是一种基于 Morton 序(Z-Order)平面层级的 GPU 树形结构,通过双树遍历和 JAX/CUDA 协同,在处理超大规模粒子体系时性能优于传统库一个数量级。
本文深度解析了由 CERN、BSC 等机构提出的 Kubernetes 原生框架,该框架通过集成 Argo Workflows 和 Kueue,实现了 CPU、GPU 与 QPU 资源的统一调度,并以分布式量子电路切割为例展示了其在处理大规模量子化学模拟任务中的潜力。
本文深度解析了通过在 NVIDIA Tensor Cores 上模拟 SGEMM 并结合自动精度选择技术,显著提升量子电路模拟吞吐量且保持 FP32 精度的方法。
本文深入探讨了一种统一的软件辅助方法,用于离散偶极近似(DDA)求解器的浮点一致性交叉验证和公平基准测试,并详细分析了CPU和GPU性能、内存利用率及精度对计算光散射研究的影响。