Paper Notes
首页 标签 列表

cuTENSORMp

  • 跨越单卡显存墙:多GPU分布式大规模张量网络收缩的高效并轨规划与性能极限解析

    2026-06-02

    本文深入剖析基于多GPU平台的高效分布式张量网络收缩理论与软硬件协同优化技术。通过面向GEMM的维度重排算法与基于动态规划的通信感知分布式规划器,突破传统切片技术的指数级计算开销与单卡显存壁垒。

    • #张量网络
    • #多GPU并行
    • #cuTENSORMp
    • #量子计算模拟
    • #高性能计算

© 2026 Paper Notes.