CANN HCCL 相关概念详解
相关概念【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl为了您有更好的阅读体验使用本文档前请先了解HCCL相关概念。HCCL基本概念HCCL的典型通信组网如下图所示。上图中涉及如下基本概念AI Server又称计算节点通常是8卡或16卡的昇腾NPU设备组成的服务器形态的统称。AI集群多个AI Server通过交换设备互联后用于分布式训练或推理的系统。若AI Server间通过灵衢总线交换设备进行连接组成的组网称之为超节点组网。通信成员通常称为rank是参与通信的最小逻辑实体每个rank都会分配一个唯一标识。通信域一组通信成员的组合描述通信范围。一个计算任务可以创建多个通信域通信成员也可以加入多个通信域。通信算子在通信域内完成通信任务的算子集合通信指所有成员一起参与的通信操作如Broadcast、AllReduce等。通信算法针对不同网络拓扑、数据量、硬件资源等场景通信算子通常会采用不同的通信算法实现。术语缩略语名称说明NPUNeural Network Processing Unit神经网络处理单元。采用“数据驱动并行计算”的架构擅长处理海量的视频和图像类多媒体业务数据专门用于处理人工智能应用中的大量计算任务。HCCLHuawei Collective Communication Library华为集合通信库。提供单机多卡以及多机多卡间的数据并行、模型并行集合通信方案。HCOMMHuawei Communication华为通信基础库。HCCSHuawei Cache Coherence System华为缓存一致性系统。用于CPU/NPU之间的高速互联。HCCPHuawei Collective Communication adaptive Protocol集合通信适配协议。提供跨NPU设备通信能力向上屏蔽具体通信协议差异。TOPO拓扑、拓扑结构。一个局域网内或者多个局域网之间的设备连接所构成的网络配置或者布置。PCIePeripheral Component Interconnect Express一种串行外设扩展总线标准常用于计算机系统中的外设扩展。PCIe-SWPCIe Switch符合PCIe总线扩展的交换设备。QPQueue Pair队列对。QP是远程直接内存访问技术的核心通信单元由发送队列Send QueueSQ和接收队列Receive QueueRQ组成用于管理数据传输任务。SDMASystem Direct Memory Access系统直接内存访问技术简称DMA允许外围设备直接访问系统内存而不需要CPU的干预。RDMARemote Direct Memory Access远程直接内存访问技术能够直接将数据从一台机器的内存传输到另一台机器无需双方操作系统的介入一般指可以跨网络的内存访问方式。RoCERDMA over Converged Ethernet承载在融合以太网上的RDMA技术即跨越以太网的RDMA通信方式。AIVAI Core中的Vector Core。TSTask Scheduler任务调度器。CCUCollective Communication Unit集合通信加速单元。【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考