HCCL_INTRA_ROCE_ENABLE【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl功能描述用于配置Server内或超节点内是否使用RoCE链路进行通信。针对Atlas 训练系列产品与Atlas A2 训练系列产品/Atlas A2 推理系列产品该环境变量用于配置Server内是否使用RoCE链路进行通信默认值0可以单独配置也可以与环境变量HCCL_INTRA_PCIE_ENABLE同时使用。支持的配置组合以及不同组合下Server内使用的通信链路如下表所示HCCL_INTRA_PCIE_ENABLE与HCCL_INTRA_ROCE_ENABLE支持的配置组合如下表所示HCCL_INTRA_PCIE_ENABLEHCCL_INTRA_ROCE_ENABLEServer内通信链路1不配置PCIe10PCIe01RoCE不配置1RoCE00PCIe不配置不配置PCIe[!NOTE]说明不支持HCCL_INTRA_PCIE_ENABLE和HCCL_INTRA_ROCE_ENABLE同时配置为1。不支持HCCL_INTRA_PCIE_ENABLE配置为0HCCL_INTRA_ROCE_ENABLE不配置。不支持HCCL_INTRA_PCIE_ENABLE不配置HCCL_INTRA_ROCE_ENABLE配置为0。针对Atlas A3 训练系列产品/Atlas A3 推理系列产品该环境变量仅在使用LLM-DataDist作为集群管理组件的场景下生效用于配置超节点内是否使用RoCE链路进行通信默认值0配置说明如下0超节点内采用默认的HCCS链路或PCIe链路进行通信包括LLM-DataDist通信与HCCL通信。1针对Atlas 800T A3 超节点、Atlas 800I A3 超节点与Atlas 900 A3 SuperPoD 超节点超节点内LLM-DataDist通信采用RoCE链路HCCL通信不受影响针对A200T A3 Box8 超节点LLM-DataDist与HCCL通信都采用RoCE链路。配置示例export HCCL_INTRA_ROCE_ENABLE1使用约束Atlas 200T A2 Box16 异构子框存在左右两个模组分别为0~7卡和8~15卡针对此产品**单机场景下**当Server内采用PCIe链路通信时若需要同时使用两个模组的卡两个模组需使用相同的卡数且在同一平面即0卡和8卡、1卡和9卡以此类推需要同时使用当Server内采用RoCE链路通信时无此限制。支持的型号Atlas 训练系列产品仅支持此处理器型号下的Atlas 300T Pro 训练卡。Atlas A2 训练系列产品/Atlas A2 推理系列产品仅支持此处理器型号下的Atlas 200T A2 Box16 异构子框。Atlas A3 训练系列产品/Atlas A3 推理系列产品仅在使用LLM-DataDist作为集群管理组件的场景下生效。【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考