最近对两张 NVIDIA H200 NVL 进行了 NCCL 通信与基础性能测试,过程中还踩了不少 CUDA/NCCL 版本兼容坑。最终完成了 CUDA 12.8 + NCCL CUDA12.8 版本统一后,测试结果已经稳定。本文主要分析:H200 PCIe 版本单卡性能双卡 PCIe P2P 通信性能与 NVLink/NVL 版本差距H200 PCIe 是否适合大模型训练实际部署建议一、测试环境硬件配置GPU:2 × H200 NVL(PCIe 版本)显存:141GB HBM3ePCIe:Gen5 x16CPU:双路服务器平台GPU 拓扑:GPU0:0000:c1:00GPU1:0000:e1:00软件环境Driver:570.211.01CUDA:12.8NCCL:2.26.2 + CUDA12.8测试工具:nccl-tests 2.18.3二、测试过程中踩过的坑最开始测试时,NCCL 一直报:CUDA driver version is insufficient fo