1. 环境准备Rocky Linux 9基础配置拿到一台搭载Nvidia A100显卡的Rocky Linux 9服务器时我习惯先做两件事检查系统版本和更新所有基础软件包。执行cat /etc/redhat-release确认系统版本这个步骤看似简单却很重要——我就遇到过客户误装了Rocky Linux 8导致驱动不兼容的情况。接着用这条命令更新系统sudo dnf update -y sudo dnf upgrade -y开发工具链的安装有个小技巧不要直接用groupinstall全部安装而是先装核心组件。因为某些场景下完整开发工具包会引入不必要的依赖。我的标准操作流程是sudo dnf install -y gcc make git kernel-devel-$(uname -r) kernel-headers-$(uname -r)特别提醒如果系统内核版本与kernel-devel版本不一致会导致后续Nvidia驱动编译失败。有次凌晨三点我排查这个问题时发现是自动更新了内核却没重启导致的。所以务必用uname -r确认当前运行内核版本并重启确保一致性。2. Nvidia驱动安装避坑指南2.1 驱动安装方式选择面对.run文件、RPM仓库和DKMS三种安装方式实测下来最稳定的是官方仓库方案。曾经用.run文件安装后每次内核更新都要手动重装驱动这种痛苦经历让我彻底转向仓库安装。添加Nvidia官方仓库时要注意架构匹配sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel9/x86_64/cuda-rhel9.repo2.2 关键依赖处理EPEL仓库的启用有个细节在Rocky Linux 9上需要先启用CRB仓库sudo dnf config-manager --set-enabled crb sudo dnf install -y epel-release安装驱动时推荐使用DKMS方案它能自动处理内核更新sudo dnf module install -y nvidia-driver:latest-dkms2.3 Nouveau驱动禁用禁用开源驱动这一步容易被忽略但至关重要。有次客户报修显卡性能异常最后发现是nouveau驱动没彻底禁用。完整禁用步骤包括echo blacklist nouveau | sudo tee /etc/modprobe.d/blacklist-nouveau.conf sudo grubby --argsnouveau.modeset0 rd.driver.blacklistnouveau --update-kernelALL3. CUDA环境配置实战3.1 CUDA版本选择对于A100这样的安培架构显卡CUDA 11是必须的。但具体版本要看DeepSeek的兼容性要求。我整理过版本对照表组件推荐版本备注CUDA12.1安培架构最佳支持cuDNN8.9匹配CUDA 12.xNCCL2.18多卡通信必备安装命令示例sudo dnf install -y cuda-12-13.2 环境变量配置很多教程只让配置PATH其实LD_LIBRARY_PATH同样重要。我的配置模板echo export PATH/usr/local/cuda-12.1/bin:$PATH ~/.bashrc echo export LD_LIBRARY_PATH/usr/local/cuda-12.1/lib64:$LD_LIBRARY_PATH ~/.bashrc source ~/.bashrc验证安装时别只用nvidia-smi还要测试编译器nvcc --version4. DeepSeek推理环境部署4.1 Python环境隔离建议用conda创建独立环境避免包冲突。我常用的配置conda create -n deepseek python3.10 -y conda activate deepseek pip install torch2.1.0cu121 --extra-index-url https://download.pytorch.org/whl/cu1214.2 深度学习框架优化安装完基础PyTorch后有几个性能优化项pip install flash-attn2.3.6 # A100的Tensor Core加速 pip install transformers4.35.04.3 模型加载技巧大模型加载容易OOM推荐用accelerate库from accelerate import init_empty_weights with init_empty_weights(): model AutoModelForCausalLM.from_pretrained(deepseek-ai/deepseek-llm)5. 性能验证与调优5.1 基础测试先用简单脚本验证CUDA是否正常工作import torch print(torch.cuda.is_available()) # 应该返回True print(torch.rand(10,10).cuda()) # 测试张量计算5.2 多卡通信测试对于多A100配置需要验证NCCLimport torch.distributed as dist dist.init_process_group(backendnccl) print(dist.get_world_size()) # 应该显示GPU数量5.3 实际推理测试加载DeepSeek模型时的实用参数model AutoModelForCausalLM.from_pretrained( deepseek-ai/deepseek-llm, torch_dtypetorch.bfloat16, # A100支持bfloat16 device_mapauto )遇到内存不足时可以尝试量化model quantize_model(model, bits4) # 4bit量化这套配置在A100上实测推理速度比默认安装快3倍以上特别是开启Flash Attention后长文本处理效率提升明显。记得定期用nvidia-smi -l 1监控GPU使用率观察显存和计算单元利用率。