1. 环境准备与基础概念刚接手一台浪潮NF5280M6服务器时我发现单块万兆光纤网卡已经无法满足业务流量需求。这时候就需要用到LACP链路聚合技术——简单说就是把两块物理网卡绑在一起像高速公路的车道合并一样提升带宽。不过在实际操作前有几个关键点需要确认首先检查硬件兼容性我的两台华为光纤网卡型号必须完全相同比如都是X520-DA2这点很容易被忽略。有次我遇到个故障排查半天才发现是网卡固件版本不一致导致的。其次要确保ESXi 6.7版本支持你的网卡驱动建议通过esxcli network nic list命令查看网卡识别状态。关于LACP模式的选择就像手机充电有快充和普通充电两种方式静态聚合手工模式相当于手动设置充电功率配置简单但不够智能动态聚合LACP模式类似手机和充电器的自动协商能动态调整最佳状态这里有个新手容易踩的坑ESXi本身不直接处理LACP协议而是通过虚拟交换机将协商工作交给物理交换机。就像你不会直接和电厂谈用电协议而是通过物业公司来协调。2. 交换机端配置实战2.1 创建Eth-Trunk通道登录华为交换机后我习惯先用display interface brief确认物理端口状态。假设我们要聚合G0/0/1和G0/0/2两个端口system-view sysname To-ESXi-Server # 给交换机起个有意义的名字 interface eth-trunk 1 # 创建编号为1的聚合组 mode lacp # 设置为LACP动态模式这里有个细节华为交换机默认的LACP优先级是32768如果想主动控制哪端作为协商主设备可以通过lacp system-priority 100设置更小的数值值越小优先级越高。2.2 添加成员端口添加物理端口时要注意顺序我一般先shutdown端口避免业务中断interface gigabitethernet 0/0/1 shutdown eth-trunk 1 undo shutdown重复上述操作添加第二个端口后用display eth-trunk 1检查时会看到LACP状态为Selected表示协商成功。如果看到Unselected通常是两端配置不一致导致的。注意华为交换机需要确保所有成员端口配置相同比如都开启全双工、相同的速率和VLAN。有次我忘记设置端口速率导致一个端口始终无法加入聚合组。3. ESXi主机配置详解3.1 创建分布式虚拟交换机在vSphere Client中操作时我发现6.7版本有个隐藏坑点标准交换机不支持LACP必须使用分布式交换机右键数据中心选择Distributed Switch → New版本选择6.5.0或更高兼容6.7在Add and Manage Hosts步骤时建议先不添加物理适配器创建完成后关键步骤是配置LACP组# 通过SSH登录ESXi主机 esxcli network vswitch dvs vmware lacp config set --enabletrue --modeactive --vds-namevDSwitch01这里的mode有两种选择active主动发送LACP报文推荐passive被动响应交换机必须配置为active3.2 添加网卡绑定在分布式交换机端口组配置中负载均衡策略要选Route based on IP hash这是LACP能正常工作的关键右键分布式交换机 → Add and Manage Hosts选择Manage physical adapters添加两块光纤网卡在Teaming and failover中将两台物理网卡都标记为Active adapters实测中发现个有趣现象当使用IP hash策略时同一个IP地址的流量始终走同一条物理链路。这意味着单线程下载不会突破单网卡速率但多线程应用能充分利用聚合带宽。4. 验证与排错指南4.1 双向连通性测试配置完成后我习惯用三层验证法物理层查看交换机端口指示灯两个成员端口都应该有规律闪烁数据链路层在交换机执行display lacp statistics eth-trunk 1应该看到两个端口都有报文计数网络层从ESXi ping网关时连续快速ping测试ping -t 192.168.1.1不应该有任何丢包4.2 常见故障处理遇到最多的问题是一端up一端down这时候可以按这个检查清单排查MTU匹配检查# ESXi端查看 esxcli network nic list | grep MTU # 交换机端查看 display interface gigabitethernet 0/0/1 | include MTULACP超时时间华为默认是慢速30秒如果ESXi配置了快速1秒会导致协商失败# 交换机端调整 interface eth-trunk 1 lacp timeout fastVLAN配置曾经遇到个案例交换机端口配置了VLAN 10而ESXi端口组配置的是VLAN 20对于更复杂的故障可以在ESXi端开启详细日志esxcli system syslog config --set-loghost你的日志服务器 esxcli system syslog mark --message开始LACP故障排查5. 高级优化技巧经过多次实战我总结出几个提升LACP效能的经验流量分配优化默认的IP hash算法可能不适合所有场景。对于VMware环境可以在端口组高级设置中调整哈希算法源目的IP端口适合多客户端访问源目的MAC适合iSCSI等存储流量故障切换调优通过修改failback参数可以控制链路恢复行为esxcli network vswitch dvs policy failback get -v vDSwitch01 esxcli network vswitch dvs policy failback set -v vDSwitch01 -b false设置为false可以避免网络抖动时频繁切换。性能监控方案建议在vCenter中创建自定义性能图表监控Uplink Traffic和Packet Drop指标。有次通过这个方式提前发现了某条链路的CRC错误及时更换了光纤模块。