别急着换HBA卡！Linux服务器messages日志狂刷multipath报错，先按这个流程查存储

张

张建站

2026/5/10 12:47:40

10分钟阅读

别急着换HBA卡Linux服务器messages日志狂刷multipath报错先按这个流程查存储深夜的告警铃声总是格外刺耳。当你打开终端看到/var/log/messages里不断刷新的multipathd: ... path is down和I/O error时第一反应是不是想立刻更换HBA卡且慢——在存储故障排查中硬件往往是最无辜的替罪羊。本文将带你建立一套科学的诊断思维用系统化的方法揪出真正的元凶。1. 从日志风暴中提取关键信号面对海量日志时新手常会陷入两个极端要么被吓懵要么盲目搜索解决方案。正确的做法是像老练的侦探那样先收集所有线索再分析关联性。1.1 解码multipath日志的隐藏信息典型的报错日志可能长这样Jun 15 03:22:45 node1 multipathd: 8:0:0:0: sdd: path is down Jun 15 03:22:45 node1 kernel: sd 8:0:0:0: [sdd] tag#0 FAILED Result: hostbyteDID_NO_CONNECT driverbyteDRIVER_OK Jun 15 03:22:45 node1 kernel: sd 8:0:0:0: [sdd] tag#0 CDB: Read(10) 28 00 00 00 00 00 00 00 08 00关键字段解析path is down多路径组件检测到路径失效DID_NO_CONNECTSCSI层连接中断Read(10)故障发生时正在执行的命令快速过滤命令# 按时间范围提取关键日志 grep -E multipathd|sd .*FAILED /var/log/messages | awk -v d1$(date -d 1 hour ago %b %d %H:%M:%S) -v d2$(date %b %d %H:%M:%S) $0 d1 $0 d2 # 统计各设备错误频率 grep path is down /var/log/messages | awk {print $NF} | sort | uniq -c | sort -nr1.2 区分症状与病因存储故障常呈现一因多果现象。下表对比了不同层级的典型表现故障层级典型日志特征关联性指标物理链路link is down,phyup0同一HBA端口下所有设备异常HBA卡qla2xxx: Failed to initialize系统日志出现HBA驱动报错存储阵列Unit attention,Not ready多台服务器同时报错多路径配置invalid path,wrong state仅特定LUN出现异常提示当看到I/O error时先记录下对应的SCSI命令如上面的Read(10)这能帮助判断是读操作还是写操作触发了故障。2. 构建三维诊断矩阵成熟的排错流程需要同时考虑时间维度何时开始、空间维度影响范围、逻辑维度配置变更。2.1 时间线重建执行这条命令可以快速建立故障时间轴journalctl -u multipathd --since 2 hours ago --no-pager | grep -A 3 -B 3 state change典型输出示例May 20 02:15:11 node1 multipathd: sdb: path state changed from active to faulty May 20 02:15:11 node1 multipathd: 3600a09803830445455244a4a56774b72: remaining active paths: 1 May 20 02:15:13 node1 multipathd: sdc: path state changed from active to ghost状态转换分析active → faulty路径彻底失效active → ghost路径时断时续faulty → active路径自动恢复2.2 拓扑验证绘制简化的存储拓扑图非常必要。使用这些命令快速获取信息# 查看HBA卡信息 lspci | grep -i fibre systool -c fc_host -v # 检查WWN连接状态 cat /sys/class/fc_host/host*/port_name cat /sys/class/fc_host/host*/port_state # 验证交换机端口 echo show port ${SWITCH_PORT} | ssh switch_admin关键验证点服务器HBA端口与交换机端口的光功率是否正常通常在-7dBm到-3dBm之间存储前端端口是否显示为logged in状态多路径配置中的WWN是否与存储映射一致3. 多路径状态深度解读multipath -ll的输出就像一本密码书需要正确解码才能获取有价值的信息。3.1 状态字段解析以华为存储的典型输出为例3600a09803830445455244a4a56774b72 dm-5 HUAWEI,XSG1 size10G features0 hwhandler0 wprw -- policyservice-time 0 prio1 statusenabled |- 8:0:0:0 sdd 8:48 faulty running - 9:0:0:0 sde 9:32 active ready重点字段faulty running路径异常但设备仍在尝试恢复active ready正常工作的路径prio1路径优先级存储阵列可能设置了非对称ALUA对比诊断法同时检查正常和异常的LUN路径状态差异点往往就是突破口。3.2 路径测试实战不要依赖静态检查实际触发IO才能验证路径可靠性# 使用dd测试特定路径 dd if/dev/sdd of/dev/null bs1M count100 iflagdirect # 使用sg3_utils进行底层测试 sg_inq /dev/sdd sg_verify /dev/sdd --ff注意测试前确保有业务影响预案避免在关键生产环境直接操作。4. 存储阵列侧排查技巧70%的多路径问题最终发现是存储配置问题。即使你没有存储管理员权限也能通过这些方法间接验证4.1 智能日志关联收集这些关键信息提供给存储团队# 收集SCSI sense数据 grep -i sense key /var/log/messages # 提取设备标识符 udevadm info --queryall --name/dev/sdd | grep -E ID_VENDOR|ID_MODEL|ID_SERIAL常见sense key解读sense key0x6单元注意存储可能有配置变更sense key0x2设备未就绪可能LUN被卸载sense key0x3介质错误物理磁盘问题4.2 配置变更追溯突然出现的多路径问题往往与这些操作有关存储固件升级端口zone配置变更LUN迁移或扩容主机组权限调整使用这条命令检查系统最近变更grep -iE upgrade|config|change /var/log/messages | grep -i storage5. 应急处理与长效防护当半夜三点面对崩溃的存储系统时你需要分阶段应对策略。5.1 紧急恢复步骤路径隔离将故障路径移出多路径组multipathd -kfail path sddIO重定向强制使用剩余路径echo 1 /sys/block/dm-5/device/fast_io_fail_tmo服务降级对于关键业务临时切换到本地存储5.2 防御性配置建议在/etc/multipath.conf中添加这些优化参数defaults { fast_io_fail_tmo 5 # 快速失败避免IO堆积 dev_loss_tmo 30 # 控制设备移除超时 user_friendly_names no # 使用WWN便于追踪 } devices { device { vendor HUAWEI product XSG1 path_grouping_policy group_by_prio # 按ALUA优先级分组 prio alua # 启用ALUA感知 } }最后记住存储故障就像密室杀人案所有路径线索都指向HBA卡那个最明显的嫌疑人时往往真凶藏在存储阵列密室机关里。保持怀疑精神用数据说话才是高级运维的生存之道。

Moryflow：本地优先AI智能体工作空间的设计理念与实战指南

1. 项目概述：一个本地优先的AI智能体工作空间最近在折腾个人知识管理和AI辅助工具时，发现了一个挺有意思的开源项目——Moryflow。简单来说，它想做的，是把一个“本地优先”的知识库和一个能真正帮你干活的“AI智能体”深度结合起来…...

2026/5/10 12:46:47 阅读更多 →

ImageGlass：Windows平台终极开源图像浏览器，支持90+格式的完整解决方案

ImageGlass：Windows平台终极开源图像浏览器，支持90格式的完整解决方案【免费下载链接】ImageGlass 🏞 A lightweight, versatile image viewer 项目地址: https://gitcode.com/gh_mirrors/im/ImageGlass 你是否曾经因为Windows自带的…...

2026/5/10 12:44:34 阅读更多 →

远程办公效率翻倍：除了TeamViewer，你还需要这个免费的键鼠共享神器ShareMouse

远程办公效率革命：如何用ShareMouse打造无缝跨设备工作流当你的办公桌上同时摆放着笔记本电脑和台式机时，是否经常在两套键鼠之间手忙脚乱？想象一下这样的场景：左手边的MacBook正在运行设计软件，右手边的Windows主机处…...

2026/5/10 12:42:58 阅读更多 →

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…...

2026/5/10 0:00:42 阅读更多 →

CANN/catlass TLA张量详解

TLA Tensors 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 本文介绍 TLA 中的 Tensor。如果说 Layout 负责描述“逻辑坐标如何映射到内存”&#xf…...

2026/5/10 0:01:42 阅读更多 →

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / …...

2026/5/10 0:09:21 阅读更多 →