别再等硬盘挂了！用smartctl给你的Linux服务器硬盘做个全面体检（附CentOS 7安装配置）

张

张建站

2026/5/28 8:40:36

10分钟阅读

别再等硬盘挂了！用smartctl给你的Linux服务器硬盘做个全面体检（附CentOS 7安装配置）

服务器硬盘健康监测实战用smartctl提前发现潜在故障深夜的运维值班室里刺耳的告警声突然响起——某台关键业务服务器的RAID阵列出现降级。当你匆忙登录系统排查时发现一块硬盘已经彻底离线而更糟糕的是由于没有及时更换预警中的故障盘导致RAID重建失败大量业务数据面临丢失风险。这种场景对于Linux运维人员来说无异于噩梦而实际上大多数硬盘故障在彻底罢工前都会通过SMART参数发出求救信号。1. 理解SMART技术与smartctl工具现代硬盘都内置了SMART自我监测分析与报告技术系统它就像硬盘的黑匣子持续记录着数百项健康指标。当磁头稳定性下降、扇区读取错误率升高或电机运转异常时这些数据会率先反映在SMART属性中。而smartctl正是我们与这个预警系统对话的听诊器。在CentOS 7上安装smartmontools套件只需执行yum install -y smartmontools验证硬盘是否支持SMART检测smartctl -i /dev/sda | grep -E SMART support|Available关键输出解读SMART support is: Enabled表示SMART功能已启用SMART support is: Available表示硬盘硬件支持SMART如果发现未启用可以通过以下命令激活smartctl --smarton --offlineautoon --saveautoon /dev/sda2. 关键健康指标解读与预警阈值执行完整SMART检测后我们需要特别关注以下几类危险信号2.1 扇区重映射相关参数smartctl -A /dev/sda | grep -E Reallocated|Pending|Uncorrectable典型输出示例5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0 197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0危险信号解读表参数名称安全阈值黄色预警范围红色警报范围应急措施Reallocated_Sector_Ct≤1011-5050立即备份Current_Pending_Sector01-1010强制坏道检测Offline_Uncorrectable01-55停止写入操作2.2 机械硬盘专属指标对于传统HDD这些参数需要特别关注smartctl -A /dev/sda | grep -E Spin_Retry|Seek_Error|Temperature关键指标说明Spin_Retry_Count 0 表示盘片启动困难Seek_Error_Rate持续上升反映磁头定位问题Temperature_Celsius超过60℃会显著缩短寿命2.3 SSD特有健康度指标如果是固态硬盘需额外检查smartctl -A /dev/nvme0n1 | grep -E Media_Wearout|Percentage_Used典型SSD寿命指标233 Media_Wearout_Indicator 0x0032 095 095 000 Old_age Always - 5 177 Wear_Leveling_Count 0x0013 099 099 000 Pre-fail Always - 13. 自动化监控方案实现3.1 定期自检任务配置设置每周日凌晨2点执行长测试(crontab -l 2/dev/null; echo 0 2 * * 0 /usr/sbin/smartctl -t long /dev/sda) | crontab -3.2 监控脚本示例创建/usr/local/bin/check_disk_health.sh#!/bin/bash DEVICE/dev/sda LOG_FILE/var/log/disk_health.log # 健康状态检查 HEALTH$(smartctl -H $DEVICE | grep result: | awk {print $NF}) if [ $HEALTH ! PASSED ]; then echo $(date) - CRITICAL: Disk $DEVICE health check FAILED $LOG_FILE exit 1 fi # 关键参数检查 REALLOC$(smartctl -A $DEVICE | grep Reallocated_Sector_Ct | awk {print $10}) PENDING$(smartctl -A $DEVICE | grep Current_Pending_Sector | awk {print $10}) if [ $REALLOC -gt 10 ] || [ $PENDING -gt 0 ]; then echo $(date) - WARNING: $DEVICE has $REALLOC reallocated sectors and $PENDING pending sectors $LOG_FILE fi3.3 与现有监控系统集成对于使用Zabbix的运维环境可以添加以下监控项UserParameterdisk.health[*],smartctl -H $1 | grep result: | awk {print $$NF} | grep -c PASSED UserParameterdisk.reallocated[*],smartctl -A $1 | grep Reallocated_Sector_Ct | awk {print $$10}4. 故障场景应急处理手册4.1 黄色预警处理流程当出现以下情况时重映射扇区数在10-50之间出现少量待处理扇区温度持续偏高应对步骤立即备份关键数据启动长测试确认问题范围smartctl -t long /dev/sda检查测试结果smartctl -l selftest /dev/sda考虑将磁盘移出RAID阵列作为热备盘4.2 红色警报紧急响应当检测到以下情况重映射扇区超过50健康检查返回FAILED状态出现大量无法纠正的扇区必须执行立即停止写入操作echo 1 /sys/block/sda/device/delete使用ddrescue尝试数据抢救ddrescue -d /dev/sda /mnt/backup/image.img /mnt/backup/logfile.log记录完整SMART日志供厂商分析smartctl -x /dev/sda /var/log/smart_failure_report.txt4.3 企业级运维建议对于关键业务服务器建议建立以下规范新硬盘上架前执行smartctl -t long全检月度检查所有磁盘的Power_On_Hours参数季度性对比同一批次硬盘的SMART参数离散度为每块硬盘建立完整的生命周期档案在最近一次数据中心巡检中我们通过分析Reallocated_Sector_Ct的增长趋势提前3周预测到一批次硬盘的集体故障避免了大规模数据丢失事件。这再次证明熟练解读SMART参数就像掌握服务器的脉搏能让运维人员真正做到防患于未然。

多LLM协同架构在AI法律调解系统中的应用与实践

1. 项目概述：当AI成为“和事佬”最近在做一个挺有意思的项目，我们内部称之为“AI调解员”。核心想法很简单：当两个人或两家公司发生法律纠纷时，与其立刻对簿公堂，不如先让一个更理性、更懂规则的“中间人”来帮忙梳理一…...

2026/5/28 8:38:09 阅读更多 →

三步解锁音乐自由：开源NCM转换工具让你掌控自己的音乐收藏

三步解锁音乐自由：开源NCM转换工具让你掌控自己的音乐收藏【免费下载链接】ncmdump ncmdump - 网易云音乐NCM转换项目地址: https://gitcode.com/gh_mirrors/ncmdu/ncmdump 你是否曾满怀期待地从网易云音乐下载了心爱的歌曲，却发现在其他播放器…...

2026/5/28 8:36:42 阅读更多 →

3步实现智能媒体资源管理：告别网页资源获取烦恼

3步实现智能媒体资源管理：告别网页资源获取烦恼【免费下载链接】cat-catch 猫抓浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否经常遇到这样的情况？…...

2026/5/28 8:35:28 阅读更多 →

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…...

2026/5/26 6:08:07 阅读更多 →

通过curl命令调试Taotoken大模型API，快速排查接入问题

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度通过curl命令调试Taotoken大模型API，快速排查接入问题在接入大模型服务时，直接使用HTTP请求进行调试是一种…...

2026/5/26 6:15:52 阅读更多 →

Kubernetes自定义资源：扩展Kubernetes API的能力

Kubernetes自定义资源：扩展Kubernetes API的能力一、Kubernetes自定义资源概述 1.1 自定义资源的定义 Kubernetes自定义资源（Custom Resource，CR）是指用户自定义的资源类型，它扩展了Kubernetes API，允许用…...

2026/5/27 21:40:10 阅读更多 →

Codeforces Round 1057

【打得太糖了】Codeforces Round 1057 (Div. 2) solve 3 题 https://www.bilibili.com/video/BV1Gi4nzYE66/ 【Codeforces Round 1057 (Div. 2)实况】好久没打cf了，只会A-D https://www.bilibili.com/video/BV12q4xzMEy5/ 憧憬成为 Master 第 29 集 —— 反向冲分 (…...

2026/5/27 10:36:27 阅读更多 →