2016.08.09
【サーバー】HDDの熱暴走
今年は暑さはやばいということでしょうか。
データストレージとして運用しているサバーなのですが
なんかいきなりSambaからアクセスができなくなりました。
いかんせん、すごくスペックが低いサーバーで一日一回再起動しないと
まともに動かないくらいなものなのです。
そんなPCなので不調もたまにある感じでするので
大抵は再起動すれば治るわけなのでとりあえず再起動をしたわけです。
そしたら、スタートアップでどうもこけているらしく操作不能に陥る。
仕方なくディプレイとキーボードを繋いで状況確認。
そしたらどうもBIOS自体で認識していないみたい。
まずは以前にもあったSATAケーブル破損。
メインPCからケーブルを引っこ抜いて交換。
ケーブル自体はこわれていないがHDDの差しこみ部分がガバっているのが不安。
交換して認識したけど少しするとまた症状が出てしまう。
いろいろと確認してみて気になったのがHDDの温度。
触ると熱いのがわかるくらい。
muninにてHDDの温度をデフォで監視していたらしく
状況を確認して見たのだがアベレージ50度とという
相当な高温になっていたみたい。
去年の同じ時期は40度付近なので部屋自体が暑くなっているってことなのでしょうか。
ということで、全力でHDDを冷やす感じにしてみる。
サーバーの箱を開けて部屋のクーラーを全開にして
扇風機で風をガンガン当てるようにしてしばらく待つ。
そしたら35度くらいまで落ちたわけです。
ここまでしないと温度が下がらないのは大問題ですね。
この後は症状もでなくなったし、HDDの温度が原因だったのでしょうね。
この際だし一緒にSMARTもチェックしておく。
コマンドはこんなかんじらしい。
# smartctl /dev/sda -A
不具合の起きたHDDはこんな感じ。
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 108 099 006 Pre-fail Always - 150629853 3 Spin_Up_Time 0x0003 100 092 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 095 095 020 Old_age Always - 5916 5 Reallocated_Sector_Ct 0x0033 001 001 036 Pre-fail Always FAILING_NOW 4095 7 Seek_Error_Rate 0x000f 081 060 030 Pre-fail Always - 144987199 9 Power_On_Hours 0x0032 048 048 000 Old_age Always - 46099 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 11 12 Power_Cycle_Count 0x0032 099 037 020 Old_age Always - 1489 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 099 099 000 Old_age Always - 1 188 Command_Timeout 0x0032 100 072 000 Old_age Always - 1739488297366 189 High_Fly_Writes 0x003a 001 001 000 Old_age Always - 217 190 Airflow_Temperature_Cel 0x0022 052 037 045 Old_age Always In_the_past 48 (84 232 48 47 0) 194 Temperature_Celsius 0x0022 048 063 000 Old_age Always - 48 (0 8 0 0 0) 195 Hardware_ECC_Recovered 0x001a 033 019 000 Old_age Always - 150629853 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 176 000 Old_age Always - 16035 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 188166812249085 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 3757290728 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 2087618637
OS領域用に使っているHDDはこんな感じ
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 200 200 051 Pre-fail Always - 0 3 Spin_Up_Time 0x0003 177 174 021 Pre-fail Always - 6125 4 Start_Stop_Count 0x0032 097 097 000 Old_age Always - 3342 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0 7 Seek_Error_Rate 0x000e 200 200 051 Old_age Always - 0 9 Power_On_Hours 0x0032 027 026 000 Old_age Always - 53895 10 Spin_Retry_Count 0x0012 100 100 051 Old_age Always - 0 11 Calibration_Retry_Count 0x0012 100 100 051 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 387 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 339 193 Load_Cycle_Count 0x0032 199 199 000 Old_age Always - 3343 194 Temperature_Celsius 0x0022 103 092 000 Old_age Always - 47 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0 197 Current_Pending_Sector 0x0012 200 200 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 200 200 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 2 200 Multi_Zone_Error_Rate 0x0008 200 200 051 Old_age Offline - 0
読み方としてはWHEN_FAILEDに何かあったら問題ありということになる。
Reallocated_Sector_CtにFAILING_NOWがでているので非常にまずい状況。
いわゆる代替セクタが起きてしまっていること。
これが発生したタイミングで交換したほうがいいくらい。
理想は交換なのだが変えるならもうマザボから全部一緒に交換したいしね。
というわけで、そろそろサーバーの一括更新をしたくなってきました。
USBキーボードが認識しなかったり、ディスプレイ出力がD-SUBだったり
メモリがDDR2だったりといろいろと終わっている状況ですので
お金がありませんが新しくしたいという気持ちが強いです。
関連記事