By Takayuki Kobayashi 2012年1月31日 Leave a Comment

munin

定期的に、というか毎日のように、vmware のホストOSで vm のインスタンスが CPU使用率99% になって、必ず落ちていた。
原因が分からず、監視して再起動をしていた毎日。

ちょっと調べたところ、どうも named が悪さをしているとのことがあったので、named をバージョンアップするために別サーバへ移す。

内部 DNS サーバではあったが、ドメインを5つ管理していたので、かなり手間がかかった。
無事、DNSサーバは移行完了。
しばらく様子を見ると、DNSが落ちることはなくなった。

が、VM インスタンスは定期的に落ちる。なぜだろう・・・

初心に立ち戻って、/var/log/message を確認してみた。

Jan 29 15:58:02 www kernel: hdc: drive_cmd: error=0x04 { AbortedCommand }
Jan 29 15:58:02 www kernel: ide: failed opcode was: 0xec
Jan 29 16:03:02 www kernel: hdc: drive_cmd: status=0x51 { DriveReady SeekComplete Error }

なんかこんなのが繰り返しでてる。これかなぁ。
そういえば、vm のインスタンスで、/dev/hdc は存在しない・・・何だこりゃ?

そら確かに仮想化されたHDDの温度なんて取れませんね。

HDD の Kernel エラー

ありました!なんと、munin (サーバモニターツール) が悪さをしているとのこと。

早速確認したところ。
/etc/munin/plugins/hddtemp_smartctl
がありました〜!

どうもシンボリックリンクらしいので削除しても問題なし。

lrwxrwxrwx 1 root root   41 12月  5 10:34 hddtemp_smartctl -> /usr/share/munin/plugins/hddtemp_smartctl
# rm hddtemp_smartctl

5分置きに出力されるはずのログが、出ていないので、やはりこれらしい。
しばらく様子見です。ふ〜

でも、munin が悪さをしているとは、思いもよらなかった・・・
これで安心できるかな〜〜!!!




Leave a Reply

(required)

(required)