ものは壊れます。
個人でパソコンを使っていると…そんなに壊れない、壊れるときは壊れますが、1日1回壊れたりすることはないです。
ですので、ものってそんなに壊れないんじやないかなあと思っている方が多いんじゃないかなと思います。
私もそんな一人でした。
しかし、 お仕事でサーバーやネットワーク機器の監視をしてみると、機器が多いので、少なくとも1日に1つは何かが壊れるということを知りました。

ここから嘘を書きますが、わかりやすさのため勘弁してください。

10年に1回壊れるという製品があったとします。
10年は365日ですので、3650日に1回壊れます。
この機器が3650個あると、1日に1個は壊れる…ことになります。

嘘ここまでです。

厳密にはポアソン分布に従うので、んーと、もっと壊れるかな…
HDDとかは10年に1回どころかもっと壊れますし、パソコンはHDD含めいろんな部品で動いていますので、実際は3650個とかなくてもあちこちで壊れます。
ネットワーク機器はHDDのように物理的に何か接触する部分がないように作られている(ことがほとんど)なので、結構壊れませんが、ときどき壊れます。
洗濯機とか車とか、あんなにガシガシ動いているのにそんなに壊れない気がするのはすごいと思います。

ものは壊れるし、機器が増えれば増えるほど何かが壊れることが多くなるので、いつ壊れてもいいように、二重化したり、予備の物品を持っておいたりしないといけません。
 
あとは、できればなるべきシンプルな構成にすることがいいですね、間に何かが増えると増えた分だけ壊れるものが増えますので…

ということで、スイッチが壊れました。
振り返ると以下のような時系列でした。

1. ノートパソコンがインターネットに繋がりにくかった(無線LANの親機は壊れたスイッチに繋がっていた)
2. サーバーとスイッチの間のリンクが10BASE HALFに落ちることが増えた
3. サーバーとスイッチの間のリンクがあがらなくなった
4. スイッチがスイッチングできなくなった

1.は、無線の調子が悪いのだろうと思って、親機の電源OFF/ONをしていました。
親機の電源OFF/ONをすると…スイッチとのリンクを再確立しなおしますので、たまたま調子がよくなっただけだったのだろうなあと思います。

2.は…最初、全然気がつかずftpの速度が遅いなあと思って、 ethtoolのコマンドをたたいたら10BASE HALFだったというものです。まさか10BASEになっているなんて疑っていなかったので、当時は設定を確認してうんうん唸っていました。切り分けの最初は物理層から…が基本ですね…
10BASE HALFに落ちるのは、ケーブルを抜き差しで回復しました。
まあ、一過性のものかなと思っていたのですが、こういう現象が起きたら故障を疑った方がいいと学習しました。ネゴシエーションに失敗して10BASE HALFに落ちることはよくあるかなと勝手に思っていたので、故障と気づくまでに時間がかかりました。
ちなみに、この時、ケーブルとポートを変更しても事象が再発するかを試したところ、再発したのでサーバー側のイーサボードが悪いと思って交換しました。

その昔はIntelのチップが最高だったのですが、今でもIntelのチップが安定しているようでしたので、

ギガビット CT デスクトップ・アダプタ EXPI9301CTギガビット CT デスクトップ・アダプタ EXPI9301CT
販売元:インテル
(2009-02-25)
販売元:Amazon.co.jp

を買ってさしました。
イーサボードは悪くなかったようでしたが…

3.はイーサボードをかえてから2回起こりました。 
サービスが中断した場合、サービス回復を優先するか、調査を優先するかというのが、運用している方々の悩むところだと思いますが、ErogameScapeの場合は「まあ、再起動すれば直るかな」程度の気持ちでやっているので、とりあえず再起動したら直りました。

サービス中断した時、あとで原因を追及するためのログが残っていればいいのですが、案外原因を追及するための材料がログに記録されていないのはよくあることです、と思っています。
サーバーなんかは、自分で設定に融通が利くので、いろいろ仕込めたりしますが、ネットワーク機器は自分ではどうしようもないことが多いので、事象が起こったそのときに、いろんなコマンドをたたくマクロを作っておいて、とりあえずログをとっておきます。でないと、故障の根本原因がわからず、事象発生、再起動、直りました、をただ繰り返すだけになってしまいますので…

さて、再起動して直ったはいいですが、また数日後リンクが落ちました。
(1) サーバー側のifdown/ifup → 未回復
(2) サーバー側のLANケーブルの抜き差し → 未回復
(3) スイッチ側のLANケーブルの抜き差し → 未回復
(4) スイッチの電源OFF/ON → 回復
な感じでした。

ここらで、ああ、もしかしたらスイッチが悪いかもしれないけど、電源OFF/ONでなおったから様子見でいいかなと思っていました。

そして、先日4.が起こりました。
知り合いの方からメールで「サーバー落ちてますよ」と連絡を頂き、Twitterを眺めると、どうも8時間前に落ちたようで、胃が痛いです。

胃が痛いって、若いころはよくわからなかったんですが、そうですね、会社でサーバー等の保守部門にうつってからは、胃が痛くなることがよくあります。サーバーが落ちてサービス止まると大変です。サーバーやネットワークの機器の保守をされているみなさん、お疲れ様です、胃が痛くならないようなネットワークだといいですね。

さて、それはそうとして、メールを頂いたときに「ああ、多分スイッチが逝ったな」と思いました。
現場に到着。
サーバーとスイッチの間のリンクが断になっていることを確認しました。
それだけだったら待機系のサーバーで処理するはずなのですが、それもできていなかったので、待機系のサーバーに入ってpingをうったら

PING 192.168.0.12 (192.168.0.12) 56(84) bytes of data.
64 bytes from 192.168.0.12: icmp_seq=7 ttl=128 time=0.377 ms
64 bytes from 192.168.0.12: icmp_seq=8 ttl=128 time=0.511 ms
64 bytes from 192.168.0.12: icmp_seq=9 ttl=128 time=0.489 ms
64 bytes from 192.168.0.12: icmp_seq=16 ttl=128 time=0.492 ms
64 bytes from 192.168.0.12: icmp_seq=18 ttl=128 time=0.495 ms
64 bytes from 192.168.0.12: icmp_seq=19 ttl=128 time=0.479 ms
64 bytes from 192.168.0.12: icmp_seq=20 ttl=128 time=0.491 ms

--- 192.168.0.12 ping statistics ---
20 packets transmitted, 7 received, 65% packet loss, time 19178ms
rtt min/avg/max/mdev = 0.377/0.476/0.511/0.044 ms

と、ああ、フレームをロスるときは、こんなにロスるんだなあと思うくらいロスっていました。
電源のOFF/ONをしてもリンクがあがらなかったので、あ、こりゃ駄目だ、ということで他のスイッチの余っているポートにさして回復しました。

スイッチの予備はもっていなかったので、今回を機に買うことにしました。
安いですね、スイッチ、1000円以下でしかも送料無料です。いい世の中です。
ErogameSpapeのトラヒックは大したことないので…確かピークで4Mbpsほどだったと思いますので、100Mbpsのスイッチで十分です。とりあえず一番安いのを買いました。

Logitec 10 100Mbps スイッチングHUB 5ポート 電源外付 プラスチックケース ホワイト LAN-SW05/PHLogitec 10 100Mbps スイッチングHUB 5ポート 電源外付 プラスチックケース ホワイト LAN-SW05/PH
販売元:ロジテック
(2010-04-07)
販売元:Amazon.co.jp
今のスイッチは電力消費を抑えるいろいろな工夫がしてあってすごいと思いました。
ケーブルの繋がっていないポートには電気送らなかったり、ケーブルの長さを把握して必要最小限の電気だけ使って送ったり、すごいです。

ちなみにルータは壊れたらすぐに買えないのと、ライフサイクルが短いので予備を購入済みです。
実家においてありますので、お取り寄せに時間がかかりますが…

ちなみに、XR-410というルータなのですが、今、HPを見たらだいぶ前に販売終了して今はXR-430になってますね。

センチュリーシステムズ FutureNet XR-430 XR-430センチュリーシステムズ FutureNet XR-430 XR-430
販売元:センチュリーシステムズ
(2008-08-27)
販売元:Amazon.co.jp


故障したら分かりやすく故障して欲しいと思うのですが、多くの場合分かりやすくは故障してくれないので、企業のネットワークでは本当にいろんなものを見て「こりゃ故障の可能性がある」と判断したら交換とかしてると思います。それでも、未知の壊れ方をすることもいっぱいありまして「えー、そこが故障だったのー」とかよくあります。

ちゃんと故障してくれないと、切り替わるものも切りかわってくれなくて、微妙に使えないとか、そういうのもよくあります。

サービス中断した時には、中の人々は大変な思いで、すごい勢いで切り分けてると思いますので、そのうち直るかなーとゆっくり待ってもらえるとうれしいと思います。

でわでわ