• 2018年7月9日月曜日
ウズマスターの日々
ウズマスターの日々 https://blog.uzumax.org/2018/07/zenlogic_9.html

Zenlogic(ファーストサーバ)大障害・二転三転

Zenlogicの障害はまだまだ続くなぁ。果たして一体いつになったら終息するのか。。。


サーバ全サービス停止 2018/7/6(金) 20:00

動きがあったのは 2018/7/6(金) 20:00。

元を辿れば2018/6/19(火)という3週間近く前からトラブってたんだけど、それだけ時間が経過しても全然直らないどころか悪化していくから、いよいよ大手術が決行されることになったみたいだな。

それが2018/7/6(金) 20:00。

断続的に続いている高負荷状態改善のため、昨日よりメンテナンスを実施しておりましたが、当初見込みより進捗が大幅に遅れているため、7月6日20時より、一時的にすべてのサービスのご利用を停止させていただきます。

クラウド基盤が全停止なんてとんでもない話だが、現場担当者が必要だと判断したのならそうなんだろう。

順調な経過  2018/7/8(日) 21:00

その後、緊急手術は順調に進む。

断続的に続いている高負荷状態改善のため、7月6日20時より、すべてのサービスのご利用を停止させていただきメンテナンスを実施しております。メンテナンスはこれまで予定どおり進捗しております

一変 2018/7/9(月) 08:00

ところが、前日の夜まで大丈夫だったのに、完了予定期日の1時間前になって急に白旗宣言。

断続的に続いている高負荷状態改善のため、7月6日20時より、すべてのサービスのご利用を停止させていただくメンテナンスを実施しております。作業に著しい遅れが生じていることから、完了予定時間を延長させていただくこととなりました。

無期限延長 2018/7/9(月) 09:00

そして遂には停止期間が無期限に。

2018年6月19日(火)より発生しているZenlogicホスティングの高負荷障害を改善するため、7月6日(金) 20時00分よりすべてのサービスを停止しメンテナンスを実施いたしました。
しかしながら、サービス再開処理後、再度の高負荷発生を確認いたしましたため、大変申し訳ございませんが、不本意ながらメンテナンスを延長させていただくこととなりました。

順調なんじゃなかったんかい!!

答弁の二転三転をどう申し開きするつもりか?

みんな気になるところは、

「何でちょっと前まで順調だったのに急にダメになるの?」 

だと思うけど、僕はこれは別に嘘の報告をしていたわけではないと思う。

予定していた作業は本当に予定通り進んだんだろう。
しかし、それでも問題は解決しなかった。

つまり、問題解決には結びつかない作業をこの3日間ずっとやってたってことなんだろう。

多分、問題を分析し切れていないんだろうな。

  • 何をすれば問題を解決出来るという確証を得ることが出来ない。
  • ただ、「こうすれば直るかも?」という担当者の勘を拠り所にした期待みたいなものはある。
  • 他に打つ手が無い状況だから、それに賭けてやってみた。(サービス停止)
  • 作業は予定通り行ったが、やっぱりそんな当てずっぽうでは直らず、何の意味も無かった。

こんな感じなんだと思う。

まあ、どうしようも無いわな。

作業の正当性に確証を得ようにも本番環境をテスト環境みたいに高負荷をかけるわけにはいかないだろうし、逆に本番環境と同等の大規模ストレージをテスト用に用意するのも時間的にもコスト的にも出来ないのだろう。

歴戦のデスマ戦士である僕としての意見はね、この会社の管理職、もしくはマネージャーは、自社にこの問題を解決するだけの力量が無いことを認識するべき。

チューニングという作業は高スキル人材でなければ対応出来ない。低スキル人材に時間を与えても解決することは無い。
目隠しして迷路を探索するが如く、時間を浪費するだけである。

別基盤構築 2018/7/9(月) 11:30

結局、原因究明やら対策やらは手も足も出なくて、バーンとサーバをぶっ潰してゼロから基盤を再構築することになった。

断続的に続いている高負荷状態、及び、メンテナンス時間が長時間に渡りお客様に大変ご不便をおかけしておりますことを、深くお詫び申し上げます。現在も、原因・対応方法の調査を続けております。
調査と平行して、基盤提供元のヤフー株式会社とともに、別基盤の構築準備に着手いたしました。

今後 

どうなるか分からんが、再構築した基盤に対して十分なテストをする時間などあるはず無いから、出たとこ勝負でリリースするんだろうな。

  • うまく動いたらそれで良し。
  • もしかしたら違う問題が発生するかもしれないが、それでも全く動かない現状より悪くなることは無い。

再構築ってどれくらいかかるんだろ?

まあ、真っ白なサーバを買ってくるところから始めるわけではなく、一応はYahooのクラウドに乗っかっているわけだから、「再構築」という言葉で感じるイメージの作業のいくつかはすっ飛ばせるんだろうが……。

結局、いつ直るってのはサッパリ分からん。

今後も動向を注視していきたい。

2 件のコメント:

ななし さんのコメント...

今働いているバイト先がこれのせいでパニック状態です。
担当者の方の説明とウェブサイトでの説明が異なっていたので現場は相当大変な事になっていそうです。

私が受け持ってる仕事はこの大規模障害に結びついていないのほとんど影響を受けていませんが、社員たちは外部との連絡に使っているのでファーストサーバ関係者ではありませんがこのシステム障害を顧客に説明しています。
大迷惑な障害ではありますが、ワードを用いて差し込み印刷ができない社員やエクセルでカウント関数を使えない社員、プリンターのドライバを外部の人間が介入しないとインストールできない社員が多々いるので、パソコンに少しでも明るくなれるいい機会なのではと不謹慎な事を思っています。

ウズマスターRYU さんのコメント...

やられたか。。。
Zenlogicは確かに安いって利点はあって、安いサーバでもこんなことになる話なんて聞いた事無いから、安くてやりたいことが出来るならとりあえずこれで良いやってなっちゃうよね。。。

無事の復旧を祈る。(´・ω・`)