AWS障害で大規模な影響が発生 -止まってからでは遅い- ここから考えることとは？

2019年8月23日13時過ぎ、日本国内のゲームやSNS、ネットサービスサイトにアクセスできない、システム不具合が起きるという大規模な障害が発生しました。原因は、主要クラウドサービスの一つ、アマゾンのAWSに障害が起きたことによるものと、各メディアが報じています。今回はクラウドや障害、その時に必要なことなど考えてみます。

クラウドサービス AWS障害で大規模な影響が発生

障害の内容は？

クラウドサービスは、世界各所に配置されたデータセンター内にある複数サーバーを利用でき、利用した分だけ支払う従量課金や、すぐに多様な機能を利用できる利便性から急速に利用者が増えています。

中小規模向けのレンタルサーバー会社もクラウドサービスを導入していますが、世界で主要なサービスといえば、アマゾンのAWS、マイクロソフトのAzure、そしてグーグルのGCPの3つです。今回障害が発生したのは、アマゾンの「Amazon Web service（AWS）」のうち、日本国内に設置されている東京リージョンデータセンターです。

時系列と障害発生の原因は？

アマゾンの公式アナウンスサイト「Service Health Dashboard」Asia Pcificによると下記のとおりです。サーバーサイズを柔軟に変更できるクラウド上の仮想サーバー環境であるElastic Compute Cloud（Amazon EC2）についての報告です。

日本時間 2019年8月23日 12:36 より、AP-NORTHEAST-1 の単一のアベイラビリティゾーンで、一定の割合の EC2 サーバのオーバーヒートが発生しました。この結果、当該アベイラビリティゾーンの EC2 インスタンス及び EBS ボリュームのパフォーマンスの劣化が発生しました。このオーバーヒートは、影響を受けたアベイラビリティゾーン中の一部の冗長化された空調設備の管理システム障害が原因です。

日本時間 15:21 に冷却装置は復旧し、室温が通常状態に戻り始めました。温度が通常状態に戻ったことで、影響を受けたインスタンスの電源が回復しました。

日本時間 18:30 より大部分の EC2 インスタンスと EBS ボリュームは回復しました。我々は残りの EC2 インスタンスと EBS ボリュームの回復に取り組んでいます。少数の EC2 インスタンスと EBS ボリュームが電源が落ちたハードウェアホスト上に残されています。我々は影響をうけた全ての EC2 インスタンスと EBS ボリュームの回復のための作業を継続しています。

早期回復の為、可能な場合残された影響を受けている EC2 インスタンスと EBS ボリュームのリプレースを推奨します。いくつかの影響をうけた EC2 インスタンスはお客様側での作業が必要になる可能性がある為、後ほどお客様個別にお知らせすることを予定しています。

ココがポイント

EBSとは、仮想的に外付けされるHDD、記憶領域のこと。インスタンスとは、クラウド上の仮想サーバーのことで、インスタンスには実体という意味もあり、CPUやメモリなどリソースを選択できます。

上記のアナウンスとメディアの報道では、「制御システムの障害が起きたことから冗長化冷却システムに影響し、サーバーが過熱状態・オーバーヒートとなり障害が発生。
午後3時21分にサーバーの過熱が解消し、午後6時30分にほぼ復旧。ただし、迅速な復旧にはインスタンスとEBSのリプレースを推奨」とあります。

さらにデータベース（Relational Database Service）についての報告も同ページでなされており2019年8月23日 12:36 から 22:05 にかけて障害が発生したが現在は正常稼働中とあります。

ココがポイント

いわゆる熱暴走でしょうか。異常な暑さが記憶領域とサーバーに影響したとも読み取れますね。

影響の範囲は？

クラウドサービスは大規模なビジネスに活用されていますので、多岐にわたる分野で影響を与えています。

スマホ決済サービスのPayPay、ECサービスのユニクロ・ラクマ、SNSのミクシィ、スポーツ運営のDeNA、物流の日本通運など。また、ゲーム業界はクラウド利用率が高く、パズル＆ドラゴンズ、城とドラゴン、ガールズ＆パンツァー戦車道大作戦！、ドラゴンボールZ ドッカンバトル、アイドリッシュセブンなど有名ゲームの配信などに影響が出ています。

クラウド集中にもろさ　アマゾン「AWS」大規模障害

米アマゾン・ドット・コムが運営するクラウドサービス「アマゾン・ウェブ・サービス（AWS）」で23日、大規模なシステム障害が発生し、影響は広範囲に及んだ。

日本経済新聞

この障害から見えたもの

一番大きな課題は、AWSでは冗長化ができていないことが浮き彫りになったこと。そして、クラウドを利用しているサービスは規模が大きく代替サービスがすぐに稼働できないために、運営者・利用者ともにただ待つしか解決策がないことです。

さらに、このサービス停止期間中の保証はアマゾンから運営者に行われませんので、この点も今後検討しなければならない問題として出てきています。

クラウドを利用する企業がすべきこと

サーバー障害発生時はスピーディーにそして的確に、利用者に謝罪と情報提供する真摯な姿勢を保つことアマゾンがサービスを再開するのはただ待つしかないなかで、サービス運営会社ができることは怒らず、パニックにならず、スピーディーにそして的確に、利用者に謝罪と情報提供する真摯な姿勢を保つことでしょう。
顧客・エンドユーザーはアクセスしたサイトが開けないと、自身のパソコンの問題か、ネット接続の問題かすぐにはわかりません。稼働しているサービス外のサイトで、速やかに現状をお伝えすることで安心感は高まりますし、企業への信頼は無くなることはないと思います。

障害発生時はこのことを最重要視し、さらに復帰後は今後のクラウド利用と冗長化を検討し実行する必要があります。100%停止がないサービスを構築することは、技術的にも予算的にも難しいのですが、利用者のためできる限り停止しないサービス環境の構築が必要です。

まとめ

大規模なビジネスでのクラウドサービス利用の場合、同規模のシステムを複数維持することの困難さから、障害発生時の対策として復旧までただ待つのみ、という現実が浮き彫りになってしまいました。

これからクラウドサービス利用を検討する場合、冗長性や復旧、リスク対応が大きな課題になります。
アマゾンが自主的に冗長化対応するのを見守るか、自社運用サーバー（オンプレミス）を並列させる、大規模運用に耐えうるレンタルサーバーで冗長化するなどの対策を行い、利益やブランド棄損を極力避けることが求められています。

記事作成者プロフィール

佃　直毅: 株式会社ストレン代表取締役社長

情報セキュリティマネジメント
2級知的財産管理技能士
ネットショップ実務士レベル2
おすすめ情報サイト「マイベスト」レンタルサーバー・ドメイン監修

当サイトはホスティング業経験から、レンタルサーバー・ドメイン・ワードプレステーマ/テンプレートを中立の視点から比較評価し、始める・切り替える方の立場に立った情報をお届けします。

【仕事略歴】早稲田大商卒。東証一部精密機器メーカー、レコード会社を経て2000年動画配信レンタルサービス「ストレン」起業、マイクロソフト認定パートナーとしてサーバー構築・運用・PR等に携わる。2015年、東証グロース上場企業・お客様と合意の上、上場企業へユーザー移行後に同ビジネス終了、以降はITコンサルティングとして支援に。

【趣味】プロ野球/MLBなどスポーツ、映画・音楽好き（主に洋楽）