【クラウド障害】AWSが11月の大規模障害について説明

管理人からひと言

僕は影響なかったです(使ってない)

引用元

https://anago.2ch.sc/test/read.cgi/bizplus/1606799137/

1: へっぽこ立て子@エリオット ★ 2020/12/01(火) 14:05:37.86 ID:CAP_USER

 Amazon Web Services(AWS)は、米国時間11月25日に発生した大規模障害についての説明を公開した。この障害では、何千ものサードパーティーのオンラインサービスが数時間にわたって影響を受けた。
□AWSで障害–多数のサービスに影響 – ZDNet Japan
https://japan.zdnet.com/article/35162958/

数十におよぶAWSのサービスも影響を受けたが、同社によれば、障害が発生したのはバージニア北部のUS-EAST-1リージョンだけだった。同社によれば、ことが起こったのはKinesisサーバーのフロントエンドフリートに「小規模な容量の追加」を行った後だったという。

Kinesisはデータや動画のストリームをキャプチャーし、AWSの機械学習プラットフォームで処理するサービスであり、顧客にも使用されているが、「CloudWatch」や認証サービスの「Cognito」などをはじめとするAWSの他サービスでも使用されている。

Kinesisサービスのフロントエンドでは認証やスロットリングの処理を行っているほか、「シャーディング」と呼ばれるデータベースのメカニズムを介してワークロードをバックエンドの実働クラスターに分散している。

AWSが長々とした障害対応経緯のまとめで説明しているように、容量の追加は障害発生のきっかけではあったが、根本的な原因ではなかった。原因は、容量の追加作業が午前2時44分(太平洋標準時〈PST〉)から約1時間かけて行われた後、Kinesisのフロントエンドフリートに属する全てのサーバーで、スレッド数が現在のOSの設定で許容されている最大値を超過し始めたことだった。
□Summary of the Amazon Kinesis Event in the Northern Virginia (US-EAST-1) Region(英文)
https://aws.amazon.com/message/11201/

最初のアラームが発生したのは午前5時15分(PST)で、問題の解決までには約5時間かかった。Kinesisが完全に復旧したのは午後10時23分(PST)だった。

Amazonは、Kinesisのフロントエンドサーバーがバックエンドにデータを分散させる方法について、「フロントエンドの各サーバーは、バックエンドクラスターのメンバーシップの詳細やシャードの所有権を含む情報のキャッシュを保持しており、このキャッシュはシャードマップと呼ばれている」と説明している。

AWSによれば、この情報はメンバーシップ情報や「DynamoDB」からの設定情報の取得、他のKinesisフロントエンドサーバーからのメッセージの継続的な処理を行うマイクロサービスを呼び出すことで取得されている。

問題は、スレッド数がOSの設定を超えたことが原因で、フロンドエンドサーバーのシャードマップが使い物にならなくなり、リクエストをKinesisのバックエンドクラスターにルーティングすることができなくなってしまったことだったという。AWSは障害のきっかけとなった追加された容量を取り外したが、障害対応中は復旧に遅れが生じることを恐れてスレッドの上限値を上げるのを避けたと説明している。

AWSは「今回の事態がお客さまに与えた影響についてお詫びしたい」と述べている。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
https://www.zdnet.com/article/amazon-heres-what-caused-major-aws-outage-last-week-apologies/

2020-12-01 12:55
ZDNet Japan
https://japan.zdnet.com/article/35163174/

2: 名刺は切らしておりまして 2020/12/01(火) 14:22:56.87 ID:FEePJnre
で、誰のクビが飛ぶの?

 

10: 名刺は切らしておりまして 2020/12/01(火) 16:56:48.56 ID:9lzT0d2O
>>2
ユーザー

 

3: 名刺は切らしておりまして 2020/12/01(火) 14:26:08.08 ID:QQSaGxfg
>>2
日本とは違う
アメリカはこの程度では飛ばさないよ

 

6: 名刺は切らしておりまして 2020/12/01(火) 14:41:35.12 ID:8oJzjh9s
>>2
責任もクラウドの向こう側

 

4: 名刺は切らしておりまして 2020/12/01(火) 14:27:26.66 ID:1BVQje80
クラウドはバックアップに使え。
実データは自分の手元に置いとけ。

 

9: 名刺は切らしておりまして 2020/12/01(火) 16:19:53.31 ID:qC8UVPlg
これって補償無いんだよな

 

11: 名刺は切らしておりまして 2020/12/01(火) 17:17:42.54 ID:wS0iz7dA
>>9
何年か前にあった大規模障害でデータ全損失食らったけど、ゴメンの一言すらなかったよ
バックアップ取ってなかったら死んでたわ

 

15: 名刺は切らしておりまして 2020/12/02(水) 10:50:21.79 ID:AC+X6EX7
>>9
オンプレでも補償しないでしょ?

 

13: 名刺は切らしておりまして 2020/12/01(火) 17:29:55.78 ID:4k+jrsaM
だからグーグルにしとけと

引用元

管理人からひと言

関連記事

  1. 【IT】Amazonがレジ不要のキャッシュレスシステムを大型スーパーでも運用するかもしれない

  2. 【IT】Amazon、手のひら決済導入 米シアトルの傘下スーパー

  3. 「アマゾン・ゴー」21年までに3000店計画 米報道レジ無しコンビニ 現在の4店舗から急拡大

  4. 【EC】Amazonで「アパレル商品を試着してから購入決定OK&返品は完全無料」というサービス「Pr…

  5. 【製品】Amazon、Amazon EchoでApple Musicが聞けるようになると発表

  6. 【IT】Amazonが社内用に提供していた機械学習コンテンツ群を無料で公開開始

  7. アレクサの最上位モデル買ったけど、1日で飽きて使わなくなった ぶったけこれ何に使うんだよ?

  8. 【悲報】amazon、北海道にサーバーがあることバレる

  9. Amazonを越す日本企業の総合通販サイトが台頭する方法は?

コメント

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

最近の人気記事

おすすめ記事

  1. カテゴリ_働き方

新着記事

  1. 閉鎖のお知らせ
  2. SES社長だけど質問ある?
  3. windowsにAI搭載するとか言ってるけどさぁ
  4. 新卒エンジニア僕、資格勉強する気が起きない
  5. 文系学部卒一般企業志望の君の進路はここから選んでもらうぞ!→ 営業・販売・未経験…

ボンブの戯言

  1. 【ボンブの戯言】サーバーって何なの(オンプレに限る)
  2. 【ボンブの戯言】ITエンジニアが徹夜してでも間に合わせる理由
  3. 【ボンブの戯言】フリーランスが払う税金など6選!私たちはこんなに支払っている!
  4. 【ボンブの戯言】ITエンジニアは、なぜうつ病になるのか
  5. 【ボンブの戯言】ITエンジニアがフリーランスになるときに考える・準備すること
PAGE TOP