【クラウド障害】AWSが11月の大規模障害について説明

管理人からひと言

僕は影響なかったです(使ってない)

引用元

https://anago.2ch.sc/test/read.cgi/bizplus/1606799137/

1: へっぽこ立て子@エリオット ★ 2020/12/01(火) 14:05:37.86 ID:CAP_USER

 Amazon Web Services(AWS)は、米国時間11月25日に発生した大規模障害についての説明を公開した。この障害では、何千ものサードパーティーのオンラインサービスが数時間にわたって影響を受けた。
□AWSで障害–多数のサービスに影響 – ZDNet Japan
https://japan.zdnet.com/article/35162958/

数十におよぶAWSのサービスも影響を受けたが、同社によれば、障害が発生したのはバージニア北部のUS-EAST-1リージョンだけだった。同社によれば、ことが起こったのはKinesisサーバーのフロントエンドフリートに「小規模な容量の追加」を行った後だったという。

Kinesisはデータや動画のストリームをキャプチャーし、AWSの機械学習プラットフォームで処理するサービスであり、顧客にも使用されているが、「CloudWatch」や認証サービスの「Cognito」などをはじめとするAWSの他サービスでも使用されている。

Kinesisサービスのフロントエンドでは認証やスロットリングの処理を行っているほか、「シャーディング」と呼ばれるデータベースのメカニズムを介してワークロードをバックエンドの実働クラスターに分散している。

AWSが長々とした障害対応経緯のまとめで説明しているように、容量の追加は障害発生のきっかけではあったが、根本的な原因ではなかった。原因は、容量の追加作業が午前2時44分(太平洋標準時〈PST〉)から約1時間かけて行われた後、Kinesisのフロントエンドフリートに属する全てのサーバーで、スレッド数が現在のOSの設定で許容されている最大値を超過し始めたことだった。
□Summary of the Amazon Kinesis Event in the Northern Virginia (US-EAST-1) Region(英文)
https://aws.amazon.com/message/11201/

最初のアラームが発生したのは午前5時15分(PST)で、問題の解決までには約5時間かかった。Kinesisが完全に復旧したのは午後10時23分(PST)だった。

Amazonは、Kinesisのフロントエンドサーバーがバックエンドにデータを分散させる方法について、「フロントエンドの各サーバーは、バックエンドクラスターのメンバーシップの詳細やシャードの所有権を含む情報のキャッシュを保持しており、このキャッシュはシャードマップと呼ばれている」と説明している。

AWSによれば、この情報はメンバーシップ情報や「DynamoDB」からの設定情報の取得、他のKinesisフロントエンドサーバーからのメッセージの継続的な処理を行うマイクロサービスを呼び出すことで取得されている。

問題は、スレッド数がOSの設定を超えたことが原因で、フロンドエンドサーバーのシャードマップが使い物にならなくなり、リクエストをKinesisのバックエンドクラスターにルーティングすることができなくなってしまったことだったという。AWSは障害のきっかけとなった追加された容量を取り外したが、障害対応中は復旧に遅れが生じることを恐れてスレッドの上限値を上げるのを避けたと説明している。

AWSは「今回の事態がお客さまに与えた影響についてお詫びしたい」と述べている。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
https://www.zdnet.com/article/amazon-heres-what-caused-major-aws-outage-last-week-apologies/

2020-12-01 12:55
ZDNet Japan
https://japan.zdnet.com/article/35163174/

2: 名刺は切らしておりまして 2020/12/01(火) 14:22:56.87 ID:FEePJnre
で、誰のクビが飛ぶの?

 

10: 名刺は切らしておりまして 2020/12/01(火) 16:56:48.56 ID:9lzT0d2O
>>2
ユーザー

 

3: 名刺は切らしておりまして 2020/12/01(火) 14:26:08.08 ID:QQSaGxfg
>>2
日本とは違う
アメリカはこの程度では飛ばさないよ

 

6: 名刺は切らしておりまして 2020/12/01(火) 14:41:35.12 ID:8oJzjh9s
>>2
責任もクラウドの向こう側

 

4: 名刺は切らしておりまして 2020/12/01(火) 14:27:26.66 ID:1BVQje80
クラウドはバックアップに使え。
実データは自分の手元に置いとけ。

 

9: 名刺は切らしておりまして 2020/12/01(火) 16:19:53.31 ID:qC8UVPlg
これって補償無いんだよな

 

11: 名刺は切らしておりまして 2020/12/01(火) 17:17:42.54 ID:wS0iz7dA
>>9
何年か前にあった大規模障害でデータ全損失食らったけど、ゴメンの一言すらなかったよ
バックアップ取ってなかったら死んでたわ

 

15: 名刺は切らしておりまして 2020/12/02(水) 10:50:21.79 ID:AC+X6EX7
>>9
オンプレでも補償しないでしょ?

 

13: 名刺は切らしておりまして 2020/12/01(火) 17:29:55.78 ID:4k+jrsaM
だからグーグルにしとけと

引用元

管理人からひと言

関連記事

  1. 【IT】AWSが早くも今年ニつ目の買収、今度はクラウドリソース最適化のTSO Logic

  2. Amazonはアメリカ郵便公社を私物化している。 配達物の約8割がAmazonの荷物だという現状を職…

  3. 【企業】米アマゾンが時価総額で世界首位、マイクロソフト抜く【87兆円】

  4. 7月12日午前11時50分ごろから、「Amazon」に障害か、商品ページが表示できず アプリも正常に…

  5. 【小売】アマゾン、時価総額1兆ドル突破 アップルに続く

  6. 【IT】Amazonが社内用に提供していた機械学習コンテンツ群を無料で公開開始

  7. 【EC】アマゾン、通販全商品に1%以上のポイント

  8. 「Amazonセール祭り」10月1日夜から80時間開催

  9. 【小売】アマゾンが書籍「買い切り」書店が本を値下げへ

コメント

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

最近の人気記事

おすすめ記事

新着記事

  1. 閉鎖のお知らせ
  2. SES社長だけど質問ある?
  3. windowsにAI搭載するとか言ってるけどさぁ
  4. 新卒エンジニア僕、資格勉強する気が起きない
  5. 文系学部卒一般企業志望の君の進路はここから選んでもらうぞ!→ 営業・販売・未経験…

ボンブの戯言

  1. 【ボンブの戯言】フリーランスの実態調査をITエンジニアフリーランスの視点から見て…
  2. 【ボンブの戯言】フリーランスが払う税金など6選!私たちはこんなに支払っている!
  3. 【ボンブの戯言】ITエンジニアがフリーランスになる理由
  4. 【ボンブの戯言】ITエンジニアは、なぜうつ病になるのか
  5. 【ボンブの戯言】ITエンジニアが徹夜してでも間に合わせる理由
PAGE TOP