【クラウド障害】AWSが11月の大規模障害について説明

管理人からひと言

僕は影響なかったです(使ってない)

引用元

https://anago.2ch.sc/test/read.cgi/bizplus/1606799137/

1: へっぽこ立て子@エリオット ★ 2020/12/01(火) 14:05:37.86 ID:CAP_USER

 Amazon Web Services(AWS)は、米国時間11月25日に発生した大規模障害についての説明を公開した。この障害では、何千ものサードパーティーのオンラインサービスが数時間にわたって影響を受けた。
□AWSで障害–多数のサービスに影響 – ZDNet Japan
https://japan.zdnet.com/article/35162958/

数十におよぶAWSのサービスも影響を受けたが、同社によれば、障害が発生したのはバージニア北部のUS-EAST-1リージョンだけだった。同社によれば、ことが起こったのはKinesisサーバーのフロントエンドフリートに「小規模な容量の追加」を行った後だったという。

Kinesisはデータや動画のストリームをキャプチャーし、AWSの機械学習プラットフォームで処理するサービスであり、顧客にも使用されているが、「CloudWatch」や認証サービスの「Cognito」などをはじめとするAWSの他サービスでも使用されている。

Kinesisサービスのフロントエンドでは認証やスロットリングの処理を行っているほか、「シャーディング」と呼ばれるデータベースのメカニズムを介してワークロードをバックエンドの実働クラスターに分散している。

AWSが長々とした障害対応経緯のまとめで説明しているように、容量の追加は障害発生のきっかけではあったが、根本的な原因ではなかった。原因は、容量の追加作業が午前2時44分(太平洋標準時〈PST〉)から約1時間かけて行われた後、Kinesisのフロントエンドフリートに属する全てのサーバーで、スレッド数が現在のOSの設定で許容されている最大値を超過し始めたことだった。
□Summary of the Amazon Kinesis Event in the Northern Virginia (US-EAST-1) Region(英文)
https://aws.amazon.com/message/11201/

最初のアラームが発生したのは午前5時15分(PST)で、問題の解決までには約5時間かかった。Kinesisが完全に復旧したのは午後10時23分(PST)だった。

Amazonは、Kinesisのフロントエンドサーバーがバックエンドにデータを分散させる方法について、「フロントエンドの各サーバーは、バックエンドクラスターのメンバーシップの詳細やシャードの所有権を含む情報のキャッシュを保持しており、このキャッシュはシャードマップと呼ばれている」と説明している。

AWSによれば、この情報はメンバーシップ情報や「DynamoDB」からの設定情報の取得、他のKinesisフロントエンドサーバーからのメッセージの継続的な処理を行うマイクロサービスを呼び出すことで取得されている。

問題は、スレッド数がOSの設定を超えたことが原因で、フロンドエンドサーバーのシャードマップが使い物にならなくなり、リクエストをKinesisのバックエンドクラスターにルーティングすることができなくなってしまったことだったという。AWSは障害のきっかけとなった追加された容量を取り外したが、障害対応中は復旧に遅れが生じることを恐れてスレッドの上限値を上げるのを避けたと説明している。

AWSは「今回の事態がお客さまに与えた影響についてお詫びしたい」と述べている。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
https://www.zdnet.com/article/amazon-heres-what-caused-major-aws-outage-last-week-apologies/

2020-12-01 12:55
ZDNet Japan
https://japan.zdnet.com/article/35163174/

2: 名刺は切らしておりまして 2020/12/01(火) 14:22:56.87 ID:FEePJnre
で、誰のクビが飛ぶの?

 

10: 名刺は切らしておりまして 2020/12/01(火) 16:56:48.56 ID:9lzT0d2O
>>2
ユーザー

 

3: 名刺は切らしておりまして 2020/12/01(火) 14:26:08.08 ID:QQSaGxfg
>>2
日本とは違う
アメリカはこの程度では飛ばさないよ

 

6: 名刺は切らしておりまして 2020/12/01(火) 14:41:35.12 ID:8oJzjh9s
>>2
責任もクラウドの向こう側

 

4: 名刺は切らしておりまして 2020/12/01(火) 14:27:26.66 ID:1BVQje80
クラウドはバックアップに使え。
実データは自分の手元に置いとけ。

 

9: 名刺は切らしておりまして 2020/12/01(火) 16:19:53.31 ID:qC8UVPlg
これって補償無いんだよな

 

11: 名刺は切らしておりまして 2020/12/01(火) 17:17:42.54 ID:wS0iz7dA
>>9
何年か前にあった大規模障害でデータ全損失食らったけど、ゴメンの一言すらなかったよ
バックアップ取ってなかったら死んでたわ

 

15: 名刺は切らしておりまして 2020/12/02(水) 10:50:21.79 ID:AC+X6EX7
>>9
オンプレでも補償しないでしょ?

 

13: 名刺は切らしておりまして 2020/12/01(火) 17:29:55.78 ID:4k+jrsaM
だからグーグルにしとけと

引用元

管理人からひと言

関連記事

  1. amazon、ネジを撮影すると、その規格のネジの商品ページを開いてくれるサービス開始

  2. 【IT】Amazon、5.5万人新規雇用へ 技術者など数カ月内で

  3. 【IT】新型iPhone、アマゾンで販売 正規代理店通じ

  4. 【出版】講談社とアマゾン、直接取引を開始へ 「異例の事態」に衝撃広がる

  5. メディアによるアマゾンCEO脅迫事件がなかなか愉快な展開にw

  6. 【宅配】アマゾン、全国で「置き配」 日本郵便と20年に

  7. 【IT】Amazon・Apple・Google、「つながる機器」の新規格で連携

  8. 【IT】アマゾン 「007」「ロッキー」手がける映画会社買収すると発表

  9. アマゾン「お急がない便」ならポイント還元 物流対策か

コメント

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

最近の人気記事

おすすめ記事

新着記事

  1. 閉鎖のお知らせ
  2. SES社長だけど質問ある?
  3. windowsにAI搭載するとか言ってるけどさぁ
  4. 新卒エンジニア僕、資格勉強する気が起きない
  5. 文系学部卒一般企業志望の君の進路はここから選んでもらうぞ!→ 営業・販売・未経験…

ボンブの戯言

  1. 【ボンブの戯言】フリーランスのメリットを全否定してみた
  2. 【ボンブの戯言】フリーランスの実態調査をITエンジニアフリーランスの視点から見て…
  3. 【ボンブの戯言】ITエンジニアがフリーランスになるときに考える・準備すること
  4. 【ボンブの戯言】ITエンジニアがフリーランスになる理由
  5. 【ボンブの戯言】サーバーって何なの(オンプレに限る)
PAGE TOP