日本時間で2018年7月16日の正午に始まったAmazonプライムデー2018では、セール開始直後にサーバーがダウンして約1時間にわたってアクセス障害が発生しました。Amazonが内部調査を行って作成した報告書によると、この問題は取引のデータベース(DB)を従来のOracle製から自社製に乗り換えたことが最大の理由である可能性が高まっています。
Amazon move off Oracle caused Prime Day outage in warehouse
https://www.cnbc.com/2018/10/23/amazon-move-off-oracle-caused-prime-day-outage-in-warehouse.html
Amazonプライムデー2018は同社にとって「史上最高」となるセールス記録を樹立しました。Amazonは売上高を公表しないことで知られていますが、2018年にはセール期間中に1億点以上の商品が売れたとしており、日本円で2000億円規模の売上高があったとみられています。
Amazon、プライムデーで過去最高の売上を記録 1億点以上の商品を販売 – iPhone Mania
https://iphone-mania.jp/news-219376/
世界的な「ネット通販絶好調」を改めて認識させる実績だったわけですが、実はその裏ではセール初日にサーバーがダウンして、日本円で100億円以上の機会損失が発生していたことも明らかになっています。
Amazonの調査報告書を入手したというCNBCが報じたところによると、オハイオ州にある北米最大のAmazonの倉庫(フルフィルメント・センター)で起こった障害は、DBの処理能力がネックとなって発生したものであると分析されているとのこと。Amazonは2020年までに商品管理のDBをOracle製から自社製に入れ替える方針を定めており、既に多くの工場ではAmazon Web Service(AWS)のAmazon Aurora PostgreSQL(Aurora)の導入が進められています。しかしこの新DBが爆発的に増加した注文数に対応しきれなくなったことで、システム全体がダウンする事態に至った模様です。
大きな問題を引き起こすことになった要因の一つが、OracleとAuroraの間で「savepoint」の扱い方が異なる点にあるといいます。savepointは個別の取引をトラッキングあるいは復元するために重要なDBツールなのですが、プライムデーに発生した極めて大量の注文により膨大な量のsavepointが作成され、システム全体の処理速度が異常に低下してしまったと報告書では示されているとのこと。
イリノイ大学アーバナ・シャンペーン校のコンピューターサイエンティストであるマット・シーザー氏はCNBCが入手した資料に目を通して、「もしAmazonがOracleを使い続けていたら、この問題は起こらなかったでしょう」と述べて、DBシステムの乗り換えが障害の最大の要因であることを指摘。さらに、増大する取引量の規模に見合った事前の対策が行われず、問題が発生した際の対処マニュアルなどの準備が不足していたために、障害を取り除くまでに1時間もかかってしまったという問題点も指摘されています。
このように、Amazonの大規模なシステム障害は「起こるべくして起こった」という側面は否定しきれない模様。この件とは別に、Oracleの会長で共同設立者でもあるラリー・エリソン氏はAmazonがOracleから距離を置くという方針を示したことに対し、「Oracleなしでは無理だ」という発言を過去に行っています。また、Moor Insights & Strategyのアナリストであるパトリック・ムーアヘッド氏は「AWS Auroraは、将来志向のアプリケーション向けに設計されているのに対し、Oracleはレガシー的なアプリケーションに適した設計となっています」と語っています。
https://gigazine.net/news/20181024-amazon-prime-day-outage-database/
引用元: http://egg.5ch.net/test/read.cgi/bizplus/1540386993/