Amazon обяви в официално съобщение каква е причината за продължилия с часове срив на AWS тази седмица, който засегна над 2000 компании и остави без достъп милиони потребители по света. Според сайта Downdetector (независима онлайн платформа, която следи в реално време за прекъсвания и технически проблеми в уебсайтове, приложения и интернет услуги по целия свят - бел.ред.), в пиковите часове са отчетени повече от 8,1 милиона сигнала за проблеми.
Сред засегнатите платформи са Snapchat, Signal, Roblox, Fortnite, Duolingo, Canva, Amazon, Getty Images, Venmo, Coinbase и редица други популярни услуги – от приложения за комуникация и банкиране до онлайн игри и образователни платформи. Макар повечето от тях да възстановиха работата си в рамките на няколко часа, ефектът от срива се усети в различни държави и сектори.
Amazon посочва, че причината е бъг в автоматизирания софтуер за управление на DNS (Domain Name System) в услугата DynamoDB – облачна база данни, в която множество клиенти съхраняват информацията си.
В основата на проблема е т.нар. „латентен дефект“ – скрита, незабележима грешка в системата, която може да се прояви едва при определени обстоятелства. В този случай дефектът е довел до създаване на празен DNS запис за региона US-East-1 (Вирджиния) – един от ключовите центрове за данни на Amazon.
DNS е системата, която „превежда“ интернет адресите в IP адреси, за да може компютрите да комуникират помежду си. При грешка в нея потребителите губят връзка с услугите, дори те самите да работят нормално. Автоматичните механизми за защита на AWS не са успели да поправят дефекта, което е наложило ръчна намеса от инженерите на компанията, за да се възстанови нормалната работа на системата.
DynamoDB управлява стотици хиляди DNS записи чрез автоматизирана система, която следи натоварването, добавя капацитет при нужда и пренасочва трафика. Грешка в този процес предизвика верижна реакция, засегнала и други услуги на AWS.
Един от най-показателните случаи е този на производителя на „умни“ легла Eight Sleep – по време на прекъсването клиентите не са могли да регулират температурата и наклона на леглото през мобилното приложение. Главният изпълнителен директор Матео Франческети се извини публично и обяви актуализация, която ще позволи управление по Bluetooth при бъдещи сривове.
Като незабавна мярка Amazon е деактивирала глобално автоматизацията на DNS планирането и прилагането в DynamoDB, докато бъдат отстранени предпоставките за дефекта и внедрени нови защити.
Случаят отново насочва вниманието към зависимостта на световния интернет от ограничен брой облачни доставчици. „Проблемът не е само в AWS – макар компанията да държи около 30% от пазара – а в концентрираната структура на облачните услуги, доминирани от едва няколко гиганта“, казва д-р Сюлет Дрейфус, преподавател по компютърни и информационни системи в Университета в Мелбърн, пред The Guardian.
„Интернет е създаден като устойчива, децентрализирана мрежа, но днес губим част от тази устойчивост, защото зависим от малък брой компании, които не само съхраняват данните, но и управляват ключови услуги“, допълва тя.
Ако нашият сайт ви харесва, можете да се абонирате за седмичния ни нюзлетър тук: