Cloudflare публикува необичайно откровено и детайлно обяснение за причините, поради които около 20% от интернет спря да работи за 5 часа на 18 ноември - включително ChatGPT, X, Canva. Сред засегнатите беше и сайтът на "Булевард България".
В лично писмо от главния изпълнителен директор Матю Принс, се обяснява, че една привидно дребна промяна във вътрешна база данни е довела до повреда в конфигурационен файл и многократното увеличение на размера му.
Проблемът не е свързан с външна злонамерена намеса и е трябвало да бъде отстранен много по-бързо.
В Cloudflare обаче признават, че са се подвели по временните автоматични възстановявания на мрежата и погрешно са решили, че става дума за масивна DDoS-атака.
Забавянето е довело до това, че основният трафик беше възстановен чак 5 часа след първоначалния срив.
Матю Принс поема пълна отговорност за срива от името на Cloudflare, без уговорки.
- "Съжаляваме за последиците за нашите клиенти и за интернет като цяло. Като имаме предвид значимостта на Cloudflare в екосистемата на интернет, всеки подобен срив в нашите системи е неприемлив.
- "Фактът, че в определен период от време мрежата ни не беше способна да пренасочва трафика, е дълбоко болезнен за всеки член на нашия екип. Знаем, че ви разочаровахме днес", пише Прайс.
- "От името на целия екип в Cloudflare искам да се извиня за болката, която причинихме на интернет днес".
Публикацията му обяснява подробно и какво точно е станало в Cloudflare и "какво планираме да направим, за да гарантираме, че сривове като този няма да се повторят повече".
Cloudflare е фундаментална инфраструктура на интернет, която стои между потребителя и всеки сайт, който е неин клиент - например за защита от злонамерени атаки.
Проблемът започва от системата за разпознаване на ботове в Cloudflare. Тя работи със специален файл с характеристики, по които преценява дали трафикът към даден сайт се дължи на интерес от човек или на автоматични заявки от ботове.
Файлът се обновява на всеки няколко минути през база данни. На 18 ноември обаче е направена промяна в правата за достъп до базата, която води до аномалия в генерирането на файла - мащабно дублиране на данни, което изведнъж удвоява размера му.
Повреденият файл се разпространява в цялата мрежа от машини, която поддържа Cloudflare. Софтуерът за пренасочване на трафика обаче отказва да отвори файла, защото засича необичайния му размер.
Така програмата блокира и трафикът спира изцяло.
Отначало Cloudflare решават, че става дума за хакерска атака. Причината е, че въпросният файл се подновява на всеки пет минути по заявка, която понякога го "връща" в нормалното му състояние.
Най-накрая системата се "стабилизира", като започва да генерира само грешен конфигурационен файл.
Едва към 16:30 ч. екипите на Cloudflare откриват истинския проблем и започват да работят за отстраняването му - пълното възстановяване отнема по-малко от 40 минути.
Сега от Cloudflare обещават, че ще използват кризата, за да въведат много по-сериозни вътрешни проверки и ще прегледат всички модули в основния си модел за уязвимости.
Сривът в Cloudflare и последният подобен гаф на AWS показат колко голяма част от интернет всъщност е зависима от нормалната работа на няколко ключови компании
Големите инфраструктури позволяват интернет да е бърз, евтин и сравнително сигурен, но падането на една от тях води до щета за милиони клиенти по цял свят.
Ако нашият сайт ви харесва, можете да се абонирате за седмичния ни нюзлетър тук: