Даунтаймы (время, когда система не работает) ЦОД наносят не только финансовый ущерб, но и причиняют репутацию бренда. Множество причин может вызвать даунтаймы ЦОД. Бывает, что инфраструктура не способна справиться с нагрузкой из-за различных дефектов (стихия, перебои в работе центральной электросети и т.д.). Но именно человеческий фактор является причиной большинства ошибок, которые приводят к снижению безопасности и надежности ЦОД. Согласно результатам статистики компании WinMagic, опросившей около тысячи операторов дата-центров, большинство респондентов (31%) считают самой серьезной угрозой логической безопасности именно сотрудников с доступом к серверным фермам. Любопытно, что атаки хакеров занимают лишь второе место (30%).
Google взялся возместить своим клиентам до 25% их месячных затрат за сбой работы облака Google Compute Engine, который длился почти 20 минут (учитывая, что аптайм 99,9% допускает недоступность сервиса в течении не более 45 минут в месяц). Согласно пресс-релизу, который был выложен на веб-ресурсе Google Cloud Platform, первопричиной сбоя были изменения конфигурации сети. Когда операторы занялись изменениями, программное обеспечение управляющее конфигурацией обнаружило конфликт. Пытаясь исправить ситуацию, система сделала попытку возвращения к предыдущей конфигурации. И тут возникла неизвестная ранее ошибка, которая привела к сбою. Кое-как «залатать» дыру удалось спустя 20 минут, но проблема осталась не решенной. Разработчикам Google пришлось немало поработать над оптимизацией своих систем.
Подобная история произошла в ЦОД австралийской телекоммуникационной компании Telstra. Тот самый пресловутый человеческий фактор вывел из строя весь дата-центр. Но в отличии от Google, на устранение проблем в Telstra потребовалось почти четыре часа. Мобильная сеть телекоммуникационной компании ушла в офлайн. По данным издания Sydney Morning Herald, инцидент произошел из-за действий инженера, который перевел неисправный сетевой узел в автономный режим без предварительной активации резервного узла. Эти действия вызвали перебои в работе мобильной сети и оставили множество клиентов без связи. Проблема затронула многие города Австралии, включая Брисбен, Сидней, Мельбурн, Аделаида и Перт. За время исправления неполадки тысячи людей высказали свое недовольство работой компании в социальных сетях.
После случившегося произошло еще несколько, менее серьезных и длительных даунтаймов. Руководством компании было принято решение компенсировать клиентам доставленные неудобства и ущерб. Telstra подарила своим абонентам день бесплатного безлимитного мобильного интернета (Free Data Day). По итогам дня было скачено 2,686 Тб данных, что естественно привело к перегрузке сети и снижением скорости загрузки.
Простой дата центров наносит финансовый ущерб и бьет по репутации компании. Поэтому операторам, проектировщикам и строителям ЦОД так важно делать все от них зависящее для минимизации даунтайма. Конечно же никто не может гарантировать безопасности на 100%, но если использовать современные стандарты, подготовить план действий на случай непредвиденных ситуаций и не забывать про своевременное техобслуживание — риск даунтайма будет сведен к минимуму.
ссылка на оригинал статьи https://habrahabr.ru/post/267145/
Добавить комментарий