1 октября 2021 г.

Александр Безпрозванный

Дата-центры относятся к критически важной информационной инфраструктуре. Поэтому в случае перебоев в работе или аварий они не только теряют огромные деньги из-за выхода из строя оборудования и потери работоспособности локализованных на их вычислительных мощностях сервисов, но и несут высокие репутационные риски. Александр Безпрозванный, Cloud Services Manager в Eaton EMEA рассказывает, как с помощью современных технологий защитить дата-центр от форс-мажорных обстоятельств и человеческой халатности.

Даже самый современный ЦОД уровня Tier III не застрахован от чрезвычайных обстоятельств, поломок и аварий. Причин может быть множество: от банального несоблюдения техники безопасности до нагрузки серверов сверх меры. Рынок всё ещё помнит пожар 2019 года в ЦОДе DataLine в Москве из-за короткого замыкания в системе кондиционирования, за которым последовали сбои в работе почтового сервиса Mail.ru и платёжной системs Qiwi. Не забыто и прошлогоднее отключение ряда функций «ВКонтакте» вследствие перегрева серверного оборудования. За более свежими примерами далеко ходит не надо: этой весной в Страсбурге из-за неполадок в системе бесперебойного питания был полностью уничтожен центр обмена данными SBG2 и на 30% ЦОД SBG1 компании OVH, крупнейшего хостинг-провайдера в Европе. В результате стали недоступны тысячи ресурсов и сервисов по всему миру. В их числе, например, сайты Правительства Франции, Национального центра искусства и культуры Жоржа Помпиду, криптовалютной биржи Deribit, новостного портала eeNews Europe, 25 официальных серверов симулятора выживания Rust и многие другие.

Форс-мажоры случаются. Чаще всего они лишь незначительно сказываются на бизнесе клиентов ЦОДа и не имеют глобальных последствий. Но иногда даже небольшая поломка становится критичной. Еще несколько лет назад ресурс «Цоды.рф» провел опрос, который показал: почти 80% компаний сталкивались с прерыванием работы сервисов из-за сбоев в работе ЦОДов. Поэтому крайне важно находить слабые звенья и устранять их до того, как ситуация станет фатальной. В этом дата-центрам помогает мониторинг инженерной инфраструктуры.

Как ЦОДы следят за бесперебойностью

На сегодняшний день есть два основных подхода к мониторингу инженерной инфраструктуры ЦОДа:

Полуавтоматический

При таком подходе, как правило, в дата-центре есть collocation — операционный зал с приборами и мониторами, куда стекаются показания всех датчиков, расположенных на территории ЦОДа, — температуры, влажности, пролива охлаждающей жидкости на пол и многих других. Там же постоянно находятся дежурные смены, которые вручную отслеживают эти показания и реагируют в случае достижения ими предельных значений. У этого подхода, помимо большого количества ручного труда, есть один существенный недостаток: в таких системах нередко доступны лишь моментальные показатели, а исторические данные не регистрируются. А значит, нельзя собрать аналитику за месяц или год и выявить какие-то закономерности для повышения надёжности работы ЦОДа.

Автоматический, или удалённый, мониторинг

Этот подход задействует тот же набор датчиков, которые снимают показания во всех помещениях дата-центра, только передаются данные не в операторский центр, а прямо в облако. Облачная платформа собирает эти сведения и автоматически отображает их оператору в удобном формате. Для того, чтобы получить доступ к информации, сотруднику нужен только компьютер, подключённый к сети, и браузер.

У этого подхода есть несколько неоспоримых преимуществ. Во-первых, операционный центр становится полностью виртуальным. Для обслуживания системы достаточно одного-двух операторов, работающих на удаленке. Вместо целой команды специалистов достаточно содержать несколько удалённых операторов и мобильных техников. Бизнес может экономить на содержании штата сотрудников и одновременно выполнять все ковидные ограничения. Даже без постоянного наблюдения операторов дата-центр будет в безопасности.

Это, помимо прочего, позволяет поменять всю сервисную модель. Так, можно полностью удаленно посмотреть состояние инженерной инфраструктуры и оборудования, прежде чем отправлять механика в другой город для техобслуживания. Управление ремонтами и профилактическим обслуживанием становится в разы проще и дешевле.

Во-вторых, данные сохраняются в облаке, и если нужно отследить, как менялся тот или иной параметр за последние недели или месяцы, это можно сделать парой кликов. В моей практике был случай, когда мы поставили крупному заказчику в Финляндии несколько источников бесперебойного питания (UPS), соединённых с системой удалённого мониторинга. Через какое-то время система зафиксировала, что в дата-центре сохраняется высокая температура. Мы предложили клиенту проверить систему кондиционирования, и выяснилось, что она отказала. Датчики самой системы кондиционирования, которые в теории должны были сигнализировать об этом, по какой-то причине не сработали. Без системы мониторинга ситуация могла бы стать критической.

В-третьих, системы удалённого мониторинга можно интегрировать с инструментами машинного обучения и искусственного интеллекта для формирования прогнозов об сроке службы и необходимости обслуживания оборудования. Так, система может подсказать, что у батареи в каком-то конкретном источнике подходит к концу срок службы или что пора менять вентиляторы в стойке. Это позволяет, помимо прочего, удешевить и ускорить процесс технического обслуживания оборудования. Механик заранее знает, куда и когда приехать и какие запасные части взять с собой. Ему не нужно постоянно присутствовать на месте на случай непредвиденных обстоятельств.

В-четвертых, у владельцев бизнеса формируется полная и прозрачная картина о работе дата-центра. Получение полной информации о состоянии инженерного оборудования из любой точки мира — вопрос нажатия одной-двух кнопок.

Как система мониторинга помогает реагировать на инциденты

Главное преимущество удалённых систем мониторинга — своевременное и точное оповещение об инцидентах. Для этого нужно определить «красную зону»: набор показаний, при которых система определяет, что произошло наводнение или пожар. А затем настроить соответствующие alarm-ы, то есть оповещения, которые автоматически отправляются ряду сотрудников, если, к примеру, все датчики в какой-то зоне показывают температуру выше 60°С. Главное — не перегружать пользователей промежуточными оповещениями: в потоке сигналов о чрезвычайной ситуации может затеряться оповещение о положении дел, которое действительно приведёт к критическим последствиям.

Какие показания все же стоит отслеживать?

Есть три группы параметров, которые очень важно мониторить в дата-центре. Первая — это параметры окружающей среды (environmental parameters): температура, относительная влажность, иногда состав воздуха на наличие загрязняющих частиц. Они позволяют отследить, нормально ли функционируют системы кондиционирования, охлаждения.

Вторая группа параметров относится к источникам бесперебойного питания: напряжение каждой ячейки батареи, общее напряжение батареи, потребляемый ток, потребляемая мощность, состояние ИБП. Это помогает определить, как работают ИБП, от сети или от батареи, и сколько они могут проработать без подзарядки. Помимо этого, можно спрогнозировать, когда необходимо обслуживание или замена ИБП.

Третья группа параметров связана непосредственно с серверами: насколько они загружены, как используются процессоры, насколько загружена память, каков сетевой трафик. Все эти показатели позволяют понять, как более эффективно использовать вычислительные мощности дата-центра и не допустить их перегрузки.

Частота сбора показателей зависит от самого параметра. Есть те, что стремительно меняются (электропитание), — их нужно собирать не реже раза в секунду. А есть более инертные параметры: например, за секунду сколько-нибудь значимых изменений температуры или влажности не произойдёт — их достаточно отслеживать раз в 10-15 минут. Обычно в системах удалённого мониторинга можно настроить частоту сбора данных вручную. Кроме того, в них предусмотрены регулярные автоматические репорты, где эта информация собирается и классифицируется.

Система мониторинга тоже может ошибаться

Хотелось бы сказать, что если установил систему мониторинга, то можешь спать спокойно. Но это не всегда так. Система мониторинга реализует те алгоритмы, которые были заложены в неё разработчиками. То, как информация обрабатывается и как быстро система реагирует на инциденты, зависит от качества исходного кода. Иногда, как и любой продукт, разработанный человеком, он может содержать баги.

В дополнение к этому не исключена вероятность злонамеренного вторжения в информационную инфраструктуру ЦОДа с целью похитить данные или нарушить работу критически важной инфраструктуры. К примеру, нередки атаки на дата-центры программами-вымогателями. В 2019 году от такого кибервторжения пострадал дата-центр CyrusOne в штате Нью-Йорк, а годом позже программой-вымогателем были поражены внутренние системы одного из лидеров мирового рынка колокейшн-услуг Equinix. Хакеры могут приостановить работу дата-центра, пытаться хаотично управлять оборудованием или менять данные, чтобы им заплатили выкуп.

Конечно, вероятность взлома есть всегда. Но её можно существенно уменьшить. Для этого важно предпринимать технические меры защиты: например, двухфакторная аутентификация при входе в систему снижает вероятность того, что в неё проникнет посторонний. Очень часто к системе мониторинга также подключаются инструменты разграничения доступа: привычные нам электронные ключи, задатчики кодов, цифровые сертификаты. Как известно, 80% утечек всё ещё происходит по вине сотрудников, и этого вполне можно избежать.

И, конечно, стоит помнить, что через систему удалённого мониторинга не получится управлять оборудованием и вычислительной инфраструктурой ЦОДа, поскольку данные передаются только в одном направлении: от оборудования в облако. Самый большой риск — подмена данных и, в связи с этим, отсутствие надлежащей реакции на инциденты.

Итак, система мониторинга — оптимальный инструмент для отслеживания состояния инженерной инфраструктуры ЦОДа. Она позволяет управлять оборудованием и вычислительными мощностями без капитальных затрат и снижает репутационные и финансовые риски в результате инцидентов.

Источник: Александр Безпрозванный, Cloud Services Manager в Eaton EMEA