20 октября 2022 г.
Disaster Recovery (DR) буквально означает «восстановление после катастрофы». Обычно под катастрофой принято понимать незапланированное прекращение работы дата-центра, на базе которого функционирует ИТ-инфраструктура предприятия. Конечно, ЦОД имеет резервирование всех необходимых инженерных систем, но от полной остановки он все равно не защищен.
Прекращение работы дата-центра может быть вызвано его повреждением или разрушением из-за масштабных происшествий: пожара, наводнения, техногенной аварии и т. д. Процесс восстановления работы после катастрофы занимает не один месяц: начиная с ремонта здания и заканчивая повторной закупкой и наладкой инженерных систем, ИТ-оборудования. В современном мире длительный простой ИТ-инфраструктуры с одновременной потерей данных приводит к неминуемой гибели предприятия. Поэтому для снижения влияния катастрофы на жизнедеятельность компании внедряют различные инструменты и механизмы. Один из них рассмотрим в этой статье.
Что организации ожидают от Disaster Recovery и чего ждать не следует
Чтобы устранить негативные последствия от неожиданной остановки дата-центра и обеспечить эффективную работу предприятия, применяют механизм Disaster Recovery. По сути, DR — это совокупность организационных мер и технических средств, направленных на снижение последствий катастрофы и предотвращения полной потери данных. Эта технология применима к предприятиям любого масштаба: от небольших узкопрофильных организаций, до крупнейших международных корпораций.
Безусловно, у компаний есть собственные ожидания от использования подобного инструмента реагирования на критические сбои в ИТ-инфраструктуре. Предприятия хотят получить конкретные показатели доступности сервисов, работающих в дата-центре: RPO (Recovery Point Objective) и RTO (Recovery Time Objective).
Однако, чтобы внедрение DR принесло ожидаемые преимущества, необходим определенный уровень ИТ-зрелости самой организации. Если, к примеру, в компании нет практики документирования ИТ-систем и бизнес-процессов, четкого следования персонала внедренным регламентам, то механизм не принесет никакой практической пользы, а в некоторых случаях он может даже навредить.
DR в определенной степени похож на информационную безопасность, которая достигается целым комплексом мер организационного и технического характера. То есть это не «волшебная коробка», приобретение которой решит все задачи. Это процесс тестирования и контроля, требующий постоянного внимания. Его нужно регулярно выполнять.
Основные этапы реализации DR. На что следует обращать внимание
Как и любой проект, внедрение механизма Disaster Recovery на предприятии имеет определенную последовательность. Она включает в себя несколько основных этапов.
1. Инвентаризация и анализ ресурсов, подлежащих DR
Руководству компании важно понимать, сколько и какого оборудования необходимо приобрести или арендовать, какой объем облачных ресурсов нужно зарезервировать у провайдера. Не стоит пренебрегать анализом имеющихся ресурсов. Нередко бывает так, что для определенных активов внедрить инструмент технически невозможно.
Например, в основном облачном дата-центре в качестве межсетевого экрана используется виртуальная система Checkpoint, а в резервном — Fortigate. Оба решения эффективно выполняют свои задачи. Однако потребуется не только умение пользоваться обоими, но и переводить настройки между ними.
2. Определение требований к DR
Технология аварийного восстановления данных предполагает конкретные показатели RPO и RTO. Но для различных информационных систем (ИС) эти требования могут отличаться в зависимости от назначения и критичности.
Представим, что в агропромышленном комплексе работает ИС, которая учитывает собранный урожай. Если в период уборочных работ она остановится, то посчитать результаты уборки будет практически невозможно. Однако в остальное время года ИС может простаивать месяцы без каких-либо последствий. Понятно, что критически важно, чтобы система была максимально готова к возможной потере данных именно во время уборочной кампании.
Таким образом, формируются индивидуальные требования для каждой информационной системы. На их основе разрабатывают подходящие технические решения DR по следующим моделям.
- On-prem — on-prem — когда при отказе собственного или арендованного дата-центра восстановление работы ИТ-инфраструктуры произойдет на дублирующей площадке.
- Cloud — cloud — эта модель похожа на предыдущую, однако подразумевает наличие у предприятия виртуального дата-центра на базе облачных провайдеров. Техническая реализация такого решения содержит свои нюансы: необходимо уметь пользоваться двумя облаками и транслировать конфигурацию между ними. Также важно учитывать связанность облаков друг с другом для своих ресурсов и при необходимости вносить коррективы.
- On-prem — cloud — эта вариация подразумевает наличие одного или нескольких дата-центров, которые резервируются на виртуальных ЦОДах в одном облачном провайдере.
- Cloud — on-prem — редкий, но возможный сценарий. Представим, что заказчику принадлежит дата-центр, из которого часть ИС перенесена в облако для быстрого масштабирования в случае необходимости. В результате ИС работают в облаке, но резервируются в собственном ЦОДе.
При выборе конкретной топологии для Disaster Recovery важно учитывать и анализировать массу факторов: наличие своих площадок, каналов связи между ними и интернетом, стоимости облачных ресурсов, допустимости размещения данных в облаке, требований к безопасности, стоимости всех компонентов решения и т.д.
Обучение участников DR-процесса
Начиная внедрение инструмента критического реагирования, предприятие должно позаботиться об обучении сотрудников. Его суть — в приобретении навыков по выполнению плана DR.
Основными участниками процесса станут:
- Ответственный за запуск процесса DR — это может быть, например, руководитель департамента эксплуатации ИС. Он должен уметь своевременно и обоснованно принимать решения о необходимости запуска механизма и осуществлять общий контроль за процессом;
- Администраторы различных компонентов ИС — специалисты, которым необходимо знать, какие конкретные действия необходимо предпринять; эксперты должны быть способны выполнить процедуру за требуемое время;
- ИТ-менеджеры должны уметь координировать выполнение процесса сотрудниками, которые задействованы в DR;
- Пользователи ИС — персонал, который обладает навыками оперативного оценивания работоспособности информационной системы по запросам администраторов или ИТ-менеджеров.
Современные тенденции организации Disaster Recovery
Потребность предприятий в организации Disaster Recovery объективно растет, поскольку постоянно повышается вовлеченность ИТ-систем в работу бизнеса. Но создание собственного резервного дата-центра — длительный и затратный процесс. Поэтому появляется все больше коммерческих дата-центров, которые можно использовать в виде основных или резервных площадок.
Активно развивается функционал облачных провайдеров, которые предлагают Disaster Recovery в качестве сервиса. С одной стороны, широко используются автоматизация, контейнерные среды, CI/CD (Continuous Integration/Continuous Delivery), а с другой — продолжают работать старые программы под управлением Windows Server 2003, сохраняя свою важность для компаний. Производители решений для организации Disaster Recovery стараются идти в ногу со временем и активно внедряют новый функционал.
Вполне вероятно, что текущая ситуация в мире послужит новым драйвером для развития систем резервного копирования, а также отечественных продуктов и сервисов Disaster Recovery. Это поможет повысить конкурентоспособность отечественных решений на мировом рынке — им есть куда расти и развиваться.
Источник: Кирилл Шмаков, руководитель направления ЦОД компании «ЛАНИТ-Интеграция» (входит в группу ЛАНИТ)