17 марта 2021 г.
Во вторник Microsoft извинилась за отказ, который затронул ее облачные сервисы Azure во всем мире, включая Teams, Office 365 и Dynamics 365.
«Мы понимаем, насколько это катастрофично и неприемлемо, и приносим глубокие извинения», — сообщила компания в своем заявлении после сбоя, который произошел из-за «ошибок аутентификации» в нескольких ее облачных сервисах. «Мы предпринимаем неуклонные шаги по улучшению платформы Azure и наших процессов, стремясь обеспечить, чтобы такие сбои не происходили в будущем».
Компания упомянула об изменениях, введенных после сбоя 28 сентября 2020 года, который затронул пользователей Microsoft 365 и длился пять часов.
«В анализе сентябрьского сбоя мы сообщили, что установим дополнительную защиту серверной системы SDP (Session Description Protocol) службы Azure Active Directory, чтобы предотвратить описанный здесь тип проблем».
Компания сообщила, что первый этап изменений в SDP завершен и ведется «строго поэтапная реализация» второго этапа, который будет завершен в середине года.
«Первичный анализ свидетельствует, что когда работа будет полностью завершена, это предотвратит тот тип сбоя, который произошел сегодня, а также родственный сбой, имевший место в сентябре 2020 года, — указывает компания. — Тем временем введены дополнительные меры защиты к нашему процессу удаления ключей, которые сохранятся до завершения второго этапа изменений в SDP».
Компания сообщила во вторник утром, что «большинство сервисов», затронутых сбоем Azure и Teams во всем мире, вновь работают, за исключением Intune и Microsoft Managed Desktop.
Последняя информация об устранении сбоя была опубликована в твите в 6:34 утра в аккаунте строки статуса Microsoft 365.
Извинениям компании предшествовал глобальный отказ, который произошел в понедельник и затронул приложение Teams, а также «несколько» других сервисов Azure, Office 365 и Dynamics 365.
Проблемы, о которых компания сообщала в Твиттере начиная с 15:40 ET в понедельник, могут затронуть любого пользователя «во всем мире», предупредила Microsoft.
Мнение канала
Несмотря на эти и другие сбои игроки отрасли призывают поставщиков управляемых услуг (MSP) быстрее переводить клиентов в облако после атаки китайских хакеров на серверы Exchange 2 марта.
Эта атака затронула лишь локальные серверы Exchange и не коснулась сервисов Exchange Online и облачной почтовой службы Office 365. В ходе атаки было украдено содержимое почтовых ящиков примерно 30 тысяч организаций в США и 60 тысяч организаций во всем мире.
12 марта Microsoft предупредила клиентов о вирусе-вымогателе DearCry, внедренном в ходе атаки на Exchange, указав, что «управляемые оператором атаки вируса-вымогателя используют уязвимости Exchange».
Эммет Тайдингс (Emmet Tydings), президент компании AB&T Telecom (Колумбия, шт. Мэриленд), предоставляющей услуги безотказной IP-телефонии и передачи данных для MSP, подчеркнул важность перехода клиентов в облако, чтобы избежать подобных проблем.
«Поставщикам управляемых услуг нужно быстрее переводить своих клиентов в облако, обеспечив устойчивость своей коммуникационной инфраструктуры за счет расширения микса операторов и службы преодоления отказов, — говорит Тайдингс. — Microsoft подчеркнула, что сможет обеспечить более высокую безопасность в облаке, чем при использовании локальных серверов Exchange».
Партнерам следует обеспечить надежность интернет-соединения, используя SD-WAN и переключение на беспроводной канал с тарифным планом оператора через SIM-модуль и на резервный кабель для основной оптоволоконной линии, говорит Тайдингс.
В случае отказа, как в Microsoft Teams, нужно переключить клиентов на альтернативную коммуникационную инфраструктуру, например Zoom или Cisco Webex, добавил он.
В условиях распределенного персонала во время глобальной пандемии локальный сервер Exchange теряет всякий смысл для организаций, говорит Тайдингс.
«MSP, с которыми мы работаем, были героями, переводя своих клиентов из локальной среды в облако, когда разразилась пандемия», — сказал он
Быстрая миграция в облако заставила компании ускорить инвестиции в разработку ПО, но они не инвестируют в обеспечение устойчивости облачных услуг, говорит Офер Смадари (Ofer Smadari), соучредитель и главный управляющий компании StackPulse (Портленд, шт. Орегон), чья платформа помогает поставщикам управляемых услуг выявлять, устранять и предотвращать возможные сбои, используя автоматизацию с написанием кода.
«Мы видим результаты в заголовках новостей чуть ли не каждую неделю, когда у крупных брендов происходят сбои в работе сайтов, — говорит Смадари. — Большинство компаний всё еще используют традиционные ИТ-инструменты, такие как системы заявок, средства управления обслуживанием и коммуникационные приложения, для обмена информацией и взаимодействия, чтобы восстановить обслуживание. Им нужно изменить свой образ мышления, перейдя от управления ИТ-активами к инженерии ИТ, встраивая устойчивость в свои приложения и бизнес-процессы, то есть понимая потенциальные риски. Только тогда они смогут быстро преодолевать отказы и гарантировать надежное обслуживание своим клиентам».
© 2021. The Channel Company LLC. Initially published on CRN.com, a The Channel Company website, at https://www.crn.com. Reprinted with permission.
Источник: Донна Гудисон, Стивен Берк, CRN/США