Десять крупнейших отказов облака в 2017 году

25 декабря 2017 г.

Самые запомнившиеся в уходящем году истории, затронувшие пользователей в США и Европе.

Даунтайм — неизбежность?

Общий тренд таков, что случаев неработоспособности облачных услуг становится всё меньше — поставщики набираются опыта и совершенствуют свои средства управления этими крупнейшими и самыми сложными из когда-либо существовавших серверных кластеров.

В начале года казалось, что сообщения о катастрофических отказах облачных услуг стали почти анахронизмом. Да, у всех провайдеров бывают какие-то срывы, когда не работают те или иные сервисы, либо краткие периоды региональных сбоев, но масштабные отказы вроде тех, что случались на заре становления этого рынка, казалось, ушли в прошлое.

Но ближе к концу февраля мир вновь узнал, что даже самый крупный провайдер облака, оснащенный самыми передовыми средствами автоматизации, всё же не застрахован от случайностей, и масштаб этого отказа был беспрецедентным. Отказ облака AWS потряс отрасль и поубавил уверенность корпоративных заказчиков, уже потеплевших к облачным технологиям, из-за одного лишь количества бизнес-сервисов, ставших недоступными в этот день. GitHub, Slack, Zendesk, Heroku, Twilio, Mailchimp, Citrix, Expedia — вот лишь малая часть понесенных пользователями потерь. Уверенность заказчиков еще больше упала, когда крупнейший игрок рынка сообщил, что причиной был человеческий фактор — одна неверная строка команды, введенная инженером сопровождения.

Этот памятный многим отказ — и, в меньшей степени, девять других, затронувших пользователей облачных сервисов в США, — служат напоминанием для быстро входящей в стадию зрелости отрасли, что ставки тех, кто претендует на безупречность обслуживания, как никогда высоки.

Вот те самые отказы облачных сервисов, которые запомнились многим пользователям в США и Европе в уходящем году.

IBM: 26 января

В самом начале прошлого года уверенность в безотказности облака IBM была поколеблена, когда портал управления, используемый разработчиками для доступа к сервисам платформы Bluemix, оказался неработающим в течение нескольких часов.

В самой инфраструктуре не было отказа, но пользователи были раздосадованы, видя, что не могут управлять своими приложениями и добавить или удалить облачные ресурсы, обслуживающие рабочие нагрузки.

IBM сказала тогда, что неполадки возникали время от времени и были вызваны неудачно проведенным обновлением интерфейса.

GitLab: 31 января

В этот день случился 18-часовой отказ популярного онлайн-репозитория исходного кода GibLab.com, последствия которого так и не были полностью исправлены. Отказ произошел после того, как сотрудник провайдера удалил каталог базы данных не с того сервера, проводя рутинные процедуры обслуживания.

Часть готового кода некоторых заказчиков была безвозвратно потеряна, в том числе последние изменения в проектах, комментариях и аккаунтах.

«По нашей самой точной оценке, это затронуло примерно 5000 проектов, 5000 комментариев и 700 новых пользовательских аккаунтов», — сообщила компания пост-фактум.

Принося извинения клиентам, главный управляющий GitLab признал: «потеря готового кода недопустима».

Facebook: 24 февраля

В течение почти трех долгих, мучительных часов некоторые пользователи по всему миру не могли попасть в Facebook и опасались, что их аккаунты украдены.

Позднее гигант соцсетей объяснил, что функционал, призванный оградить от хакеров, ошибочно отправлял пользователей на экран восстановления, что создавало впечатление, будто кто-то другой вошел в их аккаунт. Механизм защиты запрещал этим пользователям повторный вход в свой аккаунт. Facebook заверил, что никакого реального нарушения безопасности не было.

Это был уже второй случай за неделю, когда у пользователей соцсети возникли проблемы. Несколькими днями ранее несколько человек сообщили, что не видят свою ленту новостей.

Amazon Web Services: 28 февраля

Это был отказ, потрясший отрасль.

Штатный инженер Amazon Web Services, занимавшийся отладкой облачного хранилища S3 в ЦОДе в Виргинии, по ошибке ввел неверную команду, и громадная часть Интернета, включая популярные корпоративные сервисы Slack, Quora и Trello, не работала в течение четырех часов.

В разборе происшествия, опубликованном компанией, говорилось, что сотрудник действовал «по утвержденному сценарию» и намеревался остановить небольшое количество серверов, на которых работали подсистемы, обслуживающие процесс биллинга, но по ошибке ввел не ту команду, что привело к гораздо более масштабному отключению серверов, в том числе одной подсистемы, необходимой для обслуживания определенных запросов к функциям хранения данных, и еще одной, выделяющей новые ресурсы хранения.

Отказ у провайдера, на долю которого приходится около трети глобального рынка облачных услуг, вновь подогрел споры о рисках общедоступного облака.

Microsoft Azure: 16 марта

Проблемы доступа к ресурсам хранения осаждали общедоступное облако Microsoft Azure более восьми часов, затронув заказчиков главным образом на Востоке США.

Некоторым пользователям в регионе не удавалось предоставить новые ресурсы хранения или получить доступ к имеющимся. Команда специалистов компании смогла всё же выявить виновника — им оказался кластер хранения, где отключилось питание и потому ставший недоступным.

Кроме этой проблемы, Microsoft сообщила также на странице статуса Azure об ошибке в ПО, более часа вызывавшей сбой предоставления хранения для многих услуг.

Microsoft Office 365: 21 марта

В этот день несколько коммерческих и потребительских облачных сервисов Microsoft, в том числе сервисы хранения и электронной почты в Office 365, стали недоступны из-за проблем с аутентификацией пользователей. Продолжавшийся сбой не позволял использовать хранилище OneDrive, а также Skype, Outlook и игровой сервис Xbox Live.

Apple iCloud: 28 июня

Многие ленты новостей в соцсетях сообщили о недоступности сервиса резервного копирования в iCloud. Страница статуса облака Apple сообщала, что iCloud Backup не работает лишь для 1% пользователей.

Проблема, при которой затронутые пользователи не могли провести восстановление своих iOS-устройств из предыдущих резервных копий, сохранялась в течение по меньшей мере 36 часов. Процесс восстановления зависал, при этом сохранение новых резервных копий с устройств выполнялось без проблем.

Amazon Web Services: 14 сентября

Этот, новый отказ AWS в сентябре не шел ни в какое сравнение с отказом февраля, но то, что он затронул сервис хранилища S3 и что проблемы возникли всё в том же регионе US-EAST-1, пробудило малоприятные воспоминания о катастрофическом сбое полугодичной давности. Ошибки доступа к персональным хранилищам (buckets) начали привлекать к себе внимание около полудня и были ликвидированы к 13 часам по Восточному времени.

Microsoft Azure: 29 сентября

Некоторые сервисы в общедоступном облаке Microsoft Azure были недоступны европейским пользователям в течение семи часов. Причиной неработоспособности сервисов этого, второго крупнейшего в мире поставщика облачных услуг в Северной Европе, было случайное срабатывание системы пожаротушения.

Компания объяснила, что при плановом техобслуживании системы произошел выпуск газообразующего реагента, что привело к автоматическому отключению системы кондиционирования воздуха, вызвавшему повышение температуры среды в ЦОДе и, как следствие, автоматический останов вычислительного оборудования.

Важные для клиентов облачные услуги — Virtual Machines, Cloud Services, Azure Backup и несколько других — не работали с 13:27 до 20:15 по местному времени.

Google Docs: 15 ноября

Тысячи пользователей Google Docs столкнулись со сбоем в работе сервиса, который сказался на их бизнесе.

Отказ начался чуть ранее 16:00 по Восточному времени и длился от 30 минут до чуть более часа для большинства пользователей, сообщила впоследствии компания. Во время отказа, затронувшего «значительное подмножество пользователей», этот популярный сервис создания и редактирования документов не давал доступа к файлам.

К ночи среды Google сообщила, что сервис Docs вновь работает для большинства пользователей.

Один из партнеров Google сказал CRN, что шесть из его 400 бизнес-клиентов пострадали от этого отказа. Сам поставщик решений, также использующий этот сервис, тоже пострадал.

© 2017. The Channel Company LLC. Initially published on CRN.com, a The Channel Company website, at https://www.crn.com. Reprinted with permission.

Источник: Джозеф Цыдулко, CRN/США

Печать Печать без изображений Все новости и статьи

Успех в партнерстве

ICL Services

Ген.ИИ: добавим больше интеллекта вашим системам обработки сообщений

Если в 2023 году мир только открывал для себя генеративный искусственный интеллект, то 2024-й становится годом инвестиций в ИИ, когда организации ...

ICL Техно

Евгений Степанов, ICL: «Честность и порядочность окупаются»

Российским ИТ-вендорам и до февраля 2022-го было непросто: одна только жёсткая конкуренция со стороны глобальных А-брендов чего стоила. После начала ...

POWERCOM

Сетевые фильтры Powercom: чистая энергия

Сетевой фильтр — устройство далеко не самое сложное в сравнении с ИБП, однако и на рабочем месте, и в быту сегодня решительно необходимое. Стремление ...

Промопрограммы

MERLION, Galaxy

Вам - бонус из галактики

22 октября — 22 ноября

OCS Distribution, Delta Computers

Зимний марафон продаж от Delta Computers!

23 октября 2024 г. — 23 января 2025 г.

MERLION, iRU

Недели жуткой щедрости в iRU

8 октября — 31 декабря

Кадровые изменения

МТС Web Services: Федор Бойков

Федор Бойков будет отвечать за работу со стратегическими заказчиками МТС Web Services.

Т2: Егор Бормусов

Егор Бормусов назначен директором по маркетингу Т2.

Фото- и видеорепортажи

Абак-2000

В Волгограде состоялся Бизнес-турнир по футзалу ABAK-2000 CUP!

Компьютеры и Сети

ГК «КОМПЬЮТЕРЫ И СЕТИ» с «Группой Астра» провели RoadShow Астра в Новосибирске

Новости ИТ-бизнеса и статьи

НКЦКИ расторгает соглашения о взаимодействии с компанией Positive Technologies

Обращаем внимание руководителей федеральных органов исполнительной власти, высших исполнительных органов государственной власти субъектов Российской …

Проект «Кибериспытание» выделит 100 млн рублей для повышения киберзащищенности российского бизнеса

Проект «Кибериспытание» объявляет о создании фонда на 100 млн рублей для поддержки крупного и среднего бизнеса в вопросах цифровой безопасности. В …

M1Cloud: Треть облачных заказчиков хотели бы дополнить ИТ-ландшафт сервисами Bare Metal

По данным исследования сервис-провайдера M1Cloud, треть опрошенных облачных заказчиков хотела бы дополнить имеющийся ИТ-ландшафт сервисами Bare …

ТеДо запустила платформу BPMSoft для автоматизации бизнес-процессов продаж и маркетинга

Компания «Технологии Доверия» (ТеДо) завершила автоматизацию бизнес-процессов на low-code платформе BPMSoft, разработанной компанией «БПМСофт» …

Абсолют Банк усиливает кибербезопасность с помощью продуктов Индид

АКБ «Абсолют Банк» ПАО внедрил комплекс программных продуктов для контроля и управления доступом от компании Индид. С помощью продуктов Indeed …

Аналитика

25 лучших российских системных интеграторов 2024

IT Channel News публикует результаты очередного исследования «25 лучших российских системных интеграторов» и представляет победителей 2024 года.

Чемпионы российского ИТ-канала 2023

В десятый раз в рамках исследования «Чемпионы российского ИТ-канала» реселлеры оценили работу вендоров по конкретным категориям продуктов.

25 лучших региональных ИТ-компаний 2023

IT Channel News публикует результаты очередного — уже 16-го! — исследования «25 лучших региональных ИТ-компаний» и представляет победителей 2023 года.

Новые ИТ-продукты

G&G

G&G продолжает расширять ассортимент продукции для струйной печати широкого формата

WyreStorm

Усилитель 100Вт с поддержкой Dante | 2 x 50 Вт и 4 x 25 Вт @ 4 Ом / 8 Ом | Двойное питание | встроенный DSP с Dante - WyreStorm AMP-260-DNT

Hisense

Дисплеи Hisense последнего поколения для Digital Signage в ассортименте ГК DIGIS

Склад

OCS Distribution, Vention

В OCS доступен широкий ассортимент аксессуаров VENTION: от док-станций и рюкзаков до патч-кордов и звуковых карт

OCS Distribution, VK Цифровые технологии

Умные колонки VK Капсула с голосовым помощником Марусей — уже в OCS