Как я был свидетелем последствий сбоя компьютерной системы Delta Air Lines

Новости

Так получилось, что я оказался одним из сотен тысяч пассажиров, которым не посчастливилось вплотную столкнуться с недавним отказом компьютерной системы Delta Air Lines. 8 августа, когда произошел сбой, у меня было два перелета именно этой авиакомпанией. В принципе мне повезло: ни один из моих двух рейсов в итоге не был отменен. Я успел на стыковку и в целом потерял не так много времени, как многие другие пассажиры, — всего-то часов пять сверх запланированного.

Как я был свидетелем последствий сбоя компьютерной системы Delta Air Lines

И хотя в итоге все закончилось хорошо, за пять часов пребывания внутри отказавшей системы я получил достаточно интересный опыт.

Что вообще произошло?

Delta Air Lines — одна из крупнейших мировых авиакомпаний. Она обладает флотом из 800 с лишним авиалайнеров, которые ежедневно совершают около 6000 перелетов по всему миру и перевозят более 100 млн человек в год. У компании 13 хабов (ключевых аэропортов системы, в которых происходят пересадки между рейсами), одним из которых является аэропорт Атланты — крупнейший по пассажиропотоку аэропорт в мире. В общем, это ОЧЕНЬ большая система.

8 августа в 2.30 утра по североамериканскому восточному времени из-за проблем с электроснабжением в дата-центре Delta Air Lines в Атланте отключились сервера компьютерной системы авиакомпании. Резервные системы то ли не включились, то ли не смогли справиться с внезапно свалившейся на них нагрузкой — так или иначе, вся огромнейшая система в один момент осталась без одного из ключевых своих компонентов.

По словам Джона Крафта (John Craft), представителя компании Georgia Power, ответственной за питание дата-центра в Атланте, виновником инцидента следует считать распределительное устройство. Это своего рода аналог домашнего автоматического выключателя, задача которого — контролировать и переключать токи в цепи при нормальных условиях и отключать при ненормальных.

Аналитик Роберт Манн полагает, что в этот момент Delta проводила обычный тест запасных источников питания, когда по неизвестным причинам распределительное устройство в ЦОД Delta Air Lines вдруг вышло из строя. В результате одновременно отключились и основные, и резервные генераторы.

Результатом сбоя стала отмена в понедельник, 8 августа, около 1000 рейсов (по информации на момент написания этого текста, еще 500 рейсов были отменены во вторник, 9 августа). Подавляющее большинство остальных перелетов Delta Air Lines было задержано. К 1.30 после полудня 8 августа, когда Delta хоть чуть-чуть наладила процессы, из запланированных 6000 рейсов выполнялось или было выполнено только 1679.

Все это происходило не в каком-то одном аэропорту, а фактически по всему миру. Инцидент резко увеличил нагрузку на диспетчеров многих десятков аэропортов, которым пришлось срочно перекраивать расписание, чтобы каким-то образом принять и отправить сотни опаздывающих рейсов.

Разумеется, попутно полностью слетела вся точно выверенная система пересадок между рейсами самой Delta Air Lines и множества ее партнеров по всему миру. Многим пассажирам пришлось остаться ночевать в тех городах, где они предполагали всего лишь сделать короткую пересадку.

Как я провел этот день

Самую напряженную часть 8 августа — вторую половину дня, когда количество накопившихся сбоев, отмен и задержек достигло максимума, — я провел в одном из хабов авиакомпании, Международном аэропорту Лос-Анджелеса. Это пятый в мире аэропорт по пассажиропотоку (через него проходят около 70 млн пассажиров ежегодно), который и в нормальное-то время представляет собой, мягко говоря, не самое спокойное место.

Вокруг происходило странное. Моего рейса в Сиэтл на табло вылета попросту не было. Узнать о том, на сколько он задержан и в каком гейте происходит посадка, можно было только через мобильное приложение Delta Air Lines. На тот момент, к счастью, оно уже работало.

Впрочем, это не сильно помогало, потому что назначенный гейт менялся чуть ли не каждые пять минут. Очевидно, тем, кто назначает гейты, приходилось постоянно перетасовывать все сотни задержанных рейсов между несколькими десятками имеющихся гейтов, играя в своего рода тетрис на десятом уровне сложности.

Побегав полчаса по терминалу, я каким-то чудом все-таки нашел гейт, который был действительно назначен для моего рейса. Подозреваю, что это «действительно назначен» не было прописано ни в одной из электронных систем аэропорта, а существовало только в виде устной договоренности — сотрудники постоянно общались по старому доброму телефону.

Еще пара часов ожидания — и нас действительно посадили в самолет именно через тот гейт, рядом с которым я стоял. На этом, впрочем, ожидание не закончилось: в самолете пришлось подождать еще пару часов. Одна из пассажирок, летевшая с ребенком, через полчаса ожидания предпочла покинуть самолет, поскольку уже опоздала на свою стыковку в Сиэтле.

Как сбой отработала Delta

Не могу не восхищаться профессионализмом сотрудников авиакомпании. За пять часов ожидания я наблюдал массу ситуаций, когда они сделали все возможное, чтобы максимально смягчить последствия сбоя. Представители Delta каждый раз терпеливо объясняли пассажирам, что происходит (настолько, насколько они вообще могли, — ведь в системе творился хаос), постоянно извинялись за доставленные неудобства — все это вежливо, спокойно и с улыбкой. За все время я ни разу не увидел, чтобы сотрудник авиакомпании ответил кому-нибудь грубо или проигнорировал вопрос. И это при том, что у персонала было ОЧЕНЬ много работы помимо разговоров с пассажирами.

Пассажирам было предложено добровольно отказаться от перелета сегодня и задержаться в аэропорту вылета до следующего дня за счет авиакомпании — многие воспользовались этим щедрым предложением. Всем пассажирам, чьи рейсы были отменены или задержаны более чем на три часа, Delta Air Lines обещает выплатить компенсацию в $200.

Следует отдать должное и пассажирам: в подавляющем большинстве случаев люди были спокойны, терпеливо ждали, чем все закончится, разговаривали с улыбками и шутками. Никаких криков и истерик. Единственный раз я услышал сдержанную ругань «в воздух», когда огромных размеров байкер, в татуировках от запястья по самый подбородок, после нескольких часов ожидания узнал о том, что его рейс сегодня все-таки никуда не полетит.

В общем, несмотря на серьезнейший отказ электронной системы, повлекший за собой цепную реакцию, на помощь авиакомпании пришла аварийная система менеджмента. Она и помогла в итоге обработать произошедший масштабный сбой с минимально возможными потерями.

Выводы

Современная инфраструктура зачастую работает на пределе эффективности. И электроника — это именно то, что помогает ей быть настолько эффективной. Когда компьютерная система отказывает, приходится обращаться к «дедовским» методам. Но поскольку эти методы не рассчитаны на современную нагрузку, шансов справиться просто нет. Надеяться можно исключительно на то, что электронику удастся вернуть в строй быстрее, чем все полностью обрушится.

Вопрос о полном отказе от электронных систем, «раз они такие ненадежные», можно вообще не рассматривать. Работая по старинке, вы никогда не выдержите конкуренции с теми компаниями, которые используют компьютеры. Это все равно что возить грузы на лошадях, избегая «таких опасных» автомобилей.

А вот что действительно нужно — это уделять максимум внимания и ресурсов тому, чтобы делать компьютерные системы безопасными и надежными. Электроника, управляющая критической инфраструктурой, должна быть минимально уязвимой для сбоев и атак. Как показывает пример Delta Air Lines, любая серьезная неприятность с компьютерной системой может мгновенно повлиять на жизни сотен тысяч людей и привести к огромным убыткам.