Crash! Boom! Bang!

15.09.2012 21:27

Самый жаркий летний месяц выдался горячим как для айтишников некоторых банков, так и для их руководства. Крупные IT-сбои в России и за рубежом показали: банки слишком зависимы от ошибок персонала и систем, и это может стоить им десятки миллионов евро.

Сбои в банковских системах, приводящие к перерывам в обслуживании клиентов, — дело привычное. Обычно они довольно быстро исправляются, а последствия ограничиваются, максимум, извинениями пресс-службы. Однако так совпало, что в прошедшем месяце случились два значимых сбоя — в крупнейшем российском и одном из крупнейших британских банков.

Сбои в Сбербанке бывали и ранее, но произошедшая 6 июля остановка процессинговой системы, в результате которой клиенты банка остались в пятничный вечер на три часа без возможности расплатиться картой или снять с нее наличные, вызвала широкий общественный резонанс.

Разобраться в причинах возникшей проблемы и принимать решения по ее устранению пришлось даже Герману Грефу.

Однако случившееся в Сбербанке — «цветочки» в сравнении со сбоем в Royal Bank of Scotland (RBS), названным многими экспертами «беспрецедентным». У клиентов трех банков группы существенные проблемы со счетами продолжались в течение целого месяца.

Согласно официальным сообщениям RBS, проблемы начались 19 июня, когда в результате обновления системы CA 7 Workload Automation нарушился процесс пакетной обработки файлов, в ходе которой каждую ночь банк выполнял около 20 млн транзакций. В результате сбоя многие транзакции «не прошли». Далее проблемы нарастали как снежный ком, поскольку команда не смогла получить доступ к записям о том, какие из них все-таки были выполнены. Возникла существенная задержка в обработке, и в результате 21 июня счета многих из 17 млн клиентов «не обновились, как должны были». А поскольку все IT банка были централизованы в дата-центре в Эдинбурге, под удар попали все три банка группы — Royal Bank of Scotland, NatWest и Ulster Bank. Последнему досталось больше всех: если, судя по сообщениям клиентов, Royal Bank of Scotland и NatWest восстановили нормальную работу через две недели, то Ulster Bank, работающий в Ирландии, вернулся в строй лишь 16 июля.

CEO Ulster Bank Джим Браун сообщил, что на покрытие затрат в результате ошибочных сборов и компенсации пострадавшим клиентам (их около 600 тысяч) выделены «десятки миллионов евро». Банк также проследит, чтобы кредитные истории клиентов никак не пострадали.

На 25 июля причины сбоя и в Сбербанке, и в Ulster Bank до сих пор расследовались. Сбербанк даже привлек краудсорсинг, разместив журналы событий системы в социальной сети. Однако, судя по сообщениям в профильных сообществах, сторонние комментаторы казались профессионалами только на словах, и рекомендации многих напоминали пародийное «усилился ее падёж, и нужон внедрёж». Понятно, что в Сбербанке далеко не студенты работают, недаром рынок жалуется на переманивание им лучших специалистов.

Что вынесут банки из этих уроков — вопрос интересный. Понятно, что сложились вместе два обстоятельства — ненадежность систем под большой нагрузкой и человеческий фактор. И в Сбербанке и в Ulster Bank проблемы возникли на уровне программной платформы, так что простой переход на резервный ЦОД ничего бы не дал. Вспоминается также сбой Amazon, когда сервис был недоступен долгое время в результате неправильного конфигурирования маршрутизации.

Каков будет выход? Усилить мониторинг? Построить план восстановления, учитывающий ошибки в конфигурировании? Отказаться от централизации? Вернуться к чекам? Время покажет. Сбербанк нашел неплохой организационный путь, отказавшись от авторизации на период сбоев, хотя в случае с Ulster Bank это бы не сработало — слишком долго. Но главы банков получили ощутимое напоминание: IT matters. На десятки миллионов евро.

Игорь КОСТЫЛЕВ