Проблема обеспечения работоспособности ИС возникает все чаще, особенно в процессинговых банковских системах, при управлении технологическими процессами и распространении финансовой и биржевой информации, - всюду, где используются большие базы данных. Главное требование к вычислительным ресурсам в таких системах, и прежде всего к серверам, - обеспечить их работу 24 ч. в сутки, чтобы даже при отказе какого-либо компонента (процессора, памяти, устройств ввода-вывода) не происходили потери данных и не нарушалась работа критически важных приложений на уровне отдельных транзакций.
Повышение надежности серверов, собранных из тщательно тестированных компонентов, не обеспечивало выполнения этого требования, и отказоустойчивые серверные системы создавались за счет определенного избытка ресурсов. Такие решения предложили фирмы Tandem и Stratus. Их машины обладали активной избыточностью (дублирование аппаратных компонентов) и оригинальной архитектурой, что позволяло достигать высокой надежности (на уровне 99,99%) при круглосуточной работе в течение года. Однако изготовителям пришлось создавать для своих серверов нестандартное системное ПО и ОС, что привело к «закрытости», резкому повышению стоимости и необходимости разработки нового прикладного ПО. Более рациональными оказались разработки фирмы Sequoia, на которых использовалась модификация ОС Unix, хотя и здесь прикладные программы требовали доработки.
В последнее время появились многочисленные решения на основе кластерной архитектуры (Microsoft Wolfpack) или создания «горячего резерва» (Compaq), где использовался принцип пассивной избыточности - в случае отказа одного сервера его подменял другой. Но в этом случае приложения, выполнявшиеся на отказавшем сервере, должны перезагружаться на второй, что приводит к частичной потере данных и изменению состояния прикладных задач. То есть по отношению к критически важным задачам условия безостановочной работы не выполнялись.
В конце 1995 г. компания Marathon выпустила на рынок вычислительный комплекс Endurance 4000, имеющий показатели надежности, на уровне наиболее совершенных отказоустойчивых систем. Борис Богословский, директор российской фирмы «Комплексные системы», которая начала поставку на отечественный рынок систем Endurance 4000, говорит: «Основное преимущество комплекса в том, что он создается на базе стандартных ПК с процессорами Intel Pentium Pro, выпускаемых разными производителями - Compaq, NCR, HP, Dell. Кроме того, система работает в среде стандартной ОС Windows NT и устанавливаемое на ней прикладное ПО не требует изменений и доработки, что также не увеличивает затрат клиентов».
Конфигурация комплекса предусматривает разделение функций обработки информации и обмена данными между двумя ПК, связанными интерфейсными платами Marathon (ИПМ). В Endurance 4000
таких тандемов два, причем работают они синхронно, а драйверы ИПМ обеспечивают прием/передачу данных из обеих вычислительных систем одновременно при параллельном сравнении результатов и тестировании логики процессов, что гарантирует отсутствие сбоев при обработке. Две системы ввода-вывода обеспечивают «зеркалирование» содержимого жестких дисков путем дублирования записей каждой системы (функции массивов RAID 1. При отказе одной из вычислительных систем другая продолжает работу, поддерживая текущее состояние прикладных задач. А если отказывает система В/В, то нормальное функционирование комплекса обеспечивается вторым тандемом. Полностью дублируются также и все сетевые соединения, что гарантирует пользователям непрерывный доступ к данным и вычислительным ресурсам.
Дмитрий Росляков, заместитель директора фирмы «Комплексные системы», поясняет: «Статистика показывает, что в системах обработки транзакций около 27% отказов происходит из-за сбоев жестких дисков, 24% - по «вине» сервера и лишь 11% - из-за неполадок в коммуникационном оборудовании. Это значит, что для обеспечения непрерывной работы всей системы основное внимание следует обращать на отказоустойчивость серверов. Комплекс Marathon Endurance 4000 в условиях России представляется перспективным решением - он обладает надежностью на уровне 99,99% и выше и стоит в различной конфигурации от 30 до 100 тыс. долл., тогда как серверы Tandem и Sequoia с такими же характеристиками продаются по ценам от 100 до 750 тыс. долл. без учета стоимости специального ПО. Причем, как показывают расчеты, применение Endurance 4000 в особо ответственных ИС взамен предлагаемых в настоящее время ПК-серверов позволяет за год снизить затраты на техническое обслуживание и потери при отказах более чем на 200 тыс. долл. Уже есть примеры, когда использование этого комплекса в больших технологических системах, где данные поступают непрерывным потоком с 10 тыс. датчиков, обеспечивало бесперебойную работу даже в случаях частичных отказов.».