С. В. БОГДАНЕЦ
Научный руководитель – В. П. КУТЕПОВ, д. т.н., профессор
Московский энергетический институт (технический университет)
МЕТОДЫ ОБЕСПЕЧЕНИЯ ОТКАЗОУСТОЙЧИВОСТИ
ВЫЧИСЛЕНИЙ НА КЛАСТЕРАХ
В тезисах рассматривается подход к обеспечению отказоустойчивости вычислительных систем (ВС) и сетей разрабатываемый на кафедре прикладной математики.
Несмотря на огромный прогресс в развитии элементной базы компьютеров, обеспечивающей их высокую надёжность (наработка на отказ у современных компьютеров до десяти тысяч часов), проблема достижения высокой отказоустойчивости для вычислительных систем и сетей остаётся актуальной. Основные требования, которым должны удовлетворять программные средства обеспечения отказоустойчивости, следующие.
1. Обеспечение продолжения параллельных вычислений в случае отказов и сбоев в работе узлов ВС.
2. Обеспечение собственной отказоустойчивости разрабатываемых средств.
3. Возможность сбора и хранения статистики отказов узлов ВС с целью их последующего анализа и использования.
Разрабатываемый нами подход к обеспечению отказоустойчивости ВС при выполнении параллельных программ основан на децентрализованном принципе управления ВС. При этом между всеми узлами ВС устанавливаются роли по схеме «кто за кем следит». Каждый узел может выполнять как роль следящего, так и подопечного. Следящий осуществляет контроль за работой подопечного, сохраняет через определённые интервалы времени состояния выполняемого на подопечном узле фрагмента параллельной программы и в случае отказа подопечного восстанавливает вычисления с последней точки сохранения на другом узле ВС в соответствии с заданной схемой распределения ролей.
Также можно рассматривать вариант, когда восстановление вычислений происходит не по заранее заданной схеме распределения ролей, а в динамике в зависимости например, от загруженности компьютеров. Если на узле происходит сбой, то производится попытка перезапуска программы на этом узле, если сбой продолжает повторяться, и причина сбоя также, тогда вычисления переносятся на другой узел. Данный подход позволяет реализовать достаточно гибкую схему обеспечения отказоустойчивости вычислений. Пример схемы распределения ролей можно увидеть на рисунке 1.

Рис. 1. Пример схемы распределения ролей между узлами
В настоящее время описанный подход и методы обеспечения отказоустойчивости ВС реализуются в рамках проекта создания системы ООГСПП для кластеров [1]. На данном этапе предполагаемая архитектура программных средств обеспечения отказоустойчивости ВС представляет собой распределённую систему взаимосвязанных элементов, ассоциированных с узлами ВС и предназначенных для отслеживания состояния узлов, обнаружения сбоев в работе ВС. Разрабатывается модель процесса управления системой обеспечения отказоустойчивости. Ведётся работа по сохранению состояния и возобновлению вычислений в случае возникновения отказов и сбоев в работе узлов ВС.
Список литературы
1. , , Осипов -схемное потоковое параллельное программирование и его реализация на кластерных системах. //Москва: Изд-во РАН, Теория и системы управления, 2005, №1.


