Лекция № 23
Обеспечение высокой доступности
Бизнесу нужны системы, обладающие высокой доступностью, масштабируемостью и управляемостью. Высокой доступностью (availability) называется способность системы к продолжению работы в условиях неисправностей аппаратных средств, приложений и служб.
Высокая масштабируемость (scalability) – это способность системы к наращиванию мощностей процессоров и памяти в соответствии с потребностями предприятия.
Наконец, высокая управляемость (manageability) - это поддержка системой удобных средств локального и удалённого управления компонентами, службами и приложениями.
Планирование в расчете на высокую доступность есть одно из важнейших условий успешного применения операционных систем Microsoft Windows Server 2003 Edition и Мiсrоsоft Windows Server 2003 Datacenter Edition; при размещении серверов под управлением этих систем необходимо иметь представление о принципах развертывания и сопровождения серверов высокой доступности. Кроме того, вы должны знать, какие требования к аппаратной части, программному обеспечению и вспомогательному оборудованию выставляет корпоративная вычислительная среда. Все эти вопросы обсуждаются в настоящей лекции.
Планирование программных средств
Обзор программных продуктов должен проводиться исходя из того, удовлетворяют ли они всем требованиям по высокой доступности, выдвигаемым конкретной бизнес-системой. Скажем, не все программы поддерживают кластеризацию и выравнивание нагрузки. С другой стороны, не от всех программ это требуется. Необходимый уровень доступности следует определять на основании требовыний к приложениям.
Для большинства некритических бизнес-систем ставится требование о 99-процентном периоде работоспособного состояния. Если приложение способно выполнить это требование, необходимость в поддержке кластеризации и выравнивании нагрузки фактически отпадает. 99-процентный период работоспособного состояния означает, что простой приложения должен быть ограничен 88 часами и, иначе говоря, 100 минутами в неделю.
Бизнес-системы высокой доступности должны обеспечивать период работоспособного состояния 99,9 %. При выполнении этого требования без кластеризации и выравнивания нагрузки не обойтись. Период работоспособного состояния, равный 99,9 %, означает, что приложение не должно простаивать больше 9 часов в год, или 10 минут в неделю.
ПРИМЕЧАНИЕ
Поддержки кластеризации недостаточно для обеспечения высокой доступности. Примерами приложений, поддерживающих кластеризацию, являются Мiсrоsоft SQL Server и Microsoft Exchange Server. И то, и другое приложение можно настроить на обеспечение высокой доступности, однако этой цели нельзя достичь за счет одной лишь кластеризации. Любое приложение, претендующее на высокую доступность, должно поддерживать оперативное резервное копирование и пройти тестирование на совместимость со средой Windows Server 2003. Возможность оперативного резервного копирования позволяет не neреключать систему в автономный режим для архивации критически важных данных. Тестирование на совместимость предусматривает комплексную оценку взаимодействия программы со средой Windows Server 2003.
Перед размещением системы проводится оценка реальной среды, заключающаяся в компоновочном тестировании приложений, которые предполагается использовать совместно. Цель компоновочного тестирования - убедит в том, что независимые приложения взаимодействуют в соответствии с ожиданиями, а если это не так - выявить проблемные области. Основное внимание испытателей должно быть направлено на производительность системы, общий характер ее использования, а также на вопросы совместимости. Перед введением изменений системы или приложения в действующую среду компонентное тестирование проводится повторно.
Программные компоненты, необходимые для реализации системных функций должны быть стандартизированы. Цель стандартизации состоит в том, чтобы привести программные компоненты и технологии, применяемые в корпоративной среде, к определенному единообразию. Стандартизация сокращает:
· общие затраты на сопровождение и обновление программных продуктов;
· объем работ по компоновочному тестированию и проверке на совместимость применительно к обновлениям программных продуктов;
· период восстановления (благодаря упрощенной процедуре устранения неполадок);
· затраты на обучение административного персонала.
Стандартизация программных продуктов не предполагает введения единой в масштабе всей компании спецификации. Естественно, по мере развития информационного центра реальная среда пополняется новыми версиями приложений, программными компонентами и технологиями; в организации при необходимости вводятся новые стандарты и спецификации. Единой должна быть процедура размещения обновлений программных продуктов и новых технологий. Эта процедура подразумевает:
· компонентное тестирование и проверку на совместимость программных сред
· обучение персонала навыкам поддержки программных средств;
· обучение в период до размещения программных средств;
· составление поэтапных контрольных листов размещения программных продуктов;
· мониторинг и сопровождение в период после размещения программных продуктов.
Нижеследующий контрольный список резюмирует все ранее изложенные рекомендации по проектированию и планированию программных систем, обладающих высокой доступностью:
· Выбирайте программные продукты, отвечающие наличным требованиям по доступности решения или услуги.
· Отдавайте предпочтение программным продуктам, предусматривающим возможность оперативного резервного копирования.
· Тестируйте программные продукты на предмет совместимости с другими приложениями.
· Проводите компоновочное тестирование приложений,
· Перед размещением обновлений проводите повторное тестирование.
· Разрабатывайте и соблюдайте стандарты.
· Устанавливайте стандартные процедуры размещения обновлений программных продуктов.
Планирование аппаратных средств
Грамотная стратегия аппаратного обеспечения повышает доступность системы, сокращает стоимость владения и период восстановления. Проектное решение операционной системы Windows Server 2003 позволяет ей управлять высокопроизводительными аппаратными компонентами, приложениями и службами; Такая возможность подтверждена результатами тестирования. Гарантированно совместимые аппаратные компоненты следует подбирать по каталогу Windows Server (http://www. /windows/catalog/server/) или по списку совместимого оборудования (http://www. /hcl/).
ПРИМЕЧАНИЕ -
Все компоненты, представленные в списке совместимого оборудования, проходят комплексное тестирование в Лабораториях по сертификации аппаратных средств для работы в среде Windows (WHQL). Первоначальное тестирование длится 14 дней; еще по 7 дней выделяется для повторного тестирования при обновлениях прошивки, выпуске новых пакетов обновлений и прочих незначительных пересмотрах компонентов. Получив по результатам тестирования сертификат, производители аппаратных средств соблюдают единообразие конфигураций при выпуске обновлений, хотя для каждого из них проводится процедура повторного тестирования и сертификации. Соблюдение программных требований и четкая координация действий с производителями вносят существенный вклад в надежность и доступность операционной системы Windows Server 2003.
Стандартизация аппаратных платформ и ее компонентов помогает сократить:
- затраты на обучение персонала службы поддержки;
- объем работ по тестированию обновлений;
- затраты на запасные детали (благодаря единообразию субкомпонентов);
- период восстановления (благодаря упрощенной процедуре устранения неполадок).
Стандартизация не преследует цели жесткого ограничения типов серверов, меняемых в информационном центре. Как правило, стандартизация в N-звенной среде сводится к установлению стандартных конфигураций интерфейсных серверов, бизнес-логики среднего звена и прикладных служб передачи данных. Связано это с тем, что показатели ресурсопотребления веб-серверов, серверов приложений и серверов баз данных различаются. Если, скажем, веб-серверу не хватает двухпроцессорной системы с ограниченным аппаратным RAID-управлением и оперативной памятью объемом 1 Гбайт, то для размещения сервера баз данных зачастую требуется восьмипроцессорная система с двухканальным RАID-управлением и 64 Гбайт памяти.
Стандартизация не предусматривает установления единой для всей организации аппаратной спецификации. С течением времени оборудование информационных центров устаревает и становится практически недоступным. В соответствии с динамикой технологического развития вводятся новые стандарты и спецификации. Эти стандарты и спецификации должны быть опубликованы и легко доступны.
Для того чтобы повысить уровень доступности, в проектном решении применяемых аппаратных средств должны быть заложены такие качества, как резервирование и отказоустойчивость. Аппаратное резервирование обеспечивается благодаря нескольким видам компонентов:
· кластеры помогают восстанавливать критически важные приложения и службы после отказов;
· резервные системы заменяют функциональность основных систем при полных отказах последних;
· запасные детали заменяют компоненты реальной среды в случае выхода последних из строя;
· отказоустойчивые компоненты усиливают внутренние средства резервирования системы.
Запоминающие устройства, сетевые компоненты, вентиляторы, блоки питания - для всех этих аппаратных средств можно обеспечить отказоустойчивость. Применительно к запоминающим устройствам эта задача решается путём установки нескольких дисковых контроллеров, дисков с возможностью горячей замены и матриц дисков с избыточностью. Задача резервирования сетевых компонентов распространяется не только на сетевые адаптеры, но и на маршрутизаторы, коммутаторы, брандмауэры, устройства выравнивания нагрузки и другое сетевое оборудование.
Стандартный процесс размещения аппаратных средств должен быть четко описан и известен всем специалистам службы поддержки. В первую очередь он предусматривает:
· компонентное тестирование и проверку на совместимость аппаратных средств;
· обучение персонала навыкам поддержки аппаратных средств;
· обучение в период до размещения аппаратных средств;
· составление поэтапных контрольных листов размещения аппаратных компонентов;
· мониторинг и сопровождение в период после размещения аппаратных компонентов.
Следующий контрольный список резюмирует все вышеизложенные рекомендации по проектированию и планированию аппаратных средств, для которых выставлены требования по высокой доступности.
1. Выбирайте аппаратные средства только в соответствии со списком совместимого оборудования (HCL).
2. Разрабатывайте и соблюдайте стандарты.
3. При любой возможности реализуйте резервирование аппаратных средств.
4. Отдавайте предпочтение аппаратным средствам с отказоустойчивостью.
5. Обеспечивайте безопасность физической среды аппаратных средств.
6. Установите стандартный процесс размещения аппаратных средств.
По возможности соблюдайте также следующие рекомендации:
1. Резервирование во внутренних сетях должно быть сплошным - от серверов граничных маршрутизаторов.
2. Подключайтесь к поставщикам телекоммуникационных услуг первого звена по прямым одноранговым каналам
3. Используйте резервные внешние соединения для передачи данных и голоса.
4. Подключайтесь к высокоскоростным каналам напрямую.
Планирование вспомогательного оборудования физической среды
Физическая среда - оборудование помещения, в котором устанавливаются серверы, - крайне важна. В отсутствие адекватных условий физической среды проблем не избежать. Наиболее важны в этом отношении характеристики помещений, в которых содержатся серверы, - проблема, напрямую связанная с их физической безопасностью.
Требования по доступности предъявляются не только к аппаратному и программному обеспечению, но и к вспомогательному оборудованию. В понятие «физическая среда» входит несколько составляющих:
· температурные и влажностные условия;
· содержание в атмосфере пыли и загрязняющих веществ;
· электропитание;
· воздействие стихийных бедствий;
· физическая безопасность.
За температурой и влажностью в помещении нужно следить постоянно. Процессоры, память, жесткие диски и другие аппаратные компоненты действуют наиболее эффективно в прохладных условиях; в большинстве случаев оптимальной считается температура 18-21°С. При перегреве оборудование зачастую работает нестабильно или полностью выходит из строя. В серверных системах необходимо устанавливать несколько внутренних вентиляторов, реализуя, таким образом, функцию резервирования.
СОВЕТ --
Особое внимание в плане вентиляции следует уделять быстрым процессорам и жестким дискам. Они больше подвержены угрозе перегрева, избежать которой можно только за счет установки дополнительных вентиляторов.
Низкая влажность помогает предотвратить конденсацию; с другой стороны, воздух не должен быть сухим, так как в противном случае могут появиться проблемы со статическим электричеством. Антистатические приспособления и средства необходимы в любых влажностных условиях.
Пыль и другие загрязняющие частицы иногда вызывают перегрев аппаратных компонентов и короткие замыкания. По возможности концентрацию такого рода частиц в помещении, где устанавливаются серверы, нужно свести к минимуму. Желательно разместить в нем воздухоочистительную систему. В стандартный цикл профилактического обслуживания следует ввести проверку серверов и шкафов на предмет запыления и попадания других загрязнителей. В случае обнаружения пыли серверы и шкафы нужно тщательно прочистить.
Качество физической среды в значительной степени определяется состоянием электропроводки и кабелей. Все электропровода и кабели должны быть протестированы и сертифицированы квалифицированными специалистами. Мощность электропроводки должна быть достаточной для питания серверов в периоды пиковой нагрузки. В идеале для электропитания серверов следует установить несколько выделенных схем.
Большинство проблем, связанных с передачей данных, вызываются некорректной прокладкой сетевых кабелей. Все кабели должны тестироваться на предмет соответствия спецификациям производителя. Для повышения доступности сети следует устанавливать резервные кабели. Вся электро - и кабелепроводка должна быть промаркирована, не говоря уже о регулярном обслуживании. По возможности используйте системы защиты кабелепроводки и крепежные скобы, позволяющие предотвратить физическое повреждение электропроводки.
Серверы и серверные компоненты должны быть постоянно подключены к электросети. На серверах необходимо установить основные и резервные источника питания с возможностью «горячей» замены (замены компонента без выключения питания). Резервирование предусматривает возможность перехода к резервному источнику питания в случае выхода из строя основного. Имейте в виду, что наличие в серверной системе нескольких источников питания само по себе не гарантирует резервирования. Некоторые аппаратные компоненты работают только при наличии нескольких источников питания, В таком случае для реализации функции резервирования следует установить дополнительный (третий или четвертый) источник питания.
Резервные источники питания должны быть подключены к отдельным фильтрам питания, которые, в свою очередь, подключаются к локальным источникам бесперебойного электропитания (uninterruptible power supply, UPS). В некоторых организациях устанавливаются специальные блоки UPS корпоративного типа, способные обеспечить питанием все размещенные в помещении устройства. При наличии таковых необходимость в резервных системах UPS отпадает.
Для защиты от долговременных отключений применяются газовые и дизельные генераторы, Генераторы имеются в большинстве компаний, предоставляющих услуги хостинга и размещения серверов. Следует иметь в виду, что мощности генератора должны покрывать пиковые уровни потребления установленного оборудования. В противном случае не избежать частичного нарушения энергоснабжения (при котором имеют место временные отключения).
Совет
Серверные стойки, другие установленные в помещении компоненты и электропроводка должны быть оснащены сейсмоэащитой. Все кабели должны быть плотно закреплены с обоих краев и, если это возможно, зафиксированы не на самом сервере, а, например, на серверной стойке.
Внимание
В помещении должна быть установлена система пожаротушения. Предпочтительны сдвоенные системы на газовой основе, так как, в отличие от водяных спринклерных систем, они не разрушают оборудование.
Физический доступ в помещение, в котором установлены серверы, должен быть затруднен. Для контроля доступа применяются замки, карточки-ключи, доступа и биометрические сканеры. При необходимости установите камеры наблюдения и сохраняйте записанный материал по меньшей мере в течение недели. Если серверы установлены в помещении компании, предоставляющей услуги хостинга или размещения серверов, они должны быть окружены закрытыми ограждениями от пола до потолка.
Следующий контрольный список резюмирует все вышеизложенные рекомендации по проектированию и планированию помещений и вспомогательного оборудования:
· Поддерживайте температуру от 18 до 21 ОС.
· Поддерживайте влажность на низком уровне (но избегайте излишней сухости).
· Устанавливайте резервные внутренние вентиляторы.
· Используйте воздухоочистительную систему.
· Периодически проводите проверки на предмет пыли и других загрязняющих частиц.
· Устанавливайте резервные источники питания с возможностью «горячей» замены.
· Проводите тестирование и сертификацию электро - и кабелепроводки.
· Устанавливайте системы защиты электропроводки.
· Маркируйте аппаратные компоненты и кабели.
· Устанавливайте резервные источники питания - UPS и генераторы.
· Задействуйте средства сейсмозащиты и крепления кабелей.
· Устанавливайте системы пожаротушения (предпочтительно - сдвоенные, на газовой основе).
· Ограничивайте физический доступ в помещения, в которых установлены серверы, с помощью замков, карточек-ключей, кодов доступа и других средств.
· Устанавливайте камеры слежения и сохраняйте отснятый материал (по возможности).
· При размещении серверов на площадках компаний, предоставляющих услуги хостинга и размещения серверов, используйте закрытые ограждения, шкафы и стойки.
· Стенки ограждений должны быть сплошными, от пола до потолка.
Планирование операций текущего обслуживания
Размещение критически важных приложений должно сопровождаться операциями текущего обслуживания и процедурами поддержки. Среди операций текущего обслуживания наиболее важны следующие:
· мониторинг и анализ;
· поиск ресурсов, обучение и составление документации;
· контроль изменений;
· процедуры передачи ответственности за решение проблем;
· процедуры резервного копирования и восстановления;
· составление послеаварийных отчетов;
· аудит и обнаружение вторжений.
Мониторинг является необходимым элементом сопровождения бизнес-систем, требующим наличия специального оборудования. Мониторинг превращает поддержку в комплекс профилактических (в противоположность реактивным) мероприятий. Мониторинг должен проводиться в отношении аппаратных, программных и сетевых компонентов, но не должен мешать функционированию системы - иначе говоря, потребление системных и сетевых ресурсов инструментами мониторинга должно быть строго ограничено.
ПРИМЕЧАНИЕ -
Не забывайте: избыток данных ничем не лучше, чем их отсутствие. Инструменты мониторинга должны фиксировать лишь те данные, которые необходимы для проведения осмысленного анализа.
Без тщательного анализа данные, собираемые в ходе мониторинга, бесполезны. Сотрудники, осуществляющие поддержку, должны иметь представление о методиках анализа данных. Довольно часто процедуры поддержки обходят стороной сетевую инфраструктуру. Не забудьте направить ресурсы на мониторинг сети.
ПРИМЕЧАНИЕ -
В сети с высоким уровнем обслуживания и мониторинга доступность должна достигать 99,99 %. Потерянных пакетов должно быть не более 1 %, а время передачи отдельного пакета в обоих направлениях - не более 80 мс. Достичь такого уровня доступности и производительности без мониторинга сети нельзя. Если бизнес-система представлена в Интернете или в глобальной сети (WAN), область действия мониторинга должна быть расширена соответствующим образом.
Ресурсы, обучение и документация также относятся к числу основных факторов управления и сопровождения критически важных систем. К сожалению, во многих организациях численность обслуживающего персонала урезается до неприемлемого минимума. В то же время, чем меньше специалистов, тем ниже их реактивность и эффективность работы. В отношении обслуживающего персонала компаниям следует придерживаться нескольких принципов:
· набирать персонал в количестве, достаточном для успешного решения задач;
· проводить обучение перед внедрением новых технологий;
· поддерживать подготовку специалистов на уровне, достаточном для обслуживания реализованных технологий;
· документировать важнейшие процедуры обслуживания.
Любые изменения аппаратных, программных и сетевых компонентов нужно планировать и реализовывать с величайшей тщательностью. Для этого необходимы установленные процедуры контроля изменений и полностью документированные планы реализации. Процедуры контроля изменений должны быть составлены таким образом, чтобы все специалисты знали о выполненных операциях. Из планов реализации должно быть ясно, какие операции следует провести для решения определенной задачи.
Процесс контроля изменений основывается на записях в журналах изменений. Для каждого аппаратного компонента, участвующего в операционной среде, следует завести отдельный журнал изменений. Журналы изменений должны сохраняться в виде текстовых документов или электронных таблиц, легко доступных для специалистов службы поддержки. В журнале изменений должны быть представлены следующие данные:
· имя специалиста, изменившего аппаратный компонент;
· характер произведенных изменений;
· дата внесения изменений;
· причина внесения изменений.
СОВЕТ
Процедуры контроля изменений должны учитывать возможность запланированных и аварийных изменений. Все специалисты, участвующие во внесении запланированных изменений, должны регулярно проводить совещания и придерживаться графика реализации. Никто не должен вносить изменения, которые не обсуждались всеми членами команды.
Совершенно необходимы четкие планы резервного копирования и восстановления. В плане резервного копирования, в частности, должны быть даны ответы на следующие вопросы:
· в каких случаях должны проводиться операции резервного копирования всех четырех типов (полное, инкрементное, дифференциальное, создание резервных копий журналов);
· как часто и в какое время должны проводиться операции резервного копирования;
· в каком режиме должно проводиться резервное копирование (в оперативном или в автономном);
· в каком объеме должно проводиться резервное копирование данных (и насколько критичны эти данные);
· какие инструменты должны использоваться для резервного копирования;
· какова максимально допустимая продолжительность операций резервного копирования и восстановления;
· какова процедура маркировки, записи и смены архивных носителей.
Резервные копии требуют ежедневной проверки на правильность данных и качество носителя. Все проблемы, связанные с резервными копиями, нужно исправлять немедленно. В процессе резервного копирования следует задействовать несколько наборов архивных носителей, применяемых в порядке чередования. К примеру, при наличии четырех чередуемых наборов они используются для создания ежедневных, еженедельных, ежемесячных и ежеквартальных резервных копий. Безопасность данных существенно повышается, если один из наборов хранится вне помещений компании.
В плане восстановления нужно предусмотреть подробные пошаговые процедуры восстановления системы в различных условиях (например, при выходе из строя жесткого диска или при трудностях с соединением с серверной базой данных). Кроме того, в план восстановления следует включить документацию по проектному решению и архитектуре системы - в частности, сведения о конфигурации аппаратных средств, компонентах прикладной логики и серверных данных. Помимо этой информации, для восстановления системы специалистам поддержки нужен набор архивных носителей со всеми программами, драйверами и файлами операционной системы.
ПРИМЕЧАНИЕ
К сожалению, администраторы часто забывают о запасных деталях. Обеспечение запасных деталей для основных аппаратных компонентов (процессоров, дисков и модулей памяти) должно обязательно учитываться в плане восстановления.
Процесс восстановления критических бизнес-систем согласно плану следует отработать на тестовых серверах с конфигурацией, близкой к действующим серверам. Подобного рода «учения» лучше всего про водить раз в три или шесть месяцев.
В организации должны быть установлены процедуры передачи ответственности, определяющие механизм решения проблем и аварийных изменений. Во многих компаниях действуют трехуровневые службы поддержки.
· На первом уровне работают сотрудники службы поддержки, решающие простейшие проблемы. Как правило, они располагают непосредственным доступом к аппаратным, программным и сетевым компонентам, которые входят в область их компетенции. Основные функции этой группы специалистов сводятся к выяснению сути проблемы и ее приоритезации. Если проблема уже известна и для нее составлена процедура решения, специалисты первогo уровня могут решить ее самостоятельно без передачи на другие уровни.
Если проблема встречается впервые или ее характер неясен, специалисты первого уровня должны определить, как, кому и когда ее передать.
· Функции сотрудников второго уровня более специализированы; они классифицируют проблемы и пытаются решать их во взаимодействии с системными администраторами, сетевыми инженерами и другими специалистами. Как правило, они располагают удаленным доступом к аппаратным, программным и сетевым компонентам, с которыми работают. Установив характер проблемы, они отсылают технических специалистов.
· На третьем уровне трудятся технические специалисты: эксперты в предметных областях, руководители и супервизоры рабочих групп. Кроме того, на этом уровне могут быть представители пользователей и служб поддержки производителей. Все вместе они образуют аварийные (кризисные) группы, ищущие выход из кризисных ситуаций и планирующие аварийные изменения.
Все кризисные и аварийные ситуации нужно разрешать быстро и методично. За координацию всех изменений и реализацию плана восстановления должен отвечать один человек - участник аварийной группы. Он же должен составлять отчеты о действиях, проведенных в ходе разрешения аварийной ситуации. Помимо описания процесса восстановления, этот отчет о результатах должен содержать выводы о причинах возникшей проблемы.
Помимо прочего, необходимо разработать процедуры аудита потребления ресурсов системы и обнаружения вторжений. Предусмотренные в составе Windows Server 2003 политики аудита помогают отслеживать успешное и неудачное исполнение следующих операций:
· События входа в систему (Account Logon Events). Отслеживание событий, связанных с входом и выходом пользователей из системы.
· Учетные записи (Account Management). Отслеживание задач, связанных с обработкой учетных записей пользователей, как-то: их создание и удаление, а также переустановка паролей.
· Доступ к службе каталога (Directory Service Access). Отслеживание доступа к службе каталога Active Directory.
· Доступ к объектам (Object Access). Отслеживание потребления системных ресурсов применительно к файлам, каталогам и объектам.
· Изменение политики (Роliсу Change). Отслеживание изменений прав пользователей, параметров аудита и доверительных отношений.
· Использование прав (Privilege Use). Отслеживание прав и привилегий пользователей.
· Отслеживание процессов (Process Tracking). Отслеживание системных процессов и потребления ресурсов.
· Системные события (System Events). Отслеживание запуска, выключения и перезапуска системы, а также операций, влияющих на безопасность системы или журнал безопасности.
Необходим план реагирования для происшествия, в котором должен быть прописан механизм передачи информации о предполагаемом вторжении старшим специалистам группы и изложена поэтапная процедура устранения их последствий. Члены рабочей группы, реагирования должны собирать данные из всех сетей, которые могут быть затронуты проблемой. Среди этих данных могут быть журналы событий, журналы приложений, журналы баз данных и любые другие существенные файлы и данные. Специалисты из группы реагирования должны немедленно принять защитные меры - блокировать учетные записи, изменить пароли и (если это необходимо) физически отключить систему. Все участники группы реагирования должны впоследствии написать послеаварийный отчет с указанием:
· даты и времени получения данных о происшествии и принятых мерах;
· имен специалистов, которых они оповестили о проблеме, и их реакции;
· результатов анализа проблемы и действий, которые, по их мнению, необходимы для предотвращения аналогичных происшествий в будущем.
Руководитель группы должен написать пояснительную записку о происшествии и передать ее на рассмотрение старшего руководства компании.
Нижеследующий контрольный список резюмирует рекомендации по оперативной поддержке систем, характеризующихся высокой доступностью:
· Проводите круглосуточный мониторинг аппаратных, программных и сетевых компонентов.
· Мониторинг не должен препятствовать функционированию системы.
· Собирайте только те данные, которые необходимы для проведения анализа.
· Разработайте процедуры анализа данных специалистами.
· Проводите внешний мониторинг систем, доступных извне.
· Уделяйте особое внимание поиску ресурсов, обучению и составлению документации.
· Разработайте процедуры контроля изменений с составлением журналов изменений.
· Разработайте планы реализации с подробным описанием механизма реализации изменений.
· Разработайте план резервного копирования, предусматривающий чередование архивных носителей, а также их хранение в помещениях компании и во внешних хранилищах.
· Проводите мониторинг операций резервного копирования и тестирование архивных носителей.
· Разработайте план восстановления всех критических систем.
· Регулярно отрабатывайте план восстановления в тестовой среде.
· Документируйте процедуры решения проблем и внесения аварийных изменений.
· Реализуйте механизм передачи ответственности за решение проблем в рамках трехзвенной службы поддержки.
· Сформируйте аварийную или кризисную группу.
· Составляйте отчеты о результатах решения проблем.
· Разработайте процедуры аудита потребления системных ресурсов и обнаружения вторжений.
· Разработайте план обнаружения вторжений и первоочередного устранения их последствий.
· При обнаружении вторжения и при подозрении на таковое предпринимайте незамедлительные действия.
· Составляйте послеаварийные отчеты с указанием действий, предпринятых специалистами для устранения последствий вторжения.
Планирование размещения серверов высокой доступности
Размещение бизнес-систем нужно в обязательном порядке планировать. В плане должны быть предусмотрены все операции, которые необходимо провести перед переводом системы в действующую среду. Как только система оказалась в действующей среде, обслуживать ее нужно так, как описано в разделе «Планирование операций текущего обслуживания» ранее в этой лекции.
В плане размещения должны быть предусмотрены следующие элементы:
· контрольные списки;
· списки контактов;
· планы тестирования;
· графики размещения.
Основными элементами плана размещения являются контрольные списки (листы). Функция контрольного списка заключается в том, чтобы ознакомить всех участников группы размещения со всеми стоящими перед ними задачами. В контрольных списках должны быть обозначены все задачи, которые необходимо выполнить на всех этапах от планирования до тестирования и ввода в действие, и указаны их исполнители. Перед реализацией контрольного списка участники группы размещения должны обсудить определенные в них операции и порядок взаимодействия при их выполнении. После размещения предварительные контрольные списки должны быть внесены в системную документацию; более того, каждый раз при обновлении системы необходимо составлять новые контрольные списки.
В плане размещения также следует предусмотреть список контактов. В таком списке должны быть указаны имена, роли, номера телефонов и адреса электронной почты всех участников группы, представителей и поставщиков решений. Рекомендуется также указывать номера сотовых телефонов и пейджеров.
Следующим элементом плана размещения является план тестирования. Оптимальный план должен состоять из нескольких этапов. На первом этапе группа размещения осуществляет сборку бизнес-системы и ее обслуживающих компонентов в испытательной лаборатории. Под сборкой системы понимается выполнение нескольких задач:
· организация тестовой сети, в рамках которой будет существовать система;
· сборка аппаратных компонентов и подсистем хранения;
· установка операционной системы и прикладных программ;
· установка основных параметров системы в соответствии с требованиями тестовой среды;
· конфигурирование кластеризации или выравнивания сетевой нагрузки.
В изолированной лабораторной среде участники группы размещения вольны проводить любые необходимые операции, связанные с тестированием и устранением неполадок В отношении системы в целом следует провести отбраковочные испытания, которые позволяют сразу выявить неисправности компонентов. Бракованные компоненты обычно выходят из строя в течение нескольких дней работы. Впрочем, отбраковочными испытаниями процедура тестирования не ограничивается. В отношении веб-серверов, серверов приложений и баз данных следует в обязательном порядке проводить нагрузочное тестирование. Результаты нагрузочных испытаний подлежат анализу, цель которого состоит в том, чтобы подтвердить соответствие системы ожиданиям заказчика и выдвигаемым им же требованиям по производительности. При необходимости в целях повышения производительности и оптимизации в расчете на ожидаемую нагрузку конфигурацию следует скорректировать.
На втором этапе участники группы размещения тестируют бизнес-систему и ее вспомогательное оборудование в реальных условиях. Результаты тестов вновь анализируются на предмет соответствия требованиям по производительности и ожиданиям заказчика. После окончательной корректировки конфигурации для повышения производительности и оптимизации группа может приступать к размещению бизнес-системы.
После размещения участники группы должны провести ограниченное неагрессивное тестирование, для того чтобы убедиться в том, что система функционирует нормально. По завершении третьего этапа группа может переходить к мониторингу и сопровождению в соответствии с утвержденными оперативными планами.
Нижеследующий контрольный список резюмирует рекомендации по планированию размещения критически важных систем:
· Составьте план, охватывающий весь цикл операций от тестирования до ввода системы в действие.
· Введите контрольные списки, на основе которых участники группы размещения смогут уяснить содержание предстоящих процедур.
· Составьте список контактов участников группы, представителей производителей и поставщиков решений.
· Проведите в лабораторных условиях отбраковочные и нагрузочные испытания.
· Оптимизируйте и скорректируйте конфигурацию на основании результатов тестирования.
· Проведите повторное тестирование в реальной среде.
· Следуйте графику размещения.
· По завершении финальных тестов переходите к выполнению оперативных планов.


