Кластеры с единым хранилищем создают избыточность ресурсов для служб, обеспечивающих доступ к данным. В случае сбоя на узле избыточность служб ускоряет восстановление без ущерба для данных. Поскольку во время перехода на другой ресурс при сбое кластер с единым хранилищем передает данные хранилища, содержащего базы данных, на новый узел, восстановление службы происходит без потерь данных.
Тем не менее в кластере с единым хранилищем подсистема хранения является единственной точкой сбоя. При общем отказе подсистемы хранения обычно имеет место 1-дневный простой и потеря в среднем 12-часовой наработки данных. (Подразумевается, что ежедневно выполняется полное резервное копирование). Кроме того, конфигурация хранилища для решения на основе кластера с единым хранилищем обычно более сложна в установке и эксплуатации, чем для кластера с непрерывной репликацией — другого типа кластера Exchange. Дополнительные сведения о кластере с непрерывной репликацией см. в разделе Непрерывная репликация кластера.
Поведение при восстановлении в кластере с единым хранилищем может быть двух видов в зависимости от типа отключения.
- Запланированные отключения. Запланированные
отключения выполняются администратором. Запланированное отключение
можно использовать для восстановления после сбоя, обнаруженного
системой наблюдения, или для выполнения некоторых задач
администрирования, например обслуживания оборудования, установки
программного обеспечения или обновлений.
- Незапланированные отключения. Незапланированные
отключения инициируются системой как действие восстановления при
обнаружении сбоя. Эти отключения обнаруживаются, и их
восстановление активируется службой кластеров Windows.
В следующей таблице описываются ожидаемые действия восстановления для различных вариантов сбоев. При некоторых сбоях запустить восстановление должен администратор; другие сбои автоматически обрабатываются службой кластеров Windows.
Как запланированные, так и незапланированные отключения, хотя они и вызваны разными причинами, должны завершиться включением пассивного узла и подключением баз данных (при условии успешного переключения дисков общего доступа). Если правильно переключить общедоступные диски не удается по причине ошибки конфигурации, дальнейшие действия будут теми же. Затронутые базы данных не подключаются.
Примечание. |
---|
На пассивном узле одновременно может быть включен только один кластерный сервер почтовых ящиков. Если узел уже поддерживает активный кластерный сервер почтовых ящиков, он не может перевести в оперативный режим другой сервер. |
Примечание. |
---|
В отличие от предыдущих версий Exchange, Microsoft Exchange Server 2007 не вызывает автоматическое незапланированное отключение (переход на другой ресурс при сбое) кластеров с единым хранилищем при сбоях базы данных. |
Действия по восстановлению при отказах
Описание сбоя | Действие | Комментарии |
---|---|---|
Неустранимая ошибка операционной системы; операционная система не отвечает на запросы; полный отказ питания узла; неустранимый сбой микросхемы процессора, системной или объединительной платы; полный сбой связи на узле |
Автоматический переход при сбое на пассивный узел, если он доступен. Базы данных подключаются при переходе хранилища в оперативный режим. |
Чтобы был доступен пассивный узел, должна существовать возможность установить кворум после сбоя. Это означает, что альтернативный узел должен иметь доступ к кворуму. |
Общий сбой хранилища на активном узле |
Сбои хранилища регистрируются системой наблюдения. Администратор может восстановить хранилище или должен использовать резервные копии для восстановления. Автоматический переход при сбое на пассивный узел, если он доступен. Базы данных подключаются при подключении хранилища. |
Чтобы был доступен пассивный узел, должна существовать возможность установить кворум после сбоя. Это означает, что альтернативный узел должен иметь доступ к кворуму. |
Общий сбой хранилища |
Сбои хранилища регистрируются системой наблюдения. Администратор может восстановить хранилище или должен использовать архивные копии для восстановления. |
Этот сбой регистрируется как сбой кластера (и всех его ресурсов), так как к кворуму и базам данных не удается получить доступ. |
Отказ центра обработки данных |
Автоматический переход на другой ресурс при сбое не поддерживается без применения решений для репликации от независимых разработчиков. |
Репликация оперативных данных должна быть синхронной. |
Сбой диска с операционной системой |
Автоматических действий по восстановлению не предпринимается. Не обнаруживается Exchange, если только не происходит сбой операционной системы. Обнаруживается при появлении других сбоев. |
Сбой диска с операционной системой регистрируется службой наблюдения операционной системы и может вызвать отказ операционной системы. |
Недостаточно места на диске с операционной системой. |
Автоматический переход при сбое на пассивный узел, если он доступен. Базы данных подключаются при подключении хранилища. |
Эта ситуация регистрируется службой наблюдения. Если не удается выполнить автоматический переход на другой ресурс при сбое, действия по восстановлению для этого сценария определяются администратором. |
Сбой общедоступной сети кластера на активном узле |
Те же действия по восстановлению, что и для полного отказа по питанию. |
Способов оценки работоспособности общей сети вне оборудования и программного обеспечения, используемого для связи между активными и пассивными узлами, не существует. Проверка фактической возможности подключения клиентов не обеспечивается Exchange 2007. |
Полный отказ общей сети кластера. |
Автоматических действий по восстановлению не предпринимается. |
Если разорвано подключение к общедоступной сети, происходит сбой ресурсов IP-адреса. После устранения неполадки с общедоступной сетью можно снова подключить ресурсы. |
Потеря кворума кластера. |
Кластерные серверы почтовых ящиков и кворум кластера отключены. |
Если кворум не может быть сформирован, этот сценарий приведет к недоступности службы. |
Отказ банка данных. |
Автоматическая перезагрузка ресурса банка данных. |
При повторяющихся сбоях администратор может попытаться подключить кластерный сервер почтовых ящиков, переместив его вручную на пассивный узел. |
Отказ диска с приложениями (исполняемыми файлами). |
Автоматических действий по восстановлению не предпринимается. |
Обычно этот сценарий приводит к другим отказам, которые регистрируются службами наблюдения и требуют действий администратора. Действия по восстановлению для этого сценария определяются администратором. |
Недостаточно места на диске с приложениями (двоичными файлами) |
Автоматических действий по восстановлению не предпринимается. |
Службы наблюдения регистрируют это состояние. Действия по восстановлению для этого сценария определяются администратором. |
Полная потеря базы данных или группы хранения либо полный отказ базы данных. |
Автоматическая попытка повторного подключения баз данных. Если попытка завершится неудачно, база данных останется в состоянии сбоя, но переход кластерного сервера почтовых ящиков на другой ресурс не произойдет. |
Группа хранения или база данных может быть отключена по причине сбоя или повреждения программного обеспечения либо стать недоступной из-за отказа оборудования. Например, если становится недоступен журнал каталога группы хранения, она инициирует отключение всех баз данных. Способ устранения неполадки определяется администратором. Восстановление может выполняться в рамках плановой остановки для запуска пассивного узла. |
Частичный отказ группы хранения или базы данных, некоторые данные недоступны, сбой начального подключения базы данных |
Автоматических действий по восстановлению не предпринимается. |
Частичный отказ означает, что было зарегистрировано некоторое повреждение, которое, однако, не вызвало отключения группы хранения или базы данных. Если база данных не подключается при запуске, никаких действий не предпринимается, а службы наблюдения регистрируют сбой. При этом сервер почтовых ящиков создает события, которые могут регистрироваться службами наблюдения. Службы наблюдения также обнаруживают и создают отчетность по отключенным базам данных. |
Обнаружен поврежденный журнал для группы хранения. |
Автоматических действий по восстановлению не предпринимается. |
Службы наблюдения регистрируют это состояние. |
Недостаточно места на диске для базы данных или журнала транзакций. |
Автоматических действий по восстановлению не предпринимается. Базы данных в группе хранения отключаются. |
Нехватка места на диске регистрируется системой наблюдения. Действия по устранению неполадки определяются администратором. |