Применимо к: Exchange Server 2010 SP1

Последнее изменение раздела: 2010-08-11

Переключения и отработки отказов являются двумя формами отключений при сбоях в Microsoft Exchange Server 2010. Переключение — это запланированное отключение базы данных или сервера, которое явным образом вызывается администратором, как правило, во время подготовки к обслуживанию. Во время процесса переключения администратор перемещает активную копию базы данных почтовых ящиков на другой сервер группы доступности базы данных (DAG).

С отработкой отказа связаны неожиданные события, которые могут приводить к недоступности служб либо данных или тех и других. Отработка отказа включает в себя автоматическое восстановление системы после сбоя путем активации пассивной копии базы данных почтовых ящиков и ее преобразования в активную копию.

Платформа высокой доступности Exchange 2010 предназначена для обработки как переключений, так и отработок отказов.

Необходимы сведения о задачах управления, связанных с высоким уровнем доступности и устойчивостью сайтов к сбоям? См. раздел Управление высокой доступностью и устойчивостью сайтов.

Переключения

В Exchange 2010 существует три типа переключений:

  • Переключения базы данных.

  • Переключения сервера.

  • Переключения центра данных.

Переключения базы данных

Переключение базы данных — это процесс, в ходе которого одна активная база данных переключается на другую (пассивную) копию базы данных, которая затем становится новой активной копией базы данных. Переключения базы данных могут происходить как внутри центров данных, так и между ними. Переключение базы данных может выполняться с помощью консоли управления Exchange или командной консоли Exchange. Процесс переключения одинаков вне зависимости от используемого интерфейса.

  1. Администратор инициирует переключение базы данных, чтобы переместить текущую активную копию базы данных почтовых ящиков на другой сервер. Переключение может запускаться с помощью командлета Move-ActiveMailboxDatabase или мастера активации копии базы данных.

  2. Клиент, используемый при выполнении задачи, отправляет вызов RPC в службу репликации Microsoft Exchange участника группы доступности базы данных (DAG).

  3. Участник группы DAG может не выполнять обработку роли основного диспетчера Active Manager (PAM). В этом случае он переводит задачу на этот диспетчер.

  4. В рамках этой задачи выполняется вызов RPC в службу репликации Microsoft Exchange диспетчера PAM.

  5. Диспетчер PAM считывает и обновляет сведения о местоположении базы данных, которые хранятся в базе данных кластера для группы доступности DAG.

  6. Диспетчер PAM подключается к службе репликации Microsoft Exchange участника группы DAG, пассивная копия которой активируется в качестве новой активной копии базы данных почтовых ящиков.

  7. Служба репликации Microsoft Exchange на целевом сервере отправляет запросы к службам репликации Microsoft Exchange всех участников группы DAG для определения наилучшего источника журнала копии базы данных.

  8. База данных отключается от текущего сервера, и служба репликации Microsoft Exchange на целевом сервере копирует оставшиеся журналы на целевой сервер.

  9. Служба репликации Microsoft Exchange на целевом сервере отправляет запросы о подключении базы данных.

  10. Служба банка данных Microsoft Exchange на целевом сервере преобразует файлы журналов и подключает базу данных.

  11. Коды ошибок возвращаются в службу репликации Microsoft Exchange на целевом сервере.

  12. Диспетчер PAM обновляет сведения о состоянии копии базы данных в базе данных кластера для группы доступности DAG.

  13. Служба репликации Microsoft Exchange на целевом сервере возвращает коды ошибок в службу репликации Microsoft Exchange диспетчера PAM.

  14. Служба репликации Microsoft Exchange диспетчера PAM возвращает все ошибки на интерфейс администрирования, с которого выполнялся вызов задачи.

  15. Приложение Remote PowerShell возвращает результаты операции на вызывающий интерфейс администрирования.

Дополнительные сведения о переключении базы данных см. в разделе Активация копии базы данных почтовых ящиков.

Переключения сервера

Переключение сервера — это процесс, в ходе которого все активные базы данных участника группы DAG активируются для одного или нескольких других участников этой группы. Как и переключения базы данных, переключение сервера выполняется внутри центров данных и между ними и запускается с помощью консоли управления и командной консоли Exchange. Процесс переключения одинаков вне зависимости от используемого интерфейса.

  1. Администратор инициирует переключение сервера, чтобы переместить все текущие активные копии базы данных почтовых ящиков на один или несколько других серверов. Переключение можно запустить с помощью командлета Move-ActiveMailboxDatabase или пользовательского интерфейса сервера переключения.

  2. В рамках данной задачи для каждой активной базы данных на текущем сервере выполняются действия, описанные выше в этом разделе для переключений базы данных (шаги 2–4).

  3. Диспетчер PAM считывает и обновляет сведения о местоположении базы данных, которые хранятся в базе данных кластера для группы доступности DAG.

  4. Диспетчер PAM подключается к службе репликации Microsoft Exchange каждого участника группы DAG, для которого активируется пассивная копия.

  5. Служба репликации Microsoft Exchange на целевых серверах отправляет запросы к службам репликации Microsoft Exchange всех других участников группы DAG для определения наилучшего источника журнала копии базы данных.

  6. База данных отключается от текущего сервера, и служба репликации Microsoft Exchange на каждом целевом сервере копирует оставшиеся журналы.

  7. Служба репликации Microsoft Exchange на каждом целевом сервере отправляет запросы о подключении базы данных.

  8. Служба банка данных Microsoft Exchange на каждом целевом сервере преобразует файлы журналов и подключает базу данных.

  9. Коды ошибок возвращаются в службу репликации Microsoft Exchange на целевом сервере.

  10. Диспетчер PAM обновляет сведения о состоянии копии базы данных в базе данных кластера для группы доступности DAG.

  11. Служба репликации Microsoft Exchange на целевом сервере возвращает коды ошибок в службу репликации Microsoft Exchange диспетчера PAM.

  12. Служба репликации Microsoft Exchange диспетчера PAM возвращает все ошибки на интерфейс администрирования, с которого выполнялся вызов задачи.

  13. Приложение Remote PowerShell возвращает результаты операции на вызывающий интерфейс администрирования.

Дополнительные сведения о переключении сервера см. в разделе Выполнение переключения сервера.

Переключения центра данных

Способы обработки сбоев центра данных или сайта отличаются от способов обработки сбоев, которые могут привести к переходу сервера или базы данных на другой ресурс. В конфигурации высокой доступности системой инициируется автоматическое восстановление, а система обмена сообщениями после сбоя обычно сохраняет полностью работоспособное состояние. Напротив, сбой центра данных считается событием аварийного восстановления, и необходимо вручную выполнить восстановление, чтобы восстановить службу клиента и завершить отключение. Процедура, которая выполняется в этом случае, называется переключением центра данных. Так же как и для многих сценариев аварийного восстановления, предварительное планирование и подготовка к переключению центра данных позволяют упростить процесс восстановления и сократить время отключения.

Дополнительные сведения о переключениях центров данных, а также подробные инструкции по выполнению переключения центра данных см. в разделе Переключения центра обработки данных.

Отработки отказов

Отработка отказа — это процедура автоматической активации, которая может выполняться как на уровне базы данных, так и на уровне сервера. Отработки отказов происходят в ответ на сбой, который оказал влияние на отдельную базу данных (например, потеря данных в изолированном хранилище) или на весь сервер (например, сбой материнской платы или потеря питания).

Группы доступности базы данных (DAG) и копии базы данных почтовых ящиков обеспечивают полную избыточность (и поэтому быстрое восстановление) как данных, так и служб, обеспечивающих доступ к этим данным. В следующей таблице указаны ожидаемые действия по восстановлению при различных сбоях. В одних случаях запустить процесс восстановления должен администратор, в других — ошибки автоматически обрабатываются системой.

Описание Автоматическая активация Автоматическое действие по восстановлению Состояние при восстановлении: активная Состояние при восстановлении: пассивная Действия по восстановлению Примечания

«Мягкий» сбой базы данных расширенного обработчика хранилищ (ESE): диски, на которых хранится база данных, возвращают ошибки при некоторых операциях чтения (например, ошибка -1018).

Возможное кратковременное отключение.

Возможная автоматическая отработка отказа.

Автоматическое исправление поврежденной страницы.

Ручное переключение, автоматическая отработка отказа или оперативное восстановление.

Ошибка

Перестройка RAID, восстановление базы данных и копии базы данных, восстановление и запуск отладки, затем исправление страницы или исправление страницы на основе копии.

Могут возникать и другие «мягкие» ошибки базы данных.

Сюда не включены сбои блока файловой системы NTFS.

При переключении или отработке отказа выполняется обновление хост-сервера.

«Полумягкий» сбой базы данных расширенного обработчика хранилищ (ESE): диски, на которых хранится база данных, возвращают ошибки при некоторых операциях записи.

Кратковременное отключение во время автоматической отработки отказа.

Автоматическое перестроение тома/диска после возможной замены диска.

Отключено, если отсутствует возможность восстановления.

Ошибка

Перестроение с помощью RAID может решить проблему.

Копирование и исправление, восстановление и запуск отладки или перестроение тома/диска после возможной замены.

«Полумягкая» ошибка при операции записи обработчика ESE означает, что некоторые записи являются успешными.

Сюда не включен сбой блока файловой системы NTFS.

«Полумягкий» сбой журнала обработчика ESE: диски, на которых хранятся данные журнала, возвращают невосстановимые ошибки при некоторых операциях записи и чтения.

Кратковременное отключение во время автоматической отработки отказа.

Автоматическое перестроение тома/диска после возможной замены диска.

Отключено, если отсутствует возможность восстановления.

Ошибка

Перестроение с помощью RAID может решить проблему.

Копирование и исправление, восстановление и запуск отладки или перестроение тома/диска после возможной замены.

«Полумягкая» ошибка чтения/записи обработчика ESE означает, что некоторые операции чтения/записи являются успешными.

При сбое базы данных автоматическое восстановление запускается до начала процесса восстановления данных журнала.

Программная ошибка обработчика ESE или нехватка ресурсов: ошибка, при которой обработчик ESE завершает работу экземпляра (например, событие с идентификатором 1022, глубина контрольной точки слишком большая).

Кратковременное отключение во время автоматической отработки отказа.

Отсутствует.

Отключено, если отсутствует возможность восстановления.

Ошибка

Устранение ошибки базового ресурса.

Этот сбой может быть проявлением ошибок в других случаях.

Сбои блока NTFS: на дисках, содержащих базу данных или журналы, произошла ошибка операции чтения или записи в структуре управления NTFS.

Кратковременное отключение во время автоматической отработки отказа.

Полное перестроение тома после возможной замены диска.

Отключено, если отсутствует возможность восстановления.

Ошибка

Перестроение с помощью RAID может решить проблему. Служебные программы NTFS могут решить проблемы в блоке NTFS. Возможно, потребуется восстановление Exchange.

Скорее всего, это может произойти, когда RAID не используется. Если это событие повлияет на активный том журнала, несколько последних файлов журнала будут утеряны.

Сюда не включены ошибки, автоматически исправленные системой NTFS либо ее базовым программным или аппаратным стеком.

Сбой диска базы данных или журнала: на диске, содержащем базу данных или журналы, произошел полный отказ, и он недоступен.

Кратковременное отключение во время автоматической отработки отказа.

Диск переформатирован или заменен. Том полностью перестроен.

Отключено, если отсутствует возможность восстановления.

Ошибка

Замена диска, возможно, с последующим перестроением RAID.

Замена диска с последующим полным перестроением тома.

Полное перестроение тома.

Неприменимо.

Сбой базы данных или тома журнала: произошел сбой тома из-за проблем в системе NTFS или на нижнем уровне тома.

Кратковременное отключение во время автоматической отработки отказа.

Диск переформатирован или заменен.

Отключено, если отсутствует возможность восстановления.

Ошибка

Замена диска, возможно, с последующим перестроением RAID.

Замена диска с последующим полным перестроением тома.

Полное перестроение тома.

Неприменимо.

Недостаточно места в базе данных или в томе журнала: недостаточно места в файловой системе NTFS, в которой находится база данных или файлы журнала.

Автоматическая обработка отказа, если другая копия находится в ином состоянии.

Отсутствует.

Отключено.

Ошибка

Запуск полной или добавочной архивации, удаление журнала вручную, ожидание завершения операции, возобновление копирования базы данных или восстановление поврежденной копии базы данных.

Неприменимо.

Администратор отключает неправильную базу данных.

Если автоматическая отработка отказа не заблокирована администратором, отключение будет кратковременным.

Если автоматическая отработка отказа запрещена, отключение будет продолжаться до тех пор, пока не будет подключена база данных.

Отсутствует.

Отключено.

Неприменимо

Ошибку исправляет администратор.

Неприменимо.

Администратор приостанавливает неправильную копию базы данных.

В зависимости от конфигурации и задействованной копии автоматическое восстановление может быть запрещено.

Отсутствует.

Неприменимо.

Приостановлено

Ошибку исправляет администратор.

Неприменимо.

Администратор отключает обслуживание базы данных хранилища, NTFS или тома.

Если автоматическая отработка отказа не заблокирована администратором, отключение будет кратковременным.

Если автоматическая отработка отказа заблокирована, отключение будет продолжаться до тех пор, пока администратор не завершит задачу.

Отсутствует.

Отключено.

Неприменимо

Задачу завершает администратор.

Неприменимо.

Администратор приостанавливает обслуживание копии базы данных хранилища, NTFS или тома.

В зависимости от конфигурации и задействованной копии автоматическое восстановление может быть запрещено.

Отсутствует.

Неприменимо.

Приостановлено

Действия завершает администратор.

Неприменимо.

Администратор отключает базу данных для обслуживания в автономном режиме.

Отключение до тех пор, пока не будет выполнено восстановление.

Отсутствует.

Отключено.

Приостановлено

Действия завершает администратор.

Активная и пассивная копии базы данных не совпадают.

Администратору необходимо приостановить копии.

Сбой сети хранения данных (SAN), диска или контроллера хранилища.

Кратковременное отключение во время автоматической отработки отказа.

Отсутствует.

Отключено.

Любое

Восстановление оборудования.

Пассивная копия базы данных будет находиться в состоянии, которое существовало во время сбоя системы.

Обслуживание оборудования сервера.

Кратковременное отключение во время автоматической отработки отказа (если не заблокировано администратором).

Отсутствует.

Отключено.

Любое

Завершение действий.

Пассивная копия базы данных будет находиться в состоянии, которое существовало во время завершения работы системы.

Обслуживание программного обеспечения сервера.

Кратковременное отключение во время автоматической отработки отказа (если не заблокировано администратором).

Отсутствует.

Отключено.

Любое

Завершение действий.

Пассивная копия базы данных будет находиться в состоянии, которое существовало во время завершения работы системы.

Служба хранилища данных Microsoft Exchange остановлена или приостановлена администратором.

Отсутствует.

Отсутствует.

Отключено.

Любое

Перезапустите службу банка данных Microsoft Exchange.

Пассивная копия базы данных будет находиться в состоянии, которое существовало во время остановки службы.

Сбой службы банка данных Microsoft Exchange. Операционная система по-прежнему работает.

Кратковременное отключение во время автоматической отработки отказа.

Диспетчер служб перезапускает службу банка данных Microsoft Exchange.

Отключено.

Любое

Перезапуск службы банка данных Microsoft Exchange вручную или автоматически.

Пассивная копия базы данных будет находиться в состоянии, которое существовало во время сбоя службы банка данных Microsoft Exchange.

Частичный отказ службы банка данных Microsoft Exchange. Часть хранилища Exchange прекращает функционировать, но это не считается полным отказом.

Возможное кратковременное отключение во время автоматической отработки отказа.

Отсутствует.

Подключено и частично функционирует.

Любое, но, возможно, частично функционирующее

Перезагрузка сервера, перезапуск операционной системы или службы банка данных Microsoft Exchange.

Неприменимо.

Сбой сервера. Сбой сервера по одной из следующих причин:

  • Полный отказ питания

  • Невосстановимая поломка микросхемы процессора, материнской платы или объединительной платы

  • Ошибка остановки операционной системы

  • Операционная система не отвечает на запросы

  • Полный сбой связи

Кратковременное отключение во время автоматической отработки отказа.

Перезагрузка компьютера.

Отключено.

Любое

Восстановление питания, изменение параметров операционной системы, изменение параметров оборудования, замена оборудования, перезапуск операционной системы, обслуживание операционной системы, обслуживание оборудования или устранение проблем связи.

Неприменимо.

Сбой кворума в группе доступности базы данных.

Отключение до тех пор, пока не будет выполнено восстановление.

Отсутствует.

Отключено.

Любое

Восстановление неисправного кворума, назначение нового кворума или восстановление сети, ставшей причиной неисправности кворума.

Пассивная копия базы данных будет находиться в состоянии, которое существовало во время сбоя системы.

Сбой связи в сети MAPI: сервер больше не доступен в сети MAPI.

Кратковременное отключение во время автоматической отработки отказа. Потерь данных быть не должно.

Отсутствует. Попытки установки связи продолжают выполняться.

Отключено.

Любое

Устранение неполадки в оборудовании или программном обеспечении для решения проблемы связи.

Неприменимо.

Сбой связи в сети репликации: серверу не удается получить сигналы подтверждения, копии журнала или заполнение через поврежденную сеть репликации.

Возможно кратковременное отключение копирования или заполнения во время переключения нагрузки на другую сеть.

Отсутствует. Попытки установки связи продолжают выполняться.

Отсутствует.

Любое

Устранение неполадки в оборудовании или программном обеспечении для решения проблемы связи.

Сбой оказал влияние на устойчивость.

Множественные ошибки сетевой связи: серверу не удается получить сигналы подтверждения, копии журнала или заполнение через несколько сетей.

Кратковременное отключение во время автоматической отработки отказа. Потерь данных быть не должно.

Отсутствует. Попытки установки связи продолжают выполняться.

Отключено.

Любое

Устранение неполадки в оборудовании или программном обеспечении для решения проблемы связи.

По крайней мере одна сеть по-прежнему работает.

Частичный сбой одной или нескольких сетей: в сетях возникают ошибки с высокой скоростью.

Ошибка не обнаружена; никаких действий.

Отсутствует.

Подключено, но возможны проблемы с производительностью.

Любое

Устранение неполадки в оборудовании или программном обеспечении для решения проблемы связи.

Скорости возникновения ошибок в сетях превышают обычные.

Невыявленное зависание операционной системы: операционная система перестает отвечать на запросы, но это не выявлено системой мониторинга или кластеризации.

Отсутствует.

Отсутствует.

Любое.

Любое

Перезапуск или отключение неотвечающих ресурсов.

Зависание не выявлено, поэтому никакие действия не предпринимаются.

Возможно, некоторые функциональные возможности являются действующими.

Сбой диска с операционной системой.

Кратковременное отключение во время автоматической отработки отказа.

Отсутствует.

Отключено.

Любое

Замена диска и перестроение сервера или перестроение тома с помощью RAID.

Неприменимо.

Недостаточно места на диске с операционной системой.

Кратковременное отключение во время автоматической отработки отказа.

Отсутствует.

Отключено.

Любое

Освобождение места в томе вручную.

Неприменимо.

На диске с двоичными файлами Exchange возникает сбой тома или диска.

Кратковременное отключение во время автоматической отработки отказа.

Отсутствует.

Отключено.

Любое

Замена диска и переустановка приложения или перестроение тома с помощью RAID.

Неприменимо.

Недостаточно места на диске с двоичными файлами Exchange.

Кратковременное отключение во время автоматической отработки отказа.

Отсутствует.

Отключено.

Любое

Освобождение места в томе вручную.

Неприменимо.

Обнаружен недопустимый новый журнал: последовательность журнала прерывается существующим файлом.

Кратковременное отключение во время автоматической отработки отказа; возможно, с другими копиями не возникло такой проблемы.

Отсутствует.

Отключено.

Ошибка

Удаление аварийных журналов после определения источника.

Не следует реплицировать аварийные журналы.

При непрерывной репликации обнаружен недопустимый журнал: при преобразовании обнаружен несоответствующий журнал во время операции копирования или преобразования.

Неприменимо.

Удаление журнала.

Неприменимо.

Ошибка

Удаление недопустимого журнала; перемещение потока журналов, оказывающих негативное воздействие.

Неприменимо.

Отработки отказов в базах данных

Отработка отказа в базах данных происходит, когда активная копия базы данных больше не может оставаться активной. Как часть отработки отказа в базах данных выполняются следующие действия:

  1. Служба банка данных Microsoft Exchange обнаруживает сбой в базе данных.

  2. Служба банка данных Microsoft Exchange записывает сбои в журнал событий канала crimson.

  3. Диспетчер Active Manager на сервере, на котором находится неисправная база данных, обнаруживает события сбоя.

  4. Диспетчер Active Manager запрашивает сведения о состоянии копии базы данных у других серверов, на которых хранится копия базы данных.

  5. Другие серверы возвращают диспетчеру Active Manager запрошенные сведения о состоянии копии базы данных.

  6. PAM инициирует перемещение активной базы данных на другой сервер в группе DAG с использованием процесса выбора лучших копий.

  7. Диспетчер PAM обновляет местоположение подключения базы данных в базе данных кластера для обращения к выбранному серверу.

  8. Диспетчер PAM отправляет запрос диспетчеру Active Manager на выбранном сервере о его назначении главным сервером для этой базы данных.

  9. Диспетчер Active Manager на выбранном сервере отправляет запрос в службу репликации Microsoft Exchange на создание копии последних журналов с предыдущего сервера и устанавливает флажок подключения для этой базы данных.

  10. Служба репликации Microsoft Exchange определяет наилучший источник журнала на других серверах, запрашивая у каждого номер последней версии журнала.

  11. Каждый из активных серверов сообщает в ответ номер версии журнала.

  12. Служба репликации Microsoft Exchange копирует журналы с сервера, на котором ранее находилась активная копия базы данных.

  13. Диспетчер Active Manager считывает номер последней версии журнала из базы данных кластера.

  14. Служба банка данных Microsoft Exchange подключает новую активную копию базы данных.

Отработки отказов на серверах

Отработка отказа на сервере происходит, если участник группы DAG больше не может обслуживать сеть MAPI или служба кластеров участника группы DAG больше не может поддерживать связь с оставшимися участниками этой группы. Как часть отработки отказа на сервере выполняются следующие действия.

  1. Служба кластеров диспетчера PAM отправляет уведомление этому диспетчеру в одном из двух случаев:

    1. Узел отключен   Сервер доступен, но не может принимать участие в операциях группы DAG.

    2. Сеть MAPI отключена   К серверу невозможно подключиться по сети MAPI, и поэтому сервер не может принимать участие в операциях группы DAG.

  2. Если сервер доступен, диспетчер PAM подключается к диспетчеру Active Manager на поврежденном сервере и запрашивает немедленное отключение всех баз данных.

  3. Для каждой поврежденной копии базы данных выполняется следующее:

    1. Диспетчер PAM запрашивает сведения о состоянии копии базы данных у всех серверов в группе DAG.

    2. Диспетчер PAM получает ответ от всех доступных и активных участников группы DAG.

    3. Диспетчер PAM пытается определить наилучший источник журнала на всех отвечающих серверах, запрашивая у каждого номер последней версии журнала.

    4. Каждый сервер сообщает в ответ номер версии журнала.

  4. Диспетчер PAM извлекает текущее состояние каталога индекса поиска из базы данных кластера.

  5. На основе номера версии журнала и работоспособности каталога каждой копии базы данных диспетчер PAM выбирает лучшие копии для активации.

  6. Диспетчер PAM обновляет подключенное местоположение базы данных в базе данных кластера.

  7. Диспетчер PAM инициирует отработку отказа в базе данных, связываясь с диспетчером Active Manager на одном или нескольких серверах.

  8. Диспетчер Active Manager на выбранных серверах запрашивает службу репликации Microsoft Exchange на копирование последних журналов с предыдущего сервера и установку флажка подключения.

  9. Если база данных является подключаемой, диспетчер Active Manager на серверах подключает базы данных.

Дополнительные сведения о процессе выбора лучших копий диспетчером Active Manager см. в разделе Общие сведения об Active Manager.