Blog Exitcertified México: Descripción técnica de VMware Site Recovery Manager 6.5

1. Introducción

VMware Site Recovery Manager™ 6.5 es una extensión de VMware vCenter™ que brinda recuperación de desastres, migración de sitios y capacidades de prueba sin interrupciones para los clientes de VMware.

1.1 Descripción general

VMware Site Recovery Manager™ 6.5, es una extensión de VMware vCenter™ que brinda recuperación de desastres, migración de sitios y capacidades de prueba sin interrupciones para los clientes de VMware. Está completamente integrado con VMware vCenter Server y VMware vSphere™ Web Client.

Site Recovery Manager funciona junto con varias soluciones de replicación, incluida VMware vSphere Replication™, para automatizar el proceso de migración, recuperación, prueba, reprotección y recuperación de cargas de trabajo de máquinas virtuales.

Los servidores de Site Recovery Manager coordinan las operaciones de VMware vCenter Server™ en dos sitios. Esto es así porque a medida que se cierran las máquinas virtuales en el sitio protegido o de producción, se inician las copias de estas máquinas virtuales en el sitio de recuperación. Al utilizar los datos replicados del sitio protegido o de producción, estas máquinas virtuales asumen la responsabilidad de proporcionar los mismos servicios.

La migración de inventario y servicios protegidos de un sitio a otro, está controlada por un Plan de Recuperación que especifica el orden en que las máquinas virtuales se apagan y se inician, los grupos de recursos (procesador, memoria y almacenamiento) a los que están asignados, así como las redes a las que pueden acceder.

Site Recovery Manager permite realizar pruebas de planes de recuperación, utilizando una copia temporal de los datos replicados y redes aisladas, de una manera que no interrumpa las operaciones en curso en ninguno de los sitios.

Se pueden configurar múltiples Planes de Recuperación para migrar aplicaciones individuales y sitios completos, lo que proporciona un control más preciso sobre el fracaso de las máquinas virtuales y el error. Esto también permite horarios de prueba flexibles.

Site Recovery Manager se ejecuta en conjunto con la plataforma VMware vSphere® 6.5, extendiendo el conjunto de características de la plataforma de infraestructura virtual, para proporcionar una continuidad comercial rápida a través de fallas de sitios parciales o completas.

Características y beneficios del administrador de recuperación del sitio

La protección independiente de la aplicación, elimina la necesidad de soluciones puntuales específicas de ésta
La orquestación automatizada de failover y failback del sitio con un solo clic, reduce los tiempos de recuperación
Las pruebas frecuentes y sin interrupciones de los Planes de Recuperación, aseguran objetivos de recuperación altamente predecibles
La administración centralizada de los Planes de Recuperación desde vSphere Web Client, reemplaza los runbooks manuales
El flujo de trabajo de migración planificada, permite la prevención de desastres y son de gran ayuda para la movilización del centro de datos
La integración de VMware vSAN™, reduce la huella propia de la Recuperación de Desastres (DR por sus siglas en inglés) a través del almacenamiento hiperconvergente y definido por software
La integración de vSphere Replication ofrece una replicación centrada en las Máquinas Virtuales (VM por sus siglas en inglés) que elimina la dependencia del almacenamiento
La compatibilidad con la replicación basada en arreglos, ofrece opciones para la replicación síncrona sin pérdida de datos
Aprovisionamiento basado en políticas de autoservicio a través de grupos de protección basados en políticas de almacenamiento, VMware vRealize™ Orchestrator y VMware vRealize™ Automation, para automatizar la protección

1.2 Terminología

Tiempo de recuperación Objetivo (RTO): cantidad de tiempo específica en la que debe restaurarse un proceso comercial, después de un desastre o interrupción para evitar consecuencias inaceptables asociadas con una interrupción en la continuidad del negocio.

Punto de recuperación Objetivo (RPO): edad máxima de los archivos recuperados del almacenamiento de respaldo, para que las operaciones normales se reanuden si un sistema se desconecta,como resultado de fallas en un hardware, programa o de comunicaciones.

Grupo de consistencia: uno o más unidades de almacenamiento crudo o LUN, también conocido como "volúmenes", que son replicados al mismo tiempo. Al recuperar elementos en un grupo de consistencia, todos los elementos se restauran en el mismo punto en el tiempo.

Sitio protegido: sitio que contiene máquinas virtuales protegidas que están en producción.

Sitio de recuperación: sitio donde se replican y posteriormente se recuperan las máquinas virtuales protegidas, en caso de un desastre o por errores de conmutación.

NOTA: Es posible que el mismo sitio sirva como sitio protegido y sitio de recuperación, cuando la replicación está ocurriendo en ambas direcciones. En este caso, Site Recovery Manager protege las máquinas virtuales en ambos sitios.

Grupo de Datastore: uno o más datastores que se tratan como una unidad en Site Recovery Manager. Un ejemplo común es un grupo de consistencia en una solución de Replicación Basada en Arreglos.

2. Descripción arquitectónica

Site Recovery Manager 6.5 se implementa en una configuración emparejada (pareada), por ejemplo, sitio protegido y sitio de recuperación.

2.1 Descripción general

Site Recovery Manager 6.5 se implementa en una configuración emparejada, por ejemplo, sitio protegido y sitio de recuperación. El software Site Recovery Manager 6.5 está instalado en un servidor de Microsoft Windows en ambos sitios. También requiere un servidor de VMware vCenter Server 6.5 en ambos sitios. Debe haber uno o más hosts vSphere con la versión 5.0 o superior en cada sitio. Consulte las Matriz de Compatibilidad para Site Recovery Manager 6.5, para obtener detalles específicos sobre las versiones del sistema operativo:

Site Recovery Manager utiliza vSphere Replication, que realiza replicación de las Máquinas Virtuales basado en arreglos o almacenamiento extendido, para transferir datos entre los sitios. La Replicación basada en Arreglos y el almacenamiento ampliado, deben tener licencia y configuración, mientras que el adaptador de replicación de almacenamiento apropiado debe estar instalado en el servidor de Site Recovery Manager en cada sitio.

Para vSphere Replication, el dispositivo virtual de vSphere Replication debe implementarse y las máquinas virtuales que debe proteger Site Recovery Manager deben estar configuradas para la replicación.

Site Recovery Manager 6.5 y VMware vCenter Server, así como las cargas de trabajo que están protegiendo, requieren servicios de infraestructura como Domain Name Service (DNS), Dinamic Host Connection Protocol (DHCP) y Active Directory. Estos deben estar debidamente configurados, en ejecución y en su lugar, en los sitios protegidos y el de recuperación.

Site Recovery Manager se administra mediante vSphere Web Client. Durante la instalación de Site Recovery Manager, se instala un "plugin" con la etiqueta "Site Recovery Manager" en vSphere Web Client. Aquí se muestra dentro de "Home" el icono correspondiente con la etiqueta "Site Recovery".

Site Recovery Manager admite la protección de hasta 5.000 máquinas virtuales y puede ejecutar simultáneamente hasta 10 planes de recuperación que contienen hasta 2.000 máquinas virtuales. Se pueden incluir hasta 500 máquinas virtuales en un solo grupo de protección y Site Recovery Manager brinda soporte para hasta 250 grupos de protección.

Site Recovery Manager 6.5 se implementa en una configuración emparejada, por ejemplo, sitio protegido y sitio de recuperación. El software Site Recovery Manager 6.5 está instalado en un servidor de Microsoft Windows en ambos sitios. También requiere un servidor de VMware vCenter Server 6.5 en ambos sitios.

Debe haber uno o más hosts vSphere con la versión 5.0 o superior en cada sitio. Consulte las Matriz de compatibilidad para Site Recovery Manager 6.5 para obtener detalles específicos sobre las versiones del sistema operativo.

3. Casos de uso

Aunque el caso de uso más obvio para Site Recovery Manager es la recuperación de desastres de un sitio a otro, puede manejar una cantidad de casos de uso distintos.

3.1 Descripción general

Aunque el caso de uso más obvio para Site Recovery Manager es la recuperación de desastres de un sitio a otro, puede manejar una serie de casos de uso distintos y proporcionar una capacidad y flexibilidad significativas para los clientes. Para todos los casos de uso y situaciones, Site Recovery Manager admite pruebas no disruptivas de Planes de Recuperación en entornos aislados de almacenamiento y red.

Esto brinda la posibilidad de probar la recuperación de desastres, la prevención de desastres o las migraciones planificadas con la frecuencia deseada para garantizar la confianza en la configuración y el funcionamiento de los Planes de Recuperación.

3.2 Recuperación de Desastres (DR por sus siglas en inglés)

La recuperación de desastres o una conmutación por error no planificada es lo que Site Recovery Manager fue diseñado específicamente para lograr. Este es el caso de uso más crítico pero menos utilizado para Site Recovery Manager.

Las fallas inesperadas de sitios no ocurren a menudo, pero cuando lo hacen, la recuperación es fundamental para las empresas. Site Recovery Manager puede ayudar en esta situación mediante la automatización y orquestación de la recuperación de sistemas comerciales críticos para fallas parciales o totales del sitio asegurando el Tiempo de Recuperación Objetivo (Return Time Objective o RTO) más rápido.

3.3 Evitar desastres

La conmutación por error preventiva, es otro caso de uso común para Site Recovery Manager. Esto puede ser cualquier cosa, desde una tormenta que se aproxima hasta la amenaza de problemas de suministro de energía eléctrica. Cuando se utiliza con una solución de almacenamiento extendida compatible, Site Recovery Manager puede orquestar "cross-vCenter vMotion" de máquinas virtuales, lo que permite la prevención de desastres sin tiempo de inactividad.

Sin almacenamiento ampliado, Site Recovery Manager permite el apagado ordenado de las máquinas virtuales en el sitio protegido, la replicación completa de los datos y el inicio ordenado de máquinas virtuales y aplicaciones en el sitio de recuperación, asegurando la coherencia de las aplicaciónes y la cero pérdida de datos.

3.4 Migración planificada

La forma más común en que Site Recovery Manager se utiliza de forma regular es para el movimiento de máquinas virtuales y aplicaciones entre sitios. Esto puede ser para la reubicación del centro de datos, el equilibrio de carga global o el mantenimiento planificado del sitio.

Site Recovery Manager tiene todas las capacidades para garantizar una migración de sitio sin inconvenientes. Admite pruebas completas de la migración de una manera completamente no disruptiva, para los sistemas de producción.

También admite el uso de almacenamiento expandido para migraciones sin tiempo de inactividad. Además, en el modo de migración planificada, se detendrá si se descubren problemas durante la migración lo que brinda la oportunidad de corregirlos a tiempo.

3.5 Actualización y prueba de parches

El entorno de prueba de Site Recovery Manager proporciona una ubicación perfecta para llevar a cabo la actualización del sistema operativo, la aplicación y las pruebas de parches. Los entornos de prueba son copias completas de entornos de producción configurados en un segmento de red aislado, garantizan que las pruebas sean lo más realistas posible y que al mismo tiempo, no afecten a las cargas de trabajo en producción ni a la replicación en si misma.

4. Topologías

Site Recovery Manager se puede utilizar en varios escenarios diferentes de conmutación por error según los requisitos, las limitaciones y los objetivos del cliente.

4.1 Descripción general

Site Recovery Manager se puede utilizar en varios escenarios diferentes de conmutación por error según los requisitos, las limitaciones y los objetivos del cliente. Todos estos arreglos son compatibles y se configuran fácilmente. Además, la integración de Site Recovery Manager con vSphere Web Client hace que las topologías de sitios múltiples sean fáciles de administrar.

4.2 Activo-pasivo

En el escenario tradicional activo-pasivo, hay un sitio de producción que ejecuta aplicaciones y servicios, y un sitio secundario o de recuperación que está inactivo hasta que sea necesario para la recuperación. Esta topología es común y, aunque proporciona recursos de recuperación dedicados, significa pagar por un sitio, servidores y almacenamiento que no se utilizan la mayor parte del tiempo.

4.3 Active-Active

Site Recovery Manager se puede usar en una configuración donde las cargas de trabajo de baja prioridad como la prueba y el desarrollo se ejecutan en el sitio de recuperación, apagándose como parte del plan de recuperación. Esto permite la utilización de recursos del sitio de recuperación, así como la capacidad suficiente para sistemas críticos en caso de un desastre.

4.4 Bidireccional

En situaciones donde las aplicaciones de producción están operando en ambos sitios, Site Recovery Manager admite la protección de máquinas virtuales en ambas direcciones (por ejemplo, máquinas virtuales en el sitio A protegidas en el sitio B y máquinas virtuales en el sitio B protegidas en el sitio A).

4.5 Almacenamiento ampliado

Site Recovery Manager admite el uso de almacenamiento ampliado, por lo que combina los beneficios de Site Recovery Manager con las ventajas del almacenamiento ampliado. Esto permite a los clientes de Site Recovery Manager lograr lo que antes solo era posible con vSphere Metro Storage Clusters, a saber:

Evitar desastres sin tiempo de inactividad
Tiempo de inactividad de mantenimiento planificado

Además de todos los beneficios preexistentes de Site Recovery Manager, la mayoría de los cuales no están disponibles cuando se usa almacenamiento por sí solo.

Para utilizar completamente el almacenamiento expandido y el vMotion de máquinas virtuales protegidas, debe haber una conectividad de red de capa dos ampliada entre los sitios, ya que no es posible cambiar sin interrupciones la dirección IP de una máquina virtual en ejecución. VMware NSX (producto adicional que se vende por separado) es una excelente solución para esto y proporciona una serie de beneficios adicionales también.

4.6 Multi-Sitio

Si bien Site Recovery Manager está diseñado para el caso de uso de protección más común, un sitio protegido por otro, también es compatible con configuraciones adicionales. Estas pueden ser:

Recuperación compartida: donde varios sitios remotos están protegidos por un solo sitio de recuperación.

Protección compartida: donde un único sitio falla en algunas aplicaciones/máquinas virtuales en un sitio remoto y otras en uno o más sitios remotos adicionales.

Otras topologías como una configuración de tres sitios donde las cargas de trabajo del sitio A están protegidas en el sitio B, las del sitio B están protegidas en el sitio C y las del sitio C están protegidas en el sitio A.

Cualquiera de estas y otras topologías de sitios múltiples son compatibles siempre que se tengan en cuenta estos límites:

Cada máquina virtual solo está protegida por un único par de Site Recovery Manager.
Site Recovery Manager actualmente no admite la migración tras error de la misma máquina virtual, a sitios de recuperación diferentes o múltiples.

Más detalles sobre las topologías y configuraciones de Site Recovery Manager están disponibles en el centro de documentación.

5. Despliegue y configuración

El proceso de implementación y configuración de Site Recovery Manager es simple y lógico.

5.1 Descripción general

El proceso de implementación y configuración de Site Recovery Manager es simple y lógico. Este documento cubrirá estos pasos de forma somera. Para obtener instrucciones detalladas de instalación y configuración, consulte las Guías de instalación y administración de Site Recovery Manager 6.5.

5.2 Emparejamiento del sitio

El emparejamiento de sitios es el primer paso para configurar Site Recovery Manager. La configuración más común es vincular dos sitios, aunque como se describió en la sección anterior sobre topologías, se admiten otras disposiciones.

5.3 Asignaciones de inventario

Existen varios tipos de asignaciones de inventario en Site Recovery Manager:

Asignaciones de recursos
Asignaciones de carpetas
Asignaciones de red.

Estas asignaciones proporcionan configuraciones predeterminadas para máquinas virtuales recuperadas.

Por ejemplo, se puede configurar un mapeo entre un grupo de puertos de red llamado "Production-100" en el sitio protegido y un grupo de puertos de red llamado "Production-200" en el sitio de recuperación.

Como resultado de este mapeo, las máquinas virtuales conectadas a "Production-100" en el sitio protegido se conectarán de manera predeterminada automáticamente a "Production-200" en el sitio de recuperación.

Las redes que se utilizarán durante la prueba también se pueden configurar en la misma área.

Al utilizar VMware NSX Versión 6.2 o superior y Switches Lógicos universales en combinación con Grupos de protección basados en políticas de almacenamiento, la asignación no es necesaria ya que Site Recovery Manager la maneja automáticamente.

5.4 Máquinas virtuales de marcadores de posición y almacenes de datos

Para cada máquina virtual protegida, Site Recovery Manager crea una máquina virtual de marcador de posición en el sitio de recuperación. Las máquinas virtuales de marcador de posición están contenidas en un almacén de datos y registradas con vCenter Server en el sitio de recuperación. Este almacén de datos se llama el "almacén de datos de marcador de posición". Dado que las máquinas virtuales de marcador de posición no tienen discos virtuales, consumen una cantidad mínima de almacenamiento.

Cada uno de los sitios protegidos y de recuperación requerirá que se cree o asigne un pequeño almacén de datos al que puedan acceder todos los hosts (máquinas físicas a las que ya se les ha instalado el hipervisor y son responsables de ejecutar las Máquinas Virtuales) de ese sitio, para su uso como almacén de datos de marcador de posición. Cada sitio requiere al menos un almacén de datos de marcador de posición para permitir el Failover así como el Failback.

Cuando se utilizan grupos de protección basados en políticas de almacenamiento, no se requieren áreas de almacenamiento de marcadores de posición y las Máquinas Virtuales de marcador de posición no se crean, ya que no son necesarias para este nuevo tipo de grupo de protección.

6. Opciones de replicación

Como se mencionó anteriormente, Site Recovery Manager proporciona la opción de tecnologías de replicación.

6.1 Resumen

Como se mencionó anteriormente, Site Recovery Manager proporciona la opción de tecnologías de replicación.

Las máquinas virtuales pueden replicarse con cualquier tecnología, aunque la misma máquina virtual no puede ser protegida por ambas. Con la replicación basada en arreglos y la replicación de vSphere, la máquina virtual debe configurarse para la replicación antes de ser protegida por Site Recovery Manager.

NOTA: La Replicación es la Pierda Angular de cualquier estrategia de Recuperación de Desastres.

Para una comparación completa entre la Replicación Basada en Arreglos y la replicación de vSphere, consulte el manual "Administración de Recuperación del Sitios: Replicación Basada en Arreglos versus vSphere Replication".

6.2 Replicación Basada en Arreglos

Al usar la Replicación Basada en Arreglos, uno o más erreglos de almacenamiento en el sitio protegido replican los datos a las arreglos pares en el sitio de recuperación. Se necesita un Adaptador de Replicación de Almacenamiento (SRA por sus siglas en inglés) para que el arreglo específico y la solución de replicación se utilicen con Site Recovery Manager.

Los Adaptadores de Replicación de Almacenamiento son componentes de software creados y admitidos por los proveedores de replicación de arreglos, que utilizan las directrices de VMware. El adaptador de replicación de almacenamiento es lo que Site Recovery Manager usa para comunicarse con el arreglo de almacenamiento. Por lo tanto, están instalados en los servidores de Site Recovery Manager en ambos sitios y pueden monitorear y controlar las funciones de arreglo relacionadas con migraciones, Failovers, Re-protecciones, Failbacks y pruebas.

6.3 vSphere Replication

Para usar la replicación de vSphere, es necesario implementar y configurar el dispositivo virtual vSphere Replication. Esto se hace independientemente de Site Recovery Manager. La replicación de vSphere puede utilizar cualquier almacenamiento admitido por vSphere, por lo que no es necesario contar con arreglos de almacenamiento, similares o no, en ninguno de los sitios.

Para obtener detalles sobre la instalación y configuración de vSphere Replication, consulte la documentación de vSphere Replication 6.5.

7. Grupos de Protección

Los Grupos de Protección son una forma de agrupar máquinas virtuales que se recuperarán juntas.

7.1 Descripción general

Los Grupos de Protección son una forma de agrupar máquinas virtuales que se recuperarán juntas. En muchos casos, un Grupo de Protección consistirá en las máquinas virtuales que admiten un servicio o aplicación, como el correo electrónico o un sistema de contabilidad.

Por ejemplo, una aplicación puede consistir en un clúster de base de datos de dos servidores, tres servidores de aplicaciones y cuatro servidores web. En la mayoría de los casos, no sería benéfico suspender parte de esta aplicación, solo dos o tres de las máquinas virtuales en el ejemplo, por lo que las nueve máquinas virtuales se incluirían en un solo Grupo de Protección.

La creación de un Grupo de Protección para cada aplicación o servicio, tiene la ventaja de realizar pruebas selectivas. Tener un Grupo de Protección para cada aplicación, permite realizar pruebas no disruptivas de bajo riesgo en aplicaciones individuales, lo que permite a los propietarios de las aplicaciones realizar pruebas sin interrupción de los planes de recuperación ante desastres, según sea necesario.

Un Grupo de Protección contiene máquinas virtuales cuyos datos han sido replicados por replicación basada en arreglos o replicación de vSphere. Antes de que se pueda crear un grupo de protección, se debe configurar la replicación.

Un Grupo de Protección no puede contener máquinas virtuales replicadas por más de una solución de replicación (por ejemplo, la misma máquina virtual protegida por la duplicación de vSphere y la replicación basada en arreglos) y una máquina virtual solo puede pertenecer a un solo grupo de protección.

7.2 Replicación Basada en Arreglos

Las máquinas virtuales incluidas en los grupos de protección de Replicación Basados en Arreglos están determinadas por el almacenamiento donde se encuentran las máquinas virtuales. Todas las máquinas virtuales en un almacén de datos deben estar protegidas por Site Recovery Manager y todas deben pertenecer al mismo grupo de protección. No es aconsejable ni recomendable proteger un subconjunto de máquinas virtuales en un almacén de datos.

Hacer esto activará las alarmas dentro de la interfaz de usuario de Site Recovery Manager y puede ocasionar importantes problemas con esas máquinas virtuales sin protección. En el siguiente ejemplo, tenemos dos máquinas virtuales ubicadas en dos almacenes de datos que se asignan a dos LUN.

Dentro del arreglo de almacenamiento, los dos LUN normalmente se configuran en un grupo de coherencia para garantizar la coherencia de la orden de escritura. Se dice que los dos almacenes de datos están en un grupo de datos, que contiene todos los almacenes de datos asociados con las máquinas virtuales en el grupo de protección.

7.3 vSphere Replication

Para máquinas virtuales protegidas por Site Recovery Manager usando la replicación de vSphere, decidiendo qué máquinas virtuales van a pertenecer a qué grupo de protección es simple, ya que las máquinas virtuales se replican de forma individual, lo que tiene sentido desde el punto de vista de la recuperación. Los grupos de protección de replicación de vSphere no están vinculados al tipo o configuración de almacenamiento, salvo que no se puedan ubicar en el almacenamiento de Replicación Basado en Arreglos.

7.4 Basado en Política de Almacenamiento

Los grupos de protección basados en Políticas de Almacenamiento, utilizan perfiles de almacenamiento de vSphere para identificar almacenes de datos protegidos y máquinas virtuales. Automatizan el proceso de protección y desprotección de máquinas virtuales, agregando y eliminando áreas de almacenamiento de datos de grupos de protección.

Los grupos de protección basados en Perfiles de Almacenamiento, permiten una integración profunda con herramientas de aprovisionamiento de máquinas virtuales como VMware vRealize Automation. Esta combinación hace que sea más fácil que nunca implementar y proteger máquinas virtuales.

Los grupos de protección basados en Políticas de Almacenamiento, utilizan etiquetas vSphere en combinación con la Administración Basada en Políticas de Almacenamiento de vSphere, para habilitar la protección automatizada basada en políticas para máquinas virtuales.

La Administración Basada en Políticas de Almacenamiento, permite a los administradores de vSphere automatizar el aprovisionamiento y la administración del almacenamiento de máquinas virtuales, para cumplir con requisitos como rendimiento, disponibilidad y protección.

Las etiquetas de vSphere permiten la capacidad de adjuntar metadatos al inventario de vSphere, en este caso las áreas de almacenamiento de datos, lo que hace que estos objetos sean más fáciles de ordenar, buscar y asociar con las políticas de almacenamiento.

Aquí se explica cómo se usan las etiquetas y la Administración Basada en Políticas de Almacenamiento junto con los grupos de protección basados en Políticas de Almacenamiento:

Se crea una etiqueta y se asocia con todas las áreas de almacenamiento de datos en cada grupo de protección deseado
Se crea una Política de Almacenamiento basada en etiquetas para cada grupo de protección que utiliza la etiqueta
Se crea un Grupo de Protección basado en Políticas de Almacenamiento y se asocia con la Política de Almacenamiento deseada o correspondiente

Cuando cualquier máquina virtual, nueva o existente, se asocia con esa política y se coloca en el almacén de datos replicado, la protección por parte del Administrador de recuperación del sitio es automática. Si una máquina virtual se desasocia de esa política y/o se retira del almacén de datos, queda automáticamente desprotegida. Lo mismo sucede con las áreas de almacenamiento de datos y las máquinas virtuales.

8. Planes de recuperación

Los planes de recuperación en Site Recovery Manager son como un libro de ejecución automatizado, controlando todos los pasos en el proceso de recuperación.

8.1 Resumen

Los planes de recuperación en Site Recovery Manager son como un libro de ejecución automatizado, controlando todos los pasos en el proceso de recuperación. El plan de recuperación es el nivel en el que se llevan a cabo acciones como conmutación por error, migración planificada, prueba y re-protección.

Un plan de recuperación contiene uno o más Grupos de Protección y un Grupo de Protección se puede incluir en más de un Plan de Recuperación. Esto proporciona la flexibilidad de probar o recuperar una aplicación por sí mismo, así como también probar o recuperar sólo un grupo de aplicaciones o todo el sitio.

En el siguiente ejemplo, hay dos grupos de protección: Contabilidad y Correo electrónico. Y hay tres planes de recuperación: el plan de recuperación de Contabilidad que contiene el grupo de protección de Contabilidad, el plan de recuperación de Correo electrónico que contiene el grupo de protección de Correo electrónico y el plan de recuperación de todo el Sitio que contiene ambos grupos de protección.

8.2 Grupos de Prioridad

Hay cinco Grupos (niveles) de Prioridad en Site Recovery Manager. Primero se recuperan las máquinas virtuales en el grupo de prioridad uno, luego se recuperan las máquinas virtuales en el grupo de prioridad dos, y así sucesivamente. Todas las máquinas virtuales en un Grupo de Prioridad se inician al mismo tiempo y el siguiente Grupo de Prioridad se inicia solo después de que todas las máquinas virtuales del grupo anterior se han inicido y responden.

Esto proporciona a los administradores una opción para priorizar la recuperación de máquinas virtuales. Por ejemplo, las máquinas virtuales más importantes con el Tiempo de Recuperación Objetivo (Return Time Objective o RTO) más bajo, normalmente se colocan en el primer grupo de prioridad, mientras que las máquinas virtuales menos importantes en los grupos de prioridad inferiores.

Otro ejemplo es, por nivel de aplicación: los servidores de bases de datos podrían ubicarse en el grupo de prioridad dos; servidores de aplicaciones y middleware en el grupo de prioridad 3; clientes y servidores web en el grupo de prioridad cuatro.

8.3 Dependencias

Cuando se necesita más granularidad para el inicio, se pueden usar dependencias de órdenes. Una dependencia requiere que antes de que una máquina virtual pueda comenzar, una máquina virtual específica ya debe estar ejecutándose previamente.

Por ejemplo, una máquina virtual llamada "acct02" puede configurarse para tener una dependencia en una máquina virtual llamada "acct01" - Site Recovery Manager esperará hasta que se inicie "acct01" antes de encender "acct02". Los latidos de VMware Tools se usan para validar cuando una máquina virtual se ha iniciado correctamente.

8.4 Acciones de apagado y arranque

Las acciones de cierre se aplican a las máquinas virtuales protegidas en el sitio de producción durante la ejecución de un plan de recuperación. Las acciones de apagado no se utilizan durante la prueba de un plan de recuperación. Por defecto, Site Recovery Manager emitirá un apagado de Sistema Operativo huesped, que requiere VMware Tools habiendo un límite de tiempo de cinco minutos. El límite de tiempo puede ser modificado. Si el apagado del Sistema Operativo huésped falla y se alcanza el límite de tiempo, la máquina virtual se apaga.

Apagar las máquinas virtuales protegidas en el sitio de producción cuando se ejecuta un plan de recuperación, es importante por algunas razones. En primer lugar al cerrarlo, se desactiva el Sistema Operativo huésped y las aplicaciones antes de que se produzca la sincronización de almacenamiento final. En segundo lugar, evita el conflicto potencial de tener máquinas virtuales con configuraciones de red duplicadas en la misma red.

Opcionalmente, la acción de apagado se puede cambiar para simplemente apagar las máquinas virtuales. Apagar las máquinas virtuales no las cierra siguiendo el procedimiento estándar, pero esta opción puede reducir los tiempos de recuperación en situaciones donde el sitio protegido y el sitio de recuperación, mantienen la conectividad de red durante la ejecución (no prueba) de un plan de recuperación. Un ejemplo de esto es un escenario para evitar desastres.

Una acción de inicio se aplica a una máquina virtual que es recuperada por Site Recovery Manager. Encender una máquina virtual después de que se recupera es la configuración predeterminada. En algunos casos, podría ser conveniente recuperar una máquina virtual, pero dejarla apagada. Las acciones de inicio se aplican cuando se prueba o ejecuta un plan de recuperación.

8.5 Pasos Previos y Posteriores al Encendido

Site Recovery Manager puede ejecutar un comando desde el servidor de Site Recovery Manager en el sitio de recuperación, antes y después de encender una máquina virtual. Un caso de uso común es llamar a un "script" para ejecutar acciones como realizar cambios en Servidor de Nombre de Dominio (Domain Name Server o DNS) y modificar la configuración de la aplicación en un servidor físico.

La ejecución de un script dentro de una máquina virtual, también se admite como un paso de posterior al encendido. Site Recovery Manager también puede mostrar una solicitud visual como un paso de encendido previo o posterior. Este aviso se puede usar para recordarle a un operador que realice una llamada al propietario de una aplicación, modifique la configuración de un enrutador o verifique el estado de una máquina física.

8.6 Personalización de la dirección IP

La propiedad de recuperación de máquina virtual más comúnmente modificada, es la personalización de dirección IP. La mayoría de las organizaciones tienen diferentes rangos de direcciones IP en los sitios protegidos y de recuperación. Cuando se produce un error en una máquina virtual, Site Recovery Manager puede cambiar automáticamente la configuración de red (dirección IP, puerta de enlace predeterminada, servidores de nombre de dominio, etc.) de la(s) tarjeta(s) de red virtual, en la máquina virtual. Esta funcionalidad está disponible tanto en operaciones de conmutación por error como en operaciones de recuperación.

Hay múltiples modos de personalización de IP en Site Recovery Manager. Por ejemplo, es posible crear una regla de personalización de IP que asigne un rango de direcciones IP a otro distinto. En la siguiente figura, un administrador ha mapeado 10.10.10.0/24 a 10.10.20.0/24.

9. Flujos de trabajo

Después de crear un plan de recuperación, lo mejor es probar el plan de recuperación para verificar que funcione como se espera.

9.1 Pruebas y limpieza

Después de crear un plan de recuperación, lo mejor es probar el plan de recuperación para verificar que funcione como se espera.

Site Recovery Manager presenta un mecanismo de prueba no disruptivo para facilitar las pruebas en cualquier momento. Es común que una organización pruebe un plan de recuperación varias veces después de su creación, para resolver los problemas encontrados la primera vez que se probó el plan de recuperación.

Al probar un plan de recuperación, hay una opción para replicar los cambios recientes, que está habilitado de forma predeterminada. La replicación de cambios recientes proporcionará los datos más recientes para el proceso de prueba. Sin embargo, también alargará la cantidad de tiempo requerido para recuperar máquinas virtuales en el plan de recuperación, ya que la replicación debe finalizar antes de que se recuperen las máquinas virtuales.

Una pregunta frecuente es si la replicación continúa durante la prueba de un plan de recuperación. La respuesta es sí. VMware Site Recover Manager utiliza instantáneas: instantáneas del arreglo (o clones) con replicación de arreglos, o instantáneas de máquina virtual con vSphere Replication como parte del proceso de prueba del plan de recuperación. Este enfoque permite encender y modificar máquinas virtuales recuperadas como parte de la prueba mientras la replicación continúa evitando violaciones de Punto de Retorno Objetivo (Return Point Objective o RPO).

En este punto, los administradores del sistema operativo invitado y los propietarios de las aplicaciones pueden iniciar sesión en sus máquinas virtuales recuperadas para verificar la funcionalidad, realizar pruebas adicionales, etc.

Site Recovery Manager admite fácilmente períodos de prueba del plan de recuperación de diferentes longitudes, desde unos pocos minutos hasta varios días. Sin embargo, las pruebas más largas tienden a consumir más capacidad de almacenamiento en el sitio de recuperación. Esto se debe a la naturaleza del crecimiento instantáneo a medida que los datos se escriben en la "instantánea" o "snapshot".

Cuando se completa la prueba, se debe "limpiar" un plan de recuperación. Esta operación apaga máquinas virtuales y elimina instantáneas asociadas con la prueba. Una vez que finaliza el flujo de trabajo de limpieza, el plan de recuperación está listo para probar o ejecutar.

9.2 Migración planificada y recuperación de desastres

Ejecutar un plan de recuperación difiere de probar un plan de recuperación. Probar un plan de recuperación no interrumpe las máquinas virtuales en el sitio protegido o de protección.

Al ejecutar un plan de recuperación, Site Recovery Manager intentará apagar las máquinas virtuales en el sitio protegido (de protección), o realizará el cross-vCenter vMotion si ejecuta una migración planificada y utiliza almacenamiento extendido, antes de que el proceso de recuperación comience en el sitio de recuperación. Los planes de recuperación se ejecutan cuando ocurre un desastre y se requiere "failover", o cuando se desea una migración planificada.

Al hacer clic en el botón "Ejecutar plan de recuperación", se abre una ventana de confirmación que requiere la selección de un tipo de recuperación, ya sea una migración planificada o una recuperación de desastres. En ambos casos, Site Recovery Manager intentará replicar los cambios recientes del sitio protegido al sitio de recuperación.

Se supone que para una migración planificada, la pérdida de datos no es la prioridad. Si se utiliza almacenamiento "streteched" o agrandado, cuando se realiza una migración planificada las máquinas virtuales compatibles se reubicarán utilizando "cross-vCenter vMotion".

Una migración planificada se cancelará si se encuentran errores en el flujo de trabajo. Para la recuperación de desastres, la prioridad es recuperar las cargas de trabajo lo más rápido posible después de un desastre. Un flujo de trabajo de recuperación de desastres continuará incluso si se producen errores. La selección predeterminada es una "Migración Planificada".

Después de seleccionar un tipo de recuperación, el operador también debe seleccionar una casilla de verificación de confirmación como una medida de seguridad adicional. La idea detrás de esta casilla de verificación es asegurarse de que el operador sepa que está ejecutando (sin probar) un plan de recuperación.

El primer paso para ejecutar un plan de recuperación es el intento de sincronizar el almacenamiento. Luego, las máquinas virtuales protegidas en el sitio protegido se cierran. Esto efectivamente interrumpe las máquinas virtuales y confirma los cambios finales en el disco a medida que las máquinas virtuales completan el proceso de apagado. El almacenamiento se sincroniza nuevamente para replicar cualquier cambio realizado durante el cierre de las máquinas virtuales.

La replicación se realiza dos veces para minimizar el tiempo de inactividad y la pérdida de datos. Este proceso es ligeramente diferente cuando se ejecuta un plan de recuperación en el modo de migración planificada, cuando se utiliza el almacenamiento extendido. En este caso, las máquinas virtuales que pueden migradas con vMotion al segundo sitio se migrarán primero, luego el plan continuará como se indicó anteriormente. Esto permite una migración completamente no disruptiva de las cargas de trabajo de producción de un sitio a otro.

Si el sitio protegido está fuera de línea debido a un desastre, por ejemplo, se debe seleccionar el tipo de recuperación de desastres. Site Recovery Manager aún intentará sincronizar el almacenamiento como se describe en el párrafo anterior. Dado que el sitio protegido está fuera de línea, Site Recovery Manager comenzará a recuperar máquinas virtuales en el sitio de recuperación utilizando los datos replicados más recientemente.

9.3 Re-protección y Failback

Site Recovery Manager cuenta con la capacidad de no solo recuperar de fallos sobre las cargas de trabajo de las máquinas virtuales, sino también devolverlas a su sitio original. Sin embargo, esto supone que el sitio protegido original todavía está intacto y en funcionamiento.

Un ejemplo de esto es una situación de prevención de desastres: la amenaza podría ser el aumento de las inundaciones debido a una gran tormenta, y Site Recovery Manager se usaría para migrar máquinas virtuales del sitio protegido al sitio de recuperación. Afortunadamente, el agua de la inundación cede antes de que se haya producido ningún daño, lo que deja intacto el sitio protegido.

Un plan de recuperación no puede fallar inmediatamente desde el sitio de recuperación al sitio protegido original. El plan de recuperación primero debe someterse a un flujo de trabajo de re-protección. Esta operación implica revertir la replicación y configurar el plan de recuperación para que se ejecute en la dirección opuesta.

9.4 Informes históricos

Cuando los flujos de trabajo, como la prueba y la limpieza del plan de recuperación, se realizan en Site Recovery Manager, los informes históricos se generan automáticamente. Estos informes documentan elementos tales como el nombre del flujo de trabajo, los tiempos de ejecución, las operaciones exitosas, las fallas y los mensajes de error.

Los informes históricos son útiles por una serie de razones, incluida la auditoría interna, la prueba de protección de recuperación de desastres para requisitos reglamentarios y la solución de problemas. Los informes se pueden exportar a HTML, XML, CSV o un documento de Microsoft Excel o Word.

9.5 Siguientes pasos

Automatice y orquestre sus planes de Recuperación de Desastres con Site Recovery Manager. Haga que Site Recovery Manager forme parte de sus implementaciones de vSphere 6.5 y mejore la disponibilidad de su máquina virtual y reduzca su riesgo.

Tome hoy el Hands Lab de Site Recovery Manager, regístrese para una versión de prueba gratuita de Site Recovery Manager y disfrute de los beneficios de la protección automatizada y orquestada, de sus máquinas virtuales críticas como parte integral de su plataforma de TI.

Recursos adicionales

Para obtener más información sobre VSphere Site Recovery Manager, visite las páginas del producto. A continuación hay enlaces a documentación y otros recursos:

Documentación del producto (incluye Guía de instalación, Guía de administración, Guía de API y más)
Foros comunitarios de VMTN
PREGUNTAS MÁS FRECUENTES
Guía de evaluación
Hands on Lab

¿Listo para comenzar con VMware Site Recovery Manager?

Páginas

sábado, 7 de abril de 2018

Descripción técnica de VMware Site Recovery Manager 6.5

No hay comentarios:

Publicar un comentario