¿Qué es la deduplicación de datos?

La deduplicación de datos es un proceso que elimina el exceso de copias de datos y reduce significativamente los requisitos de capacidad de almacenamiento.

¿Qué es una copia de seguridad?

La deduplicación se puede ejecutar como un proceso en línea a medida que los datos se escriben en el sistema de almacenamiento y/o como un proceso en segundo plano para eliminar los duplicados después de que los datos se escriben en el disco.

La deduplicación es una tecnología sin pérdida de datos que se ejecuta tanto como proceso en línea como en segundo plano para maximizar los ahorros. Se ejecuta de forma oportunista como un proceso en línea para que no interfiera con las operaciones del cliente y se ejecuta de forma integral en segundo plano para maximizar los ahorros.

La deduplicación está activada de forma predeterminada y el sistema la ejecuta automáticamente en todos los volúmenes y agregados sin ninguna intervención manual.

4 Habilidades en la Nube más Demandadas para 2024

La sobrecarga de rendimiento es mínima para las operaciones de deduplicación, ya que se ejecuta en un dominio de eficiencia dedicado que está separado del dominio de lectura/escritura del cliente.

Se ejecuta en segundo plano, independientemente de la aplicación que se ejecute o de cómo se acceda a los datos (NAS o SAN).

Los ahorros de deduplicación se mantienen a medida que los datos se mueven, cuando los datos se replican en un sitio DR, cuando se respaldan en una bóveda o cuando se mueven entre las instalaciones, la nube híbrida y/o la nube pública.

¿Cómo funciona la deduplicación?

La deduplicación opera a nivel de bloque de 4 KB dentro de un volumen flexible completo y entre todos los volúmenes en conjunto, eliminando bloques de datos duplicados y almacenando solo bloques de datos únicos.

La principal tecnología que permite la deduplicación son las huellas dactilares, mediante firmas digitales únicas para todos los bloques de datos de 4 KB.

Cuando los datos se escriben en el sistema, el motor de deduplicación en línea escanea los bloques entrantes, crea una huella digital y almacena la huella digital en un almacén hash (estructura de datos en memoria).

Después de calcular la huella digital, se realiza una búsqueda en el almacén de hash. Tras una coincidencia de huellas dactilares en el almacén hash, el bloque de datos correspondiente a la huella dactilar duplicada (bloque donante) se busca en la memoria caché:

Si se encuentra la huella dactilar

Si se encuentra, se realiza una comparación byte por byte entre el bloque de datos actual (bloque del destinatario) y el bloque del donante como verificación para garantizar una coincidencia exacta.

En la verificación, el bloque del destinatario se comparte con el bloque del donante coincidente sin una escritura real del bloque del destinatario en el disco. Solo se actualizan los metadatos para rastrear los detalles de uso compartido.

Si no se encuentra la huella dactilar

Si el bloque donante no se encuentra en la memoria caché, el bloque donante se obtiene previamente del disco a la memoria caché para hacer una comparación byte por byte para asegurarse de que haya una coincidencia exacta.

En la verificación, el bloque del destinatario se marca como duplicado sin una escritura real en el disco. Los metadatos se actualizan para rastrear los detalles de uso compartido.

El motor de deduplicación en segundo plano funciona de la misma manera. Escaneando todos los bloques de datos en conjunto y elimina los duplicados comparando las huellas dactilares de los bloques y haciendo una comparación byte por byte para eliminar cualquier falso positivo.

Este procedimiento también asegura que no haya pérdida de datos durante la operación de deduplicación.

Beneficios de la deduplicación

Hay algunas ventajas significativas en implementar la deduplicación:

  • Funciona en almacenamiento primario, secundario y de archivos o de terceros
  • Aplicación independiente
  • Protocolo independiente
  • Gastos generales mínimos
  • Validación byte a byte
  • Se puede aplicar a datos nuevos o a datos previamente almacenados en volúmenes y LUN
  • Suele estar integrado con otras tecnologías de eficiencia de almacenamiento
  • Los ahorros debidos a la deduplicación, se pueden heredar cuando se utiliza la tecnología de replicación

Casos de uso de deduplicación

La deduplicación es útil independientemente del tipo de carga de trabajo usada. El beneficio máximo se ve en los entornos virtuales donde se utilizan múltiples máquinas virtuales para pruebas de desarrollo e implementaciones de aplicaciones.

La infraestructura de escritorio virtual (VDI) es otro muy buen candidato para la deduplicación, porque los datos duplicados entre los escritorios son muy altos.

Algunas bases de datos relacionales, como Oracle y SQL, no se benefician mucho de la deduplicación; puesto que a menudo tienen una clave única para cada registro de la base de datos, lo que evita que el motor de deduplicación los identifique como duplicados.

Configuración de la deduplicación

La deduplicación, generalmente, se habilita automáticamente en todos los nuevos volúmenes y agregados al sistema que la implementa. También se puede habilitar por volumen y/o por agregado.

Una vez habilitada, el sistema ejecuta automáticamente las operaciones en línea y en segundo plano para maximizar los ahorros.

https://ciberninjas.com/nube-hibrida/

Relacionados