¿Qué es la deduplicación de datos?

La deduplicación de datos es un proceso que elimina el exceso de copias de datos y reduce significativamente los requisitos de capacidad de almacenamiento.

¿Qué es una copia de seguridad?

La deduplicación se puede ejecutar como un proceso en línea a medida que los datos se escriben en el sistema de almacenamiento y/o como un proceso en segundo plano para eliminar los duplicados después de que los datos se escriben en el disco.

La deduplicación es una tecnología sin pérdida de datos que se ejecuta tanto como proceso en línea como en segundo plano para maximizar los ahorros. Se ejecuta de forma oportunista como un proceso en línea para que no interfiera con las operaciones del cliente y se ejecuta de forma integral en segundo plano para maximizar los ahorros.

La deduplicación está activada de forma predeterminada y el sistema la ejecuta automáticamente en todos los volúmenes y agregados sin ninguna intervención manual.

4 Habilidades en la Nube más demandadas para 2023

La sobrecarga de rendimiento es mínima para las operaciones de deduplicación, ya que se ejecuta en un dominio de eficiencia dedicado que está separado del dominio de lectura/escritura del cliente.

Se ejecuta en segundo plano, independientemente de la aplicación que se ejecute o de cómo se acceda a los datos (NAS o SAN).

Los ahorros de deduplicación se mantienen a medida que los datos se mueven, cuando los datos se replican en un sitio DR, cuando se respaldan en una bóveda o cuando se mueven entre las instalaciones, la nube híbrida y/o la nube pública.

¿Cómo funciona la deduplicación?

La deduplicación opera a nivel de bloque de 4 KB dentro de un volumen flexible completo y entre todos los volúmenes en conjunto, eliminando bloques de datos duplicados y almacenando solo bloques de datos únicos.

La principal tecnología que permite la deduplicación son las huellas dactilares, mediante firmas digitales únicas para todos los bloques de datos de 4 KB.

Cuando los datos se escriben en el sistema, el motor de deduplicación en línea escanea los bloques entrantes, crea una huella digital y almacena la huella digital en un almacén hash (estructura de datos en memoria).

Después de calcular la huella digital, se realiza una búsqueda en el almacén de hash. Tras una coincidencia de huellas dactilares en el almacén hash, el bloque de datos correspondiente a la huella dactilar duplicada (bloque donante) se busca en la memoria caché:

Si se encuentra la huella dactilar

Si se encuentra, se realiza una comparación byte por byte entre el bloque de datos actual (bloque del destinatario) y el bloque del donante como verificación para garantizar una coincidencia exacta.

En la verificación, el bloque del destinatario se comparte con el bloque del donante coincidente sin una escritura real del bloque del destinatario en el disco. Solo se actualizan los metadatos para rastrear los detalles de uso compartido.

Si no se encuentra la huella dactilar

Si el bloque donante no se encuentra en la memoria caché, el bloque donante se obtiene previamente del disco a la memoria caché para hacer una comparación byte por byte para asegurarse de que haya una coincidencia exacta.

En la verificación, el bloque del destinatario se marca como duplicado sin una escritura real en el disco. Los metadatos se actualizan para rastrear los detalles de uso compartido.

El motor de deduplicación en segundo plano funciona de la misma manera. Escaneando todos los bloques de datos en conjunto y elimina los duplicados comparando las huellas dactilares de los bloques y haciendo una comparación byte por byte para eliminar cualquier falso positivo.

Este procedimiento también asegura que no haya pérdida de datos durante la operación de deduplicación.

Beneficios de la deduplicación

Hay algunas ventajas significativas en implementar la deduplicación:

  • Funciona en almacenamiento primario, secundario y de archivos o de terceros
  • Aplicación independiente
  • Protocolo independiente
  • Gastos generales mínimos
  • Validación byte a byte
  • Se puede aplicar a datos nuevos o a datos previamente almacenados en volúmenes y LUN
  • Suele estar integrado con otras tecnologías de eficiencia de almacenamiento
  • Los ahorros debidos a la deduplicación, se pueden heredar cuando se utiliza la tecnología de replicación

Casos de uso de deduplicación

La deduplicación es útil independientemente del tipo de carga de trabajo usada. El beneficio máximo se ve en los entornos virtuales donde se utilizan múltiples máquinas virtuales para pruebas de desarrollo e implementaciones de aplicaciones.

La infraestructura de escritorio virtual (VDI) es otro muy buen candidato para la deduplicación, porque los datos duplicados entre los escritorios son muy altos.

Algunas bases de datos relacionales, como Oracle y SQL, no se benefician mucho de la deduplicación; puesto que a menudo tienen una clave única para cada registro de la base de datos, lo que evita que el motor de deduplicación los identifique como duplicados.

Configuración de la deduplicación

La deduplicación, generalmente, se habilita automáticamente en todos los nuevos volúmenes y agregados al sistema que la implementa. También se puede habilitar por volumen y/o por agregado.

Una vez habilitada, el sistema ejecuta automáticamente las operaciones en línea y en segundo plano para maximizar los ahorros.

¿Qué es una arquitectura de nube híbrida?

Artículos Relacionados
Google insta a los desarrolladores de código abierto a probar el código con fuzz

El equipo de seguridad de código abierto de Google dice que OSS-Fuzz, su servicio comunitario de fuzzing, ha ayudado a corregir más de 8000 vulnerabilidades de seguridad y otros 26 000 errores en proyectos de código abierto desde su debut en 2016. Por ello, ¡SEGUIR LEYENDO!

¿Qué significa abstracción?

La abstracción es un principio fundamental en algunos tipos de informática. Es un aspecto de diseño clave de los lenguajes de programación orientados a objetos y las interfaces de programación de aplicaciones. También es una de las ideas menos comprendidas en la programación, en parte ¡SEGUIR LEYENDO!

Earthly, una herramienta capaz de reproducir las construcciones de CI localmente

Earthly es una nueva herramienta perfecta para los DevOps que nace con el objetivo de sustituir y optimizar el trabajo que se debe de realizar ante la implementación de un proyecto. Con Earthly, se intenta sustituir a Dockerfile, Makefile, Bash u otros sistemas similares. ¡SEGUIR LEYENDO!