¿Qué es la deduplicación de datos?

La deduplicación de datos es un proceso que elimina el exceso de copias de datos y reduce significativamente los requisitos de capacidad de almacenamiento.

¿Qué es una copia de seguridad?

La deduplicación se puede ejecutar como un proceso en línea a medida que los datos se escriben en el sistema de almacenamiento y/o como un proceso en segundo plano para eliminar los duplicados después de que los datos se escriben en el disco.

La deduplicación es una tecnología sin pérdida de datos que se ejecuta tanto como proceso en línea como en segundo plano para maximizar los ahorros. Se ejecuta de forma oportunista como un proceso en línea para que no interfiera con las operaciones del cliente y se ejecuta de forma integral en segundo plano para maximizar los ahorros.

La deduplicación está activada de forma predeterminada y el sistema la ejecuta automáticamente en todos los volúmenes y agregados sin ninguna intervención manual.

4 Habilidades en la Nube más Demandadas para 2024

La sobrecarga de rendimiento es mínima para las operaciones de deduplicación, ya que se ejecuta en un dominio de eficiencia dedicado que está separado del dominio de lectura/escritura del cliente.

Se ejecuta en segundo plano, independientemente de la aplicación que se ejecute o de cómo se acceda a los datos (NAS o SAN).

Los ahorros de deduplicación se mantienen a medida que los datos se mueven, cuando los datos se replican en un sitio DR, cuando se respaldan en una bóveda o cuando se mueven entre las instalaciones, la nube híbrida y/o la nube pública.

¿Cómo funciona la deduplicación?

La deduplicación opera a nivel de bloque de 4 KB dentro de un volumen flexible completo y entre todos los volúmenes en conjunto, eliminando bloques de datos duplicados y almacenando solo bloques de datos únicos.

La principal tecnología que permite la deduplicación son las huellas dactilares, mediante firmas digitales únicas para todos los bloques de datos de 4 KB.

Cuando los datos se escriben en el sistema, el motor de deduplicación en línea escanea los bloques entrantes, crea una huella digital y almacena la huella digital en un almacén hash (estructura de datos en memoria).

Después de calcular la huella digital, se realiza una búsqueda en el almacén de hash. Tras una coincidencia de huellas dactilares en el almacén hash, el bloque de datos correspondiente a la huella dactilar duplicada (bloque donante) se busca en la memoria caché:

Si se encuentra la huella dactilar

Si se encuentra, se realiza una comparación byte por byte entre el bloque de datos actual (bloque del destinatario) y el bloque del donante como verificación para garantizar una coincidencia exacta.

En la verificación, el bloque del destinatario se comparte con el bloque del donante coincidente sin una escritura real del bloque del destinatario en el disco. Solo se actualizan los metadatos para rastrear los detalles de uso compartido.

Si no se encuentra la huella dactilar

Si el bloque donante no se encuentra en la memoria caché, el bloque donante se obtiene previamente del disco a la memoria caché para hacer una comparación byte por byte para asegurarse de que haya una coincidencia exacta.

En la verificación, el bloque del destinatario se marca como duplicado sin una escritura real en el disco. Los metadatos se actualizan para rastrear los detalles de uso compartido.

El motor de deduplicación en segundo plano funciona de la misma manera. Escaneando todos los bloques de datos en conjunto y elimina los duplicados comparando las huellas dactilares de los bloques y haciendo una comparación byte por byte para eliminar cualquier falso positivo.

Este procedimiento también asegura que no haya pérdida de datos durante la operación de deduplicación.

Beneficios de la deduplicación

Hay algunas ventajas significativas en implementar la deduplicación:

  • Funciona en almacenamiento primario, secundario y de archivos o de terceros
  • Aplicación independiente
  • Protocolo independiente
  • Gastos generales mínimos
  • Validación byte a byte
  • Se puede aplicar a datos nuevos o a datos previamente almacenados en volúmenes y LUN
  • Suele estar integrado con otras tecnologías de eficiencia de almacenamiento
  • Los ahorros debidos a la deduplicación, se pueden heredar cuando se utiliza la tecnología de replicación

Casos de uso de deduplicación

La deduplicación es útil independientemente del tipo de carga de trabajo usada. El beneficio máximo se ve en los entornos virtuales donde se utilizan múltiples máquinas virtuales para pruebas de desarrollo e implementaciones de aplicaciones.

La infraestructura de escritorio virtual (VDI) es otro muy buen candidato para la deduplicación, porque los datos duplicados entre los escritorios son muy altos.

Algunas bases de datos relacionales, como Oracle y SQL, no se benefician mucho de la deduplicación; puesto que a menudo tienen una clave única para cada registro de la base de datos, lo que evita que el motor de deduplicación los identifique como duplicados.

Configuración de la deduplicación

La deduplicación, generalmente, se habilita automáticamente en todos los nuevos volúmenes y agregados al sistema que la implementa. También se puede habilitar por volumen y/o por agregado.

Una vez habilitada, el sistema ejecuta automáticamente las operaciones en línea y en segundo plano para maximizar los ahorros.

https://ciberninjas.com/nube-hibrida/

Relacionado

¿Qué es el almacenamiento en la nube pública?

El almacenamiento en la nube pública es una manera fácil para que las empresas y los usuarios finales obtengan licencias de capacidad de almacenamiento de un tercero para almacenar sus datos digitales. https://ciberninjas.com/por-que-almacenamiento-nube-importante-estudiantes/ Vamos a intentar clasificar el almacenamiento en la nube pública en dos clases: ¡SEGUIR LEYENDO!

Introducción al protocolo SSH

Descubramos qué es SSH (Secure SHell) y por qué es tan importante para establecer conexiones seguras entre clientes y servidores. En esta guía, presentaremos uno de los protocolos de red más importantes, llamado SSH (Secure SHell , shell seguro). SSH es un protocolo que asegura la ¡SEGUIR LEYENDO!

¿Cómo hacer una conexión SSH?

Analicemos en detalle el procedimiento necesario para conectar dos terminales en Windows y Linux a través del protocolo SSH. En esta lección mostraremos en detalle cómo hacer una conexión SSH . Supongamos que no tenemos nuestro ordenador disponible, ya sea del trabajo o personal, y por ¡SEGUIR LEYENDO!

Características principales de SSH

Veamos las principales características del protocolo de red SSH: Privacidad, integridad, autenticación, autorización y tunelización En la lección anterior revisamos cómo hacer una conexión SSH entre un cliente SSH y un servidor. En esta lección presentaremos en detalle las diversas características del protocolo SSH. Hemos visto ¡SEGUIR LEYENDO!

Cómo proteger tu cuenta de GitHub con la autenticación de doble factor?

GitHub notifico a los desarrolladores y administradores que usen el sitio web de la compañía, que protejan sus cuentas mediante la autenticación de doble factor. https://ciberninjas.com/github-copilot-aumenta-usuarios-gracias-chatgpt/ El cambio hacia la autenticación de doble factor es para todos los usuarios desde el 13 de Marzo y será ¡SEGUIR LEYENDO!