¿Qué es la deduplicación de datos?

La deduplicación de datos es un proceso que elimina el exceso de copias de datos y reduce significativamente los requisitos de capacidad de almacenamiento.

¿Qué es una copia de seguridad?

La deduplicación se puede ejecutar como un proceso en línea a medida que los datos se escriben en el sistema de almacenamiento y/o como un proceso en segundo plano para eliminar los duplicados después de que los datos se escriben en el disco.

La deduplicación es una tecnología sin pérdida de datos que se ejecuta tanto como proceso en línea como en segundo plano para maximizar los ahorros. Se ejecuta de forma oportunista como un proceso en línea para que no interfiera con las operaciones del cliente y se ejecuta de forma integral en segundo plano para maximizar los ahorros.

La deduplicación está activada de forma predeterminada y el sistema la ejecuta automáticamente en todos los volúmenes y agregados sin ninguna intervención manual.

4 Habilidades en la Nube más Demandadas para 2024

La sobrecarga de rendimiento es mínima para las operaciones de deduplicación, ya que se ejecuta en un dominio de eficiencia dedicado que está separado del dominio de lectura/escritura del cliente.

Se ejecuta en segundo plano, independientemente de la aplicación que se ejecute o de cómo se acceda a los datos (NAS o SAN).

Los ahorros de deduplicación se mantienen a medida que los datos se mueven, cuando los datos se replican en un sitio DR, cuando se respaldan en una bóveda o cuando se mueven entre las instalaciones, la nube híbrida y/o la nube pública.

¿Cómo funciona la deduplicación?

La deduplicación opera a nivel de bloque de 4 KB dentro de un volumen flexible completo y entre todos los volúmenes en conjunto, eliminando bloques de datos duplicados y almacenando solo bloques de datos únicos.

La principal tecnología que permite la deduplicación son las huellas dactilares, mediante firmas digitales únicas para todos los bloques de datos de 4 KB.

Cuando los datos se escriben en el sistema, el motor de deduplicación en línea escanea los bloques entrantes, crea una huella digital y almacena la huella digital en un almacén hash (estructura de datos en memoria).

Después de calcular la huella digital, se realiza una búsqueda en el almacén de hash. Tras una coincidencia de huellas dactilares en el almacén hash, el bloque de datos correspondiente a la huella dactilar duplicada (bloque donante) se busca en la memoria caché:

Si se encuentra la huella dactilar

Si se encuentra, se realiza una comparación byte por byte entre el bloque de datos actual (bloque del destinatario) y el bloque del donante como verificación para garantizar una coincidencia exacta.

En la verificación, el bloque del destinatario se comparte con el bloque del donante coincidente sin una escritura real del bloque del destinatario en el disco. Solo se actualizan los metadatos para rastrear los detalles de uso compartido.

Si no se encuentra la huella dactilar

Si el bloque donante no se encuentra en la memoria caché, el bloque donante se obtiene previamente del disco a la memoria caché para hacer una comparación byte por byte para asegurarse de que haya una coincidencia exacta.

En la verificación, el bloque del destinatario se marca como duplicado sin una escritura real en el disco. Los metadatos se actualizan para rastrear los detalles de uso compartido.

El motor de deduplicación en segundo plano funciona de la misma manera. Escaneando todos los bloques de datos en conjunto y elimina los duplicados comparando las huellas dactilares de los bloques y haciendo una comparación byte por byte para eliminar cualquier falso positivo.

Este procedimiento también asegura que no haya pérdida de datos durante la operación de deduplicación.

Beneficios de la deduplicación

Hay algunas ventajas significativas en implementar la deduplicación:

  • Funciona en almacenamiento primario, secundario y de archivos o de terceros
  • Aplicación independiente
  • Protocolo independiente
  • Gastos generales mínimos
  • Validación byte a byte
  • Se puede aplicar a datos nuevos o a datos previamente almacenados en volúmenes y LUN
  • Suele estar integrado con otras tecnologías de eficiencia de almacenamiento
  • Los ahorros debidos a la deduplicación, se pueden heredar cuando se utiliza la tecnología de replicación

Casos de uso de deduplicación

La deduplicación es útil independientemente del tipo de carga de trabajo usada. El beneficio máximo se ve en los entornos virtuales donde se utilizan múltiples máquinas virtuales para pruebas de desarrollo e implementaciones de aplicaciones.

La infraestructura de escritorio virtual (VDI) es otro muy buen candidato para la deduplicación, porque los datos duplicados entre los escritorios son muy altos.

Algunas bases de datos relacionales, como Oracle y SQL, no se benefician mucho de la deduplicación; puesto que a menudo tienen una clave única para cada registro de la base de datos, lo que evita que el motor de deduplicación los identifique como duplicados.

Configuración de la deduplicación

La deduplicación, generalmente, se habilita automáticamente en todos los nuevos volúmenes y agregados al sistema que la implementa. También se puede habilitar por volumen y/o por agregado.

Una vez habilitada, el sistema ejecuta automáticamente las operaciones en línea y en segundo plano para maximizar los ahorros.

https://ciberninjas.com/nube-hibrida/

Relacionado

¿Qué significa AaaS? Análisis como servicio

Analytics as a service (AaaS) se refiere a la provisión de software analítico y operaciones a través de tecnologías proporcionadas por la web. Estos tipos de soluciones ofrecen a las empresas una alternativa al desarrollo de configuraciones de hardware internas solo para realizar análisis comerciales. Para poner el análisis como servicio en contexto, este tipo de servicio es parte de una gama mucho más amplia de ¡SEGUIR LEYENDO!

¿Qué significa ABS? Sistema de respaldo automático

Un sistema de respaldo automático es un sistema que permite la recuperación de información almacenada en las computadoras. Las copias de seguridad automáticas son necesarias para realizar una copia de seguridad de los datos almacenados y permitir la recuperación de datos en caso de que el sistema falle. Al automatizar una copia de seguridad a través de un sistema de copia de seguridad regular, el usuario ¡SEGUIR LEYENDO!

¿Qué es el almacenamiento en la nube pública?

El almacenamiento en la nube pública es una manera fácil para que las empresas y los usuarios finales obtengan licencias de capacidad de almacenamiento de un tercero para almacenar sus datos digitales. https://ciberninjas.com/por-que-almacenamiento-nube-importante-estudiantes/ Vamos a intentar clasificar el almacenamiento en la nube pública en dos clases: almacenamiento de archivos para compartir y colaborar, y el almacenamiento para aplicaciones comerciales. Los servicios de archivos en la nube ¡SEGUIR LEYENDO!

Amazon Sidewalk: La red de Internet que Amazon quiere construir a costa de sus usuarios

Si usas Alexa, Amazon Echo o cualquier otro dispositivo de Amazon y vives en USA; quedan 10 días hasta que te inscribas en un experimento que dejará tu privacidad y seguridad personal en el limbo. El 8 de Junio, Amazon, inscribirá automáticamente a todos sus dispositivos en Amazon Sidewalk. Amazon Sidewalk es el nuevo servicio de malla inalámbrica que compartirá una pequeña porción de tu ancho ¡SEGUIR LEYENDO!

Storm (Procesador de Eventos)

Apache Storm es un framework de cálculo de procesamiento de flujo distribuido escrito principalmente en el lenguaje de programación Clojure. Originalmente creado por Nathan Marz y el equipo de BackType, el proyecto fue de código abierto después de ser adquirido por Twitter. Utiliza "spouts" y "bolts" creados a medida para definir las fuentes de información y las manipulaciones para permitir el procesamiento por lotes y distribuido ¡SEGUIR LEYENDO!

Apple corrige fallas de iPhone y macOS bajo la amenaza de un ataque aún activo

Apple lanzó cinco correcciones de seguridad, incluida la inclusión de dos vulnerabilidades en sus sistemas operativos iPhone, iPad y Mac que ya estaban siendo explotadas. Uno de ellos, rastreado como CVE-2022-32917, se puede usar para permitir que aplicaciones maliciosas ejecuten código arbitrario con privilegios de kernel. La falla se arregló con controles de límites mejorados y se lanzaron parches para los modelos iPhone 6 y posteriores, ¡SEGUIR LEYENDO!

Más de 1.500 Libros PDF en Inglés de Desarrollo Web, Programación, Seguridad, Robótica, Blockchain, Domótica y Mucho Más

La mejor lista de libros sobre lenguajes de programación en inglés de todo Internet. https://ciberninjas.com/zlibrary/ Libros de Python / Libros PHP / Libros Java / Libros Diseño Meta Listas atariarchives.org atariarchives.org pone a disposición en la Web libros, información y software para Atari y otras computadoras clásicas. Bento Bitsavers.org Bookboon: se requiere cookie de TI y programación</. (requiere @email) DZone - Hojas de trucos (gratis) Conceptf1.blogspot.com ¡SEGUIR LEYENDO!

Salir de la versión móvil