Ping by Omar Nuñez: La desduplicación

Tags:

Desduplicacion
Niveles
Tipos de políticas
Que hay que tomar en cuenta para implementar una solución de Backup hoy en día.

Hace unos años la duplicación, clonación, redundancia, centralización, fueron conceptos y palabras que repetidamente surgían en los papeles blancos, revistas, reportes y publicaciones propias al manejo de las plataformas tecnológicas, data centers, y IT Operations; desde hace un tiempo prudente a la fecha, viene surgiendo el concepto desduplicacion, de una manera directamente proporcional al avance que se ha tenido en los primeros conceptos referidos por lo que no es un concepto nuevo, pero sí de uso limitado.

La desduplicacion permite la eliminación de datos redundantes al sistema de Backup, lo que reduce costes de adquisición, almacenamiento, tiempo, y manejo. Actualmente todas las tecnologías, con uno u otro nombre se dividen en:

Desduplicación a nivel de bloque

La desduplicación a nivel de bloque ofrece una eficiencia general de almacenamiento mucho mayor. Funciona buscando instancias de información redundante examinando fragmentos de datos de 4 KB de tamaño o mayores, y solo almacena una copia independientemente del número de copias que haya. Las copias se sustituyen por punteros que hacen referencia al bloque de datos original de una manera transparente para el usuario, quien sigue utilizando un archivo como si todos los bloques de datos que contiene fueran solo suyos.

Desduplicación a nivel de archivo

Desduplicación a nivel de archivo busca archivos que sean exactamente iguales y solo almacena una copia, poniendo punteros tal como Windows hace con los Shortcuts de archivos en lugar de las otras copias. Aunque la desduplicación de archivos es más eficiente que no realizar ninguna desduplicación, un cambio mínimo en el archivo dará como resultado que se almacene una copia adicional del mismo.

Con cualquiera de los dos niveles se puede llegar a un nivel de eficiencia entre 50y 90% adicional al sistema tradicional, por ejemplo uno de sus usuarios envía un reporte de Excel, cargado de gráficos, imágenes y ratios de resultados de mes, al poseer fotos el archivo de 7 megas es enviado a 11 personas de nivel directivo. Al momento de su sistema de Backup respaldar este solo mail se convertirá en 84 megas sin contar con ni un solo foward o replay with attachment que se realice. Multiplique esta actividad por instancias de datos duplicados por toda la organización y entenderá porque el crecimiento exponencial de la data, así como el porqué la desduplicacion ahorra tanto.

Aunque la desduplicación puede ahorrar enormes cantidades de espacio de disco, su concentración hace que un almacenamiento correcto tenga una importancia crítica. Si un bloque de datos encontrado en varios orígenes (como en el ejemplo anterior del archivo excel) se desduplica y luego se pierde, todas las copias de seguridad asociadas al mismo quedarán dañadas, ya que los datos de origen ya no existen. También se aplica a copias de seguridad completas de sistemas. Si se produce una catástrofe, un solo bloque de datos dañado correspondiente a una parte vital del sistema operativo Windows hará que todas las copias de seguridad queden inutilizables en caso de recuperación del sistema. Estudie el uso de una matriz RAID para almacenar datos de desduplicación para proporcionar un nivel de protección adicional.

Estilos política de Desduplicacion

Desduplicación en destino

La desduplicación en destino tiene lugar después de realizar la copia de seguridad del origen, cuando ya los datos están en la ubicación de almacenamiento de destino, normalmente un nodo de almacenamiento conectado (NAS). Su desventaja es el uso de un posible ancho de banda limitado especialmente para casos de backup en instalaciones remotas.

Desduplicación en origen

La desduplicación en origen (o del servidor) es la que se realiza en el servidor que contiene los datos y luego son enviados vía análisis de algoritmo de paquetes al servidor de almacenamiento. Su desventaja es el uso de ciclos de CPU en el servidor origen.

La elección entre la desduplicación en origen o en destino dependerá de cuál es la limitación (consumo general de proceso de CPU de cliente o consideraciones de ancho de banda) más importante para su organización. Una mala elección podría ocasionar en la eliminación total de un proyecto de desduplicacion por colapsos en la red, o respuesta nula de un servidor por sobre procesamiento.

Que hay que tener en cuenta para implementar una solución de Backup basada en Desduplicación

Hay muchas soluciones, con muchas nuevas alternativas para el respaldo de la información, un sistema a la vanguardia en equipos de alto desempeño entiendo que definitivamente tiene que contar con desduplicacion desde las estaciones de trabajo, maquinas virtuales y servidores. Permitiendo el manejo de imágenes a estos últimos actualizables, para permitir tener una imagen de archivos y sistema operativo de nuestros servidores actualizada de manera automática y remota. Las opciones son varias, pero partiendo de un equipo de alto desempeño se podría desglosar en orden descendente a partir de los siguientes tópicos.

La solución a implementar debería de cumplir con los siguientes requisitos:

- Permitir los dos niveles de Desduplicacion, a nivel de archivo y nivel de bloque.
- Permitir una desduplicacion tanto en origen como en destino.
- Poseer un algoritmo inteligente en despublicacion origen que consuma menos CPU que los primeros algoritmos de la desduplicacion de años atrás.
- Tener versiones Linux, Windows para servidores así como poder integras VIP Workstation.
- Tener capacidad de trabajar con maquinas virtuales.
- Copias de imágenes incrementales y automatizadas.
- Modulo Disaster recovery.
- Integración a sistema NAS.

Imagenes Acronis Website

Ping by Omar Nuñez

domingo, marzo 14

La desduplicación – Tendencia en Backup

0 comentarios:

Publicar un comentario

Seguir Blog en Facebook

Vistas de página en total

Buscar este blog

Blog Archive

Meta

Mi lista de blogs

Labels

Omar Nuñez