Almacenamiento: Nuevas Tecnologías

Almacenamiento: Nuevas tecnologías

Introducción:

Los equipos informáticos, los grandes servidores de redes, y por supuesto, las propias aplicaciones, son cada vez mayores y más voraces consumidores de almacenamiento masivo.

Los sistemas tradicionales, e incluso los propios discos magnéticos o discos duros, a pesar de su rápida evolución e incremento de capacidad y velocidad, se hacen insuficientes para las misiones que de ellos requerimos.

Podemos recordar grandes sistemas de cinta, de pocos KB de capacidad, y compararlos con los dispositivos actuales, de incluso menores dimensiones, pero con capacidades de varios TB.

Del mismo modo, aquellos grandes discos o cartuchos removibles de pocos MB, compiten ahora con unidades de tan sólo 3,5" y capacidades de hasta 4 GB., e incluso con dispositivos de 1,8" y varios cientos de MB.

Por supuesto, el otro gran problema de las aplicaciones, dada la ingente cantidad de datos, es el tiempo de acceso a los mismos, que ha de permitir el proceso de la información de un modo tal que sea "útil" para el usuario.

La seguridad de los datos es el último eslabón de este entramado, ya que si todos esos datos no son protegidos adecuadamente, cualquier fallo en el sistema provoca graves pérdidas económicas e incluso daños irreparables.

Por ello, y para cubrir todos estos objetivos, la tecnología de los dispositivos de almacenamiento ha evolucionado en los últimos años de un modo realmente espectacular, dando paso al desarrollo de nuevos productos, cuyos límites y aplicaciones son aún poco conocidos.

Básicamente, podemos dividir estos productos en 5 grandes grupos, claramente diferenciados.

Dispositivos RAID:

En 1987 surge el concepto de RAID o Redundant Arrays of Inexpensive Disks (matrices redundantes de discos económicos), que soluciona, por un lado, el problema del almacenamiento y del tiempo de acceso, y por otro la seguridad de los datos, así como los tiempos de parada del sistema.

Básicamente se fundamentan en el concepto de dividir la información en bloques o segmentos, cada uno almacenado en unidades de disco separadas, y con determinadas medidas de redundancia de los datos, lo que implica un menor riesgo de pérdida de información en caso de fallo, además de un menor tiempo de acceso a la información, ya que se comportan como unidades diferentes suministrando información en paralelo a un "bus" más ancho.

Los sistemas RAID pueden estar basados en hardware o en software. La ventaja de los primeros es su independencia de la plataforma o sistema operativo, ya que son vistos por éste como un gran disco duro más, y además son mucho más rápidos, entre otras ventajas. Los sistemas RAID software no son implementaciones adecuadas en la mayoría de los casos, y cada vez son menos empleados.

Evidentemente, hay varias formas de llevar a cabo las funciones de un RAID, y es lo que se ha dado en llamar niveles RAID. Actualmente se reconocen básicamente 6 niveles:

RAID 0: Los datos se fraccionan en bloques entre 2 y 16 KB, y se escriben en matrices de 2 o más discos. Los bloques de datos, o segmentos, se escriben secuencialmente, mediante un sistema de "interleaving", es decir, el primer bloque en el primer disco, el 2º bloque en el segundo disco, y así sucesivamente. Este sistema esta pensado para situaciones en las que se requiere alta velocidad, pero no seguridad, ya que el fallo de cualquiera de los discos implica la pérdida de los datos y la parada del sistema.
Ventajas: Proporciona el mejor tiempo de acceso, por ejemplo para aplicaciones gráficas.
Inconvenientes: No ofrece protección de los datos.

RAID 1: Cada segmento es almacenado en dos discos, por lo que si uno falla, la integridad de los datos es total. En algunos sistemas, incluso cada conjunto de discos es manejado por una controladora diferente, a modo de duplicado completo. Enfatiza la seguridad frente al tiempo de acceso.
Ventajas: Proporciona un buen tiempo de acceso para pequeños bloques de datos y el mayor grado de seguridad de los datos.
Inconvenientes: Se duplica el coste, al duplicar todos o casi todos los elementos.

RAID 2: Similar al nivel 0, pero con la peculiaridad de añadir redundancia (bits de paridad o códigos de corrección de errores) y de segmentar los datos en bytes o incluso bits en lugar de bloques. Al final de la matriz, en varios discos independientes de los de datos, se almacena la información que permite la recuperación de los errores.
Ventajas: Proporciona un tiempo de acceso razonable y seguridad relativa.
Inconvenientes: El coste es elevado, pues requiere varios discos extra.

RAID 3: Se almacena 1 bit en cada disco, y un bit de paridad por cada byte en un disco adicional.
Ventajas: Proporciona gran velocidad para grandes cantidades de información.
Inconvenientes: No es adecuado para pequeños bloques de datos.

RAID 4: Es similar al nivel 0, pero con corrección de errores.
Ventajas: Buen tiempo de acceso.
Inconvenientes: No es adecuado para grandes bloques de datos.

RAID 5: Es el más generalizado por su equilibrio de resultados. Se distribuyen los bloques de datos entre todos los discos, mezclados con los datos de corrección de errores. Ello evita la necesidad de acceder a todos los discos para una sola operación, y por tanto permite realizar varias lecturas y escrituras simultáneas.
Ventajas: Proporciona un buen tiempo de acceso y gran seguridad de los datos a un precio razonable.
Inconvenientes: No es aconsejable para grandes bloques de información.

La mayoría de los sistemas de redundancia de los RAID, conllevan la pérdida de alrededor de un 20% de la capacidad de los discos en el almacenamiento de los datos de paridad.

Algo muy importante en los sistemas RAID es el uso de redundancia física, es decir, equipamiento extra que permite, en caso de fallo de algún elemento del RAID, su "recambio" automático, lo que evita la parada del sistema.

Por lo general, todos los RAID incorporan fuentes de alimentación redundantes, discos redundantes e incluso controladoras redundantes.

Pero lo más interesante es la forma en que dichos repuestos entran en funcionamiento, ya que para evitar su desgaste, es altamente recomendable que en condiciones normales no estén activos (sin alimentación), para que no sufran ningún desgaste, pues de lo contrario no serían útiles en caso de fallo de otra unidad, por su posibilidad de fallo al existir un "desgaste" por tiempo de uso.

Cuando la unidad de repuesto no esta en el sistema, sino que ha de ser "insertada" o conectada por el usuario (sin necesidad de apagar el RAID), se denomina "hot plug" (inserción en caliente).

Cuando un disco de repuesto se mantiene en funcionamiento (alimentado), se denomina "hot spare" (reposición en caliente). Con la única ventaja de una mayor velocidad de su entrada en funcionamiento y de la reconstrucción de los datos en caso de que otra unidad falle.

Las unidades "hot fix" (reparación en caliente), también denominadas "cold/warm spare", son las que están insertadas en el sistema, pero se mantienen desconectadas hasta el momento en que otra unidad falla, entrando automáticamente en funcionamiento por medio de la gestión inteligente de la controladora RAID.

Algunos RAID integran simultáneamente varias de estas técnicas, por ejemplo "hot spare" para unidades de reserva y "hot plug" para sustituir las unidades averiadas.

Es importante tener en cuenta que, tras el fallo de una unidad de disco, el sistema ha de reconstruir los datos de la unidad que ha fallado en la que la ha de sustituir, lo que conlleva la lectura de los otros discos, así como de los datos de paridad, con el consiguiente período de "ocupación" del RAID. Algunos sistemas permiten que esto se haga automáticamente y sin detener el funcionamiento del RAID, aunque lógicamente el acceso a los datos será relativo, pues éstos pueden estar en el disco dañado.

Otra gran ventaja de la tecnología RAID es la posibilidad de conectar un sistema de este tipo a varios "hosts" simultáneamente, al existir la posibilidad de integrar en el sistema varias controladoras SCSI.

Algunos sistemas RAID incorporan varios bancos de discos, denominados "ranks", lo que permite simultanear varios niveles RAID (1 por cada banco), logrando optimizar las prestaciones del sistema y adecuándolas al máximo en función de los tipos de datos que se han de almacenar en cada banco.

La mayoría de los sistemas RAID incorporan memoria caché de lectura, lo que permite incrementar hasta en 300 veces los tiempos de acceso.

Dispositivos y librerías ópticas:

El almacenamiento óptico ha evolucionado en los últimos años con la reducción de los tamaños de las unidades y de sus precios. Sin embargo, su punto débil sigue siendo el tiempo medio de acceso, que por lo general no es menor de 35 ms., comparado con los discos duros o sistemas RAID, que llegan hasta los 6-7 ms.

Actualmente existen unidades magneto-ópticas de 3.5" de hasta 128 MB., y unidades de 5.25" de 650 KB., 1 GB., 1.3 GB. y hasta 1.5 GB.

El mayor problema es la incompatibilidad existente entre algunos fabricantes e incluso entre dispositivos ya que, por ejemplo, la mayoría de las unidades de 1 GB., no son capaces de leer el formato más antiguo, de 650 KB. Esto ha sido superado con las unidades de 1.3 GB.

Hay unidades de tipo WORM (una sola escritura, múltiples lecturas), que poco a poco están siendo reemplazadas, por las nuevas unidades magneto-ópticas que, al tener una capacidad "multifunción", les permite trabajar con cartuchos tipo WORM.

La gran ventaja de estas unidades, frente a los discos duros, es el bajo coste por megabyte, dado el precio de los cartuchos. Por ello, su uso óptimo es el de grandes librerías o archivos, especialmente de bibliotecas de imágenes, archivo documental, etc.

Para ello se han diseñado las librerías o jukebox, con capacidades de almacenamiento desde 6,5 GB hasta 300 GB., en función del tipo de cartucho y del número de los mismos.

Estos dispositivos son verdaderos autómatas, que se encargan de seleccionar el cartucho requerido e insertarlo en la unidad magneto-óptica, y retirarlo de la misma cuando se requiere otro cartucho diferente.

Algunos incluso integran varias unidades magneto-ópticas, lo que permite reducir los tiempos de acceso, ya que por lo general, el tiempo de cambio de un cartucho suele ser de menos de 10 segundos.

Para el acceso a la información de los jukebox, se crean sistemas de ficheros virtuales (VFS o Virtual File System), por los cuales, el usuario accede al jukebox como si se tratase de un gran disco duro, de capacidad igual a la de la suma de las capacidades de todos los cartuchos (dos caras por cada uno) insertados en el propio jukebox.

Otra forma de uso de los jukebox se denomina HSM o "Hierarchical Storage Management System", que podemos traducir como sistema de gestión de archivo automatizado, que automáticamente gestiona el sistema de ficheros almacenados en discos duros, de modo que los ficheros menos utilizados son almacenados en el jukebox, dejando el espacio libre para otros ficheros que son requeridos con mayor frecuencia. Si los ficheros del jukebox son requeridos de nuevo, vuelven a ser traspasados al disco duro.

Por último están apareciendo dispositivos tipo jukebox que integran una interfaz Ethernet en lugar de SCSI, y un sistema de manejo de los ficheros tipo NFS, lo que permite su integración en la red como si se tratara de un servidor de ficheros más, con las ventajas evidentes de evitar el sofisticado software requerido para el manejo de los jukebox SCSI.

Ya existen también librerías de CD-ROM, y aunque su uso no esta muy extendido, podemos esperar un gran desarrollo de este tipo de dispositivos, en un tiempo muy breve.

Por supuesto tampoco podemos olvidar los nuevos dispositivos "floptical", que permiten, mediante la combinación de tecnologías ópticas y magnéticas, almacenar hasta 21 MB en disquetes de 3.5", del formato que hasta ahora sólo había sido capaz de almacenar hasta 2.88 MB.

Unidades y librerías de cinta:

Evidentemente, los dispositivos por excelencia para el archivo de la información, y especialmente para su conservación como medida de seguridad (copia de los datos existentes en otros tipos de dispositivos), siguen siendo las unidades magnéticas o de cinta. La razón fundamental, su precio, el menor de entre todos los dispositivos de almacenamiento actuales.

Desde los conocidos sistemas de bobina abierta como las unidades de 9 pistas (1/2") con capacidades de hasta 220 MB., se ha evolucionado pasando por:

Unidades QIC (1/4"), tradicionales cartuchos con capacidades desde 60 MB hasta 4 GB. y velocidades de transferencia de hasta 5 Megabytes por segundo.

Unidades DAT de 4 mm., con capacidades de hasta 16 GB. y velocidad de transferencia de hasta 1,5 MB/seg., preparadas para realizar a gran velocidad la búsqueda de los datos.

Unidades de cinta de 8 mm., de hasta 25 GB., y velocidad de transferencia de hasta 500 Kbytes por segundo.

Pero donde se ha producido una mayor evolución, al igual que en el caso de los dispositivos magneto-ópticos, ha sido en los jukebox de cintas, también denominados librerías de cintas o "stackers".

Existen librerías de cintas de 4 y 8 mm., cuyo funcionamiento es sumamente parecido, con capacidades de 8, 16, 32 y hasta 40 cintas, llegando, en algunos casos, a cientos de cintas.

Se trata de sofisticadas robóticas, de grandes prestaciones, que incorporan incluso varios canales SCSI para el acceso simultáneo de varios hosts, que suelen utilizarse con sistemas HSM, para el archivo y migración automatizada de ficheros.

Con estos mecanismos, se logran capacidades de almacenamiento y backup de hasta 4 o 5 Terabytes.

Algunos de estos dispositivos permiten incluso realizar duplicados automáticos de cintas, sin necesidad de transferir los datos al host.

Autor: Jordi Palet

Publicado por: Comunicaciones World (Abril 1996)

	RAID 0: Los datos se fraccionan en bloques entre 2 y 16 KB, y se escriben en matrices de 2 o más discos. Los bloques de datos, o segmentos, se escriben secuencialmente, mediante un sistema de "interleaving", es decir, el primer bloque en el primer disco, el 2º bloque en el segundo disco, y así sucesivamente. Este sistema esta pensado para situaciones en las que se requiere alta velocidad, pero no seguridad, ya que el fallo de cualquiera de los discos implica la pérdida de los datos y la parada del sistema. Ventajas: Proporciona el mejor tiempo de acceso, por ejemplo para aplicaciones gráficas. Inconvenientes: No ofrece protección de los datos.
	RAID 1: Cada segmento es almacenado en dos discos, por lo que si uno falla, la integridad de los datos es total. En algunos sistemas, incluso cada conjunto de discos es manejado por una controladora diferente, a modo de duplicado completo. Enfatiza la seguridad frente al tiempo de acceso. Ventajas: Proporciona un buen tiempo de acceso para pequeños bloques de datos y el mayor grado de seguridad de los datos. Inconvenientes: Se duplica el coste, al duplicar todos o casi todos los elementos.
	RAID 2: Similar al nivel 0, pero con la peculiaridad de añadir redundancia (bits de paridad o códigos de corrección de errores) y de segmentar los datos en bytes o incluso bits en lugar de bloques. Al final de la matriz, en varios discos independientes de los de datos, se almacena la información que permite la recuperación de los errores. Ventajas: Proporciona un tiempo de acceso razonable y seguridad relativa. Inconvenientes: El coste es elevado, pues requiere varios discos extra.
	RAID 3: Se almacena 1 bit en cada disco, y un bit de paridad por cada byte en un disco adicional. Ventajas: Proporciona gran velocidad para grandes cantidades de información. Inconvenientes: No es adecuado para pequeños bloques de datos.
	RAID 4: Es similar al nivel 0, pero con corrección de errores. Ventajas: Buen tiempo de acceso. Inconvenientes: No es adecuado para grandes bloques de datos.
	RAID 5: Es el más generalizado por su equilibrio de resultados. Se distribuyen los bloques de datos entre todos los discos, mezclados con los datos de corrección de errores. Ello evita la necesidad de acceder a todos los discos para una sola operación, y por tanto permite realizar varias lecturas y escrituras simultáneas. Ventajas: Proporciona un buen tiempo de acceso y gran seguridad de los datos a un precio razonable. Inconvenientes: No es aconsejable para grandes bloques de información.

	Unidades QIC (1/4"), tradicionales cartuchos con capacidades desde 60 MB hasta 4 GB. y velocidades de transferencia de hasta 5 Megabytes por segundo.
	Unidades DAT de 4 mm., con capacidades de hasta 16 GB. y velocidad de transferencia de hasta 1,5 MB/seg., preparadas para realizar a gran velocidad la búsqueda de los datos.
	Unidades de cinta de 8 mm., de hasta 25 GB., y velocidad de transferencia de hasta 500 Kbytes por segundo.