Almacenes de datos: organizando la información en unidades lógicas

Un almacén de datos es un término de las ciencias informáticas. Básicamente se trata de una colección de datos. Pero estos no son tomados al azar, sino que tienen una organización determinada, no son volátiles y son variables en el tiempo. Asimismo, cualquier almacén de datos tiene un propósito determinado, definido por el ámbito donde
 

Un almacén de datos es un término de las ciencias informáticas. Básicamente se trata de una colección de datos. Pero estos no son tomados al azar, sino que tienen una organización determinada, no son volátiles y son variables en el tiempo. Asimismo, cualquier almacén de datos tiene un propósito determinado, definido por el ámbito donde la misma será usada.

Es importante distinguir en qué circunstancias usar un almacén de datos. Esto determinará las políticas transaccionales y operacionales, es decir en qué circunstancias se cargará la información, con cuánta frecuencia, y cómo será la operativa en general del sistema. Además, cuando se plantea el diseño de un sistema, es necesario determinar cómo se abordará la información del almacén de datos, es decir quién tendrá acceso a ella, con qué frecuencia y en qué contexto.

Muchos autores teóricos de las ciencias informáticas coinciden en que los almacenes de datos deben contar con ciertas características básicas. Tal es el caso de Bill Inmon, que puede ser considerado como el padre de los almacenes de datos, en cuanto desarrollos teóricos se refiere. En su opinión, un almacén de datos debe estar orientado a temas, de forma tal que los datos estén organizados con relación a determinados eventos objetos del mundo real. También como un almacén de datos debe contar con la variante en el tiempo, es decir poder registrar exitosamente los cambios que se realizan en el almacén de datos a lo largo del tiempo.

Un punto básico indispensable es que la información no sea volátil, es decir que permanezca inalterada en el tiempo. A este respecto, las copias de seguridad cumplen una misión fundamental, que es la de garantizar la redundancia de la información para evitar la pérdida de datos. Una vez que los datos son almacenados en un almacén de datos se convierten en información de sólo lectura, que sólo podrá ser consultada, mas no alterada en el futuro.

Finalmente Inmon considera que una base de datos debe estar integrada con los sistemas operacionales de la organización. Claramente, es necesario que una base de datos sea compatible y versátil como para poder ser accedida por todos los operadores que se requiera, de forma discrecional, dado que no todos tendrán el mismo nivel de privilegios tanto para guardar información como para acceder a la misma.

Esto en lo relativo al almacén de datos en sí. Queda claro la necesidad imperiosa de garantizar la integridad de la información, contando con soportes que permitan la recuperación de datos en caso de colapso. Pero también es necesario considerar cómo funciona un almacén de datos dentro de una organización amplia, qué técnicas utilizan para cargar los datos, extraerlos, interpolarlos, analizarlos y cómo se gestionan integralmente esos datos. En consecuencia, algunas definiciones de almacén de datos contemplan estos aspectos que no hacen a la información en sí, sino a cómo se manipula. Por un lado existen las herramientas para análisis de datos, imprescindibles para automatizar enormes cúmulos de información, y por el otro lado es necesario considerar a las herramientas para gestionar y recuperar los metadatos.

En el fondo un almacén de datos no es más que un repositorio de datos. Sin embargo, la forma en que el sistema la estará organizado determinará en gran medida la eficiencia a la hora de procesar información: evitar la pérdida de tiempo, la redundancia de trabajo, y garantizar el rápido acceso al información vital, todas las veces que sea necesario. Además es forzoso detenerse a considerar las cuestiones relacionadas con la seguridad de los almacenes de datos. Muchas empresas optan por almacenar sus datos sensibles desconectados de la nube o de cualquier acceso externo, en un sistema cerrado, mientras que otras empresas confían en las virtudes de la nube, y emplean aplicaciones que de por sí generan y gestionan bases de datos en locaciones remotas, accesibles por múltiples usuarios en distintas ubicaciones.

En consecuencia existen dos preceptos básicos que deben regir la lógica de cualquier almacén de datos: la integración y la separación. Es evidente que los datos deben estar integrados en cuanto a las distintas fuentes de los mismos. Para decirlo en términos más claros, no importa la cantidad de operadores o de fuentes de información, es necesario que un almacén de datos logre coherencia entre todas las fuentes. En paralelo, la separación se refiere a la necesidad de manejar discrecionalmente los permisos y los accesos, una necesidad básica para organizar la información, mejorar su gestión y evitar fugas de seguridad.

Los metadatos son uno de los componentes más importantes de cualquier almacén de datos. Describen la estructura de los datos a ser almacenados y como se relacionan entre sí. Un claro ejemplo de esto son las tablas de localización de los discos duros, que determinan en que cluster va cada bit de información.

 

Fuente imagen
 

Los comentarios están cerrados.