Almacén de datos
Definición de Almacén de Datos
Un Almacén de Datos (o Data Warehouse) es una gran colección de datos que recoge información de múltiples sistemas fuentes u operacionales dispersos, y cuya actividad se centra en la Toma de Decisiones –es decir, en el análisis de la información– en vez de en su captura. Una vez reunidos los datos de los sistemas fuentes se guardan durante mucho tiempo, lo que permite el acceso a datos históricos; así los almacenes de datos proporcionan al usuario una interfaz consolidada única para los datos, lo que hace más fácil escribir las consultas para la toma de decisiones.
Diferencias entre Base de Datos y Almacén de Datos
Base de Datos Operacional | Almacén de Datos |
---|---|
Datos operacionales | Datos del negocio para Información |
Orientado a aplicación | Orientado al sujeto |
Actual | Actual + Histórico |
Detallada | Detallada + Resumida |
Cambia continuamente | Estable |
Data Warehousing
Data Warehousing es el proceso que facilita la creación y explotación de un Almacén de Datos.
Los Sistemas de Data Warehousing incluyen funcionalidades como:
- Integración de bases de datos heterogéneas (relacionales, documentales, geográficas, archivos, etc.)
- Ejecución de consultas complejas no predefinidas visualizando el resultado en forma gráfica y en diferentes niveles de agrupamiento y totalización de datos.
- Agrupamiento y desagrupamiento de datos en forma interactiva.
- Análisis del problema en términos de dimensiones.
- Control de calidad de datos.
Características del Almacén de Datos
- Organizado en torno a temas. La información se clasifica en base a los aspectos que son de interés para la empresa.
- Integrado. Es el aspecto más importante. La integración de datos consiste en convenciones de nombres, codificaciones consistentes, medida uniforme de variables, etc.
- Dependiente del tiempo. Esta dependencia aparece de tres formas:
- La información representa los datos sobre un horizonte largo de tiempo.
- Cada estructura clave contiene (implícita o explícitamente) un elemento de tiempo (día, semana, mes, etc.).
- La información, una vez registrada correctamente, no puede ser actualizada.
- No volátil. El Almacén de Datos sólo permite cargar nuevos datos y acceder a los ya almacenados, pero no permite ni borrar ni modificar los datos.
Arquitectura Data Warehouse
La estructura básica de la arquitectura Data Warehouse incluye:
- Datos operacionales. Origen de datos para el componente de almacenamiento físico del Almacén de Datos.
- Extracción de datos. Selección sistemática de datos operacionales usados para formar parte del Almacén de Datos.
- Transformación de datos. Procesos para sumarizar y realizar cambios en los datos operacionales.
- Carga de datos. Inserción de datos en el Almacén.
- Almacén. Almacenamiento físico de datos de al arquitectura Data Warehouse.
- Herramienta de acceso. Herramientas que proveen acceso a los datos.
Estructura lógica del Almacén de Datos
La estructura lógica de un Almacén de Datos está compuesta por los siguientes niveles:
- Metadatos. Describen la estructura de los datos contenidos en el almacén.
- Están en una dimensión distinta al resto de niveles.
- Datos detallados actuales. Obtenidos directamente del procesado de los datos.
- Forman el nivel más bajo de detalle.
- Ocupan mucho espacio.
- Se almacenan en disco, para facilitar el acceso.
- Datos detallados históricos. Igual que los anteriores, pero con datos correspondientes al pasado.
- Se suelen almacenar en un medio externo, ya que su acceso es poco frecuente.
- Datos ligeramente resumidos. Primer nivel de agregación de los datos detallados actuales.
- Corresponden a consultas habituales.
- Se almacenan en disco.
- Datos muy resumidos. Son el nivel más alto de agregación.
- Corresponden a consultas que se realizan muy a menudo y que se deben obtener muy rápidamente.
- Suelen estar separados del Almacén de datos, formando
Supermercados de Datos (Data Marts).
Estructura física del Almacén de Datos
La estructura física puede presentar cualquiera de las siguientes configuraciones:
- Arquitectura centralizada. Todo el Almacén de datos se encuentra en un único servidor.
- Arquitectura distribuida. Los datos del Almacén se reparten entre varios servidores. Asignando cada servidor a uno o varios temas lógicos.
- Arquitectura distribuida por niveles. Refleja la estructura lógica del Almacén, asignando los servidores en función del nivel de agregación de los datos que contienen. Un servidor está dedicado para los datos de detalle, otro para los resumidos y otro para los muy resumidos.
Cuando los datos muy resumidos se duplican en varios servidores para agilizar el acceso se habla de Supermercados de datos (Data Marts).
Software Data Warehouse
- Red Brick Warehouse
- Essbase
- Pilot Decission Support Suite
- Microsoft SQL Server