Almacen de datos Data Warehouse
El termino Data Warehouse, o almacén de datos denota una base de datos utilizada para recoger, ordenar, registrar y almacenar la información de la base de datos operativa y así proporcionar una base con la que decidir en negocios.
Definición y Construcción Data Warehouse
Un almacén de datos es una base de datos de todos o algunos de los datos funcionales de la empresa. Es parte de la inteligencia; su propósito es proporcionar un conjunto de datos de referencia único, que se utilizan para la toma de decisiones en la empresa a través de las estadísticas y los informes realizados a través de las herramientas de informes. Desde un punto de vista técnico, que se utiliza principalmente para ‘descargar’ consultas de bases de datos operacionales que podrían afectar a su rendimiento.
Desde un punto de vista arquitectónico, hay dos formas de entender que:
La arquitectura de arriba hacia abajo, el almacén de datos es una base de datos de nivel minorista, que consiste en un repositorio integral y centralizado de negocio. En esto se diferencia del Datamart, que incluye, agregados y funcionalmente destino de los datos.
La arquitectura de abajo hacia arriba, el almacén de datos se hace poco a poco por Datamarts de la empresa, combinando así diferentes niveles de agregación y registro de datos dentro de la misma base de datos.
La definición más comúnmente aceptada es una mezcla de estos dos puntos de vista. El almacén de datos término incluye contenedor y contenido: se refiere en primer lugar la base detallada, que es la fuente de datos original de Datamarts, y en segundo lugar del grupo que consiste de los Datamarts básicas y detalladas. Del mismo modo, los métodos de diseño actuales tienen en cuenta estos dos enfoques, haciendo hincapié en determinados aspectos de acuerdo a los riesgos y oportunidades inherentes a cada empresa.
Principio de funcionamiento Data Warehouse
integración
De hecho, los datos suministrados al almacén de datos son heterogéneos, desde diferentes aplicaciones de producción, o incluso archivos llamados «planos» (archivos de Excel, archivos de texto, XML …). Es entonces que se integren, a la mezcla y darles un sentido único comprensible por todos los usuarios. La cruz deseada será más eficaz que el sistema de información será verdaderamente integrada en su totalidad. Esta integración requiere particular:
Fuerte actividad de normalización y racionalización, orientada a la calidad;
Repositorios de gestión de buenas, incluyendo comprobando constantemente su integridad;
Un perfecto dominio de la semántica y las normas de gestión de metadatos manipulados.
El problema de la integración se basa en la normalización de los datos internos de la empresa, sino también a los datos externos (por ejemplo, de clientes o proveedores).
Fue sólo a costa de una mayor integración que puede proporcionar una visión coherente y verdaderamente transversal de la empresa. Esto asume que el sistema de información de la compañía de aguas arriba está bien estructurado, bien administrado, y ya cuenta con un nivel suficiente de integración. Si este no es el caso, la mala calidad de los datos puede impedir la aplicación del almacén de datos.
El registro de un almacén de datos basado en el principio de retención de datos (o datos no volátil). Para mantener la trazabilidad de la información y las decisiones, los datos una vez que entró en el almacén son estables, sólo lectura, no editable por los usuarios. La misma consulta se ejecuta varias veces en diferentes momentos y debe devolver los mismos resultados. Una vez que los datos están calificados para ser introducidos en el almacén de datos, por lo que no puede ser alterada, modificada o eliminada (hasta un período de purga). Se convierte, de hecho, una parte integral de la historia de la compañía.
El principio de la no volatilidad contrasta con la lógica de los sistemas de producción, que a menudo se basan en datos de actualización con «sustituye» para cada transacción. Cada dato recogido se le asigna un número de fecha o la versión para evitar que cubra la información que ya están en la base de datos, y permiten seguir su evolución en el tiempo. Hay en esta retención la historia.
Desde un punto de vista funcional, esta propiedad se utiliza para controlar el tiempo el desarrollo de indicadores y llevar a cabo análisis comparativos (por ejemplo, las ventas de un año a otro). Por lo tanto, en un almacén de datos, se requiere una única referencia de tiempo.
Organización funcional Data Warehouse
El almacén de datos se integra dentro de una sola base de datos de información de múltiples aplicaciones operativas. Va bien con una visión vertical de la compañía, dictada por limitaciones técnicas, una visión amplia, dictados por necesidades de la empresa, que funcionalmente puede cruzar información. El interés de esta organización es tener toda la información relevante sobre un tema estructuras funcionales generalmente transversales (servicios) de la empresa. Se dice que el almacén de datos está orientado «comercio» en respuesta a las diversas actividades de la empresa que prepara el análisis.
Desde un punto de vista conceptual, el almacenamiento de datos se interpreta como indicadores distribuidos a lo largo de ejes (o dimensiones): por ejemplo, el número de clientes (indicador) dividido por días de venta, tienda o segmento cliente (ejes). Técnicamente, el modelado del almacén de datos puede materializarse esta organización en forma de tablas o de hecho y las tablas que contiene.