martes, 27 de abril de 2010

Data Warehouse, o Almacén de Datos, y Cubo OLAP

¿QUÉ ES UN DATA WAREHOUSE?

Se llama data Warehouse, o almacén de datos, a la colección de datos en donde se encuentra la información de forma integrada de una determinada institución, con el propósito de facilitar las tomas de decisiones para esta, ya que se encuentran todos los elementos de los datos desde diversas fuentes de integración en un ambiente de aplicación, simplificando el tiempo y proceso de búsqueda.
Todas las herramientas para la toma de decisiones que se basan en un data Warehouse, hacen más práctica y fácil la explotación de los datos, esto no se logra usando los datos de las aplicaciones operacionales (operaciones cotidianas), en donde la información se obtiene mediante procesos independientes y complejos.

Características


  • - Orientado al Tema: La información se califica en base a los intereses de una empresa
  • - Integrado: La información contenida en un Data Warehouse se encuentra integrada, lo que permite que los datos se puedan visualizar de diversas maneras.
  • - De Tiempo Variante: La información es requerida en todo momento.
  • - No Volátil: La información es estable dentro del Data Warehouse.


DISEÑO DE UN ALMACÉN DE DATOS

  • - Sistema ETL (Extracción, Transformación y carga): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación y la carga del almacén de datos, realizando extracción de los datos, filtrado de los datos, carga inicial del almacén y actualización del mismo. Estos procesos son importantes ya que son la forma en que se ingresan los datos al almacén.
  • - Repositorio Propio de Datos: información relevante, metadatos.
  • - Interfaces y Gestores de Consulta: permiten acceder a los datos y sobre ellos se conectan herramientas más sofisticadas, como por ejemplo, minería de datos.
  • - Sistemas de Integridad y Seguridad: se encargan del mantenimiento global y de sacar copias de seguridad.

    Criterios

  • - Situación actual de la empresa, ya que el almacén debe estar orientado a las necesidades del negocio.
  • - Características del negocio, se requiere saber los tipos de negocios que realiza y como está almacenada la información, y como se toman decisiones respecto a ella.
  • - Entorno Técnico: Se refiere a todo lo que es hardware y software, dándose énfasis al sistema de soporte a la decisión.
  • - Qué es lo que esperan los usuarios, contar con su apoyo y convencerles de las ventajas que significa contar con un almacén de datos,
  • - Etapas de desarrollo, es decir, el modelo conceptual de cómo va a construirse el almacén de datos.
  • - Un prototipo para simular el producto final, para que de esta formas los usuarios puedan ver como quedará y realizarle cambios que sean necesarios.
  • - Determinar si el almacén de datos funcionará como se espera, de acuerdo a su arquitectura.

DATA MARTS

Un Data Mart es una versión especial de almacén de datos. Son subconjuntos de datos con el propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones. Los datos existentes pueden ser utilizados por múltiples grupos de usuarios
dependiendo de sus necesidades.

Comparación de Data Marts v/s Data Warehouse

  • - Su implementación es muy similar a la de un Data Warehouse, con funcionalidades similares. Necesita de los mismos recursos que su corriera sobre un Data Warehouse, por lo tanto necesita cantidad de recursos similares.
  • - No se tienen todos los datos de la empresa, sino que todos los datos de un determinado sector de la empresa, por lo que las consultas tardan lo mismo que al realizarlas a un Data Warehouse.
  • - Actualizar el data mart desde el data warehouse cuesta menos, ya que los formatos de los datos son o suelen ser idénticos.

CUBOS DE INFORMACIÓN (CUBOS OLAP)

Los cubos de información, o cubos OLAP, son herramientas que permiten una visión multidimensional de los datos, y debido a su número indefinido de dimensiones, también se les llaman hipercubos.
Está compuesto por dimensiones y variables. Las dimensiones son atributos de las variables, información complementaria que se necesita para presentar los datos a los usuarios, como nombres, zonas, descripciones, etc. Algunos ejemplos de variables son gastos, beneficios, ventas. Las variables, o indicadores de gestión, son los datos analizados. Representan un aspecto medible de los objetos o eventos a analizar. Por lo general se les representan con valores detallados para cada instancia del objeto medido. Algunos ejemplos de variables pueden ser productos, localidades, tiempo, etc.
Para obtener cierta información, el usuario hace una consulta seleccionando los atributos que desea ver, y las restricciones, como por ejemplo, determinado período de tiempo, determinado producto, etc. Sin embargo, lo que hace de esta herramienta que sea útil son sus operadores de refinamiento, drill, el cual permite agregar un nuevo criterio de agrupación, roll, que permite eliminar un criterio de agrupación, slice & dice, que permite seleccionar datos para presentarlos en un informe, y pivot, el cual permite reorientar las dimensiones del cubo.


VENTAJAS Y DESVENTAJAS DE UN ALMACÉN DE DATOS

Ventajas

  1. La estructura de un Data Warehouse permite que la información sea consultada y tratada de manera fiable y homogénea, los almacenes de datos hacen más fácil el acceso a una gran variedad de datos a los usuarios finales.
  2. Un Data Warehouse proporciona una herramienta para la toma de decisiones en cualquier área funcional, basándose en información integrada y global de la Empresa.
  3. Facilita la aplicación de técnicas estadísticas de análisis y modelización para encontrar relaciones ocultas entre los datos del almacén, obteniendo un valor añadido para el negocio de dicha información.
  4. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios.
  5. Simplifica dentro de la empresa la implantación de sistemas de gestión integral de la relación con el cliente.
  6. Ayuda a la optimización tecnológica y económica en entornos de Centro de Información, estadística o de generación de informes con retornos de la inversión espectaculares.
  7. Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la decisión tales como informes de tendencia, por ejemplo: obtener los items con la mayoría de las ventas en un área en particular dentro de los últimos dos años; informes de excepción, informes que muestran los resultados reales frente a los objetivos planteados a priori.
  8. Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el valor operacional de las aplicaciones empresariales, en especial la gestión de relaciones con clientes.

Desventajas

  1. A lo largo de su vida los almacenes de datos pueden suponer altos costos. El almacén de datos no suele ser estático. Los costos de mantenimiento son elevados.
  2. Los almacenes de datos se pueden quedar obsoletos relativamente pronto.
  3. A veces, ante una petición de información estos devuelven una información subóptima, que también supone una pérdida para la organización.
  4. A menudo existe una delgada línea entre los almacenes de datos y sistemas operativos. Hay que determinar qué funcionalidades de estos se pueden aprovechar y cuáles se deben implementar en el Data Warehouse, resultaría costoso implementar operaciones no necesarias o dejar de implementar alguna que sí vaya a necesitarse.

Fuentes

http://users.dsic.upv.es/~jorallo/cursoDWDM/ Curso de Análisis y Extracción de Conocimiento de Sistemas de Información: Data Warehouse y Data Mining.

http://es.wikipedia.org/wiki/Almac%C3%A9n_de_datos Definición de Almacén de Datos

3 comentarios:

  1. Business Intelligence:
    Es el conjunto de estrategias y herramientas enfocadas a la administración y creación de conocimiento mediante el análisis de datos en una organización. Esto se refiere al uso de datos en una empresa para facilitar la toma de decisiones.
    Mediante las herramientas y técnicas ELT (extraer, cargar y transformar), se extraen los datos de sus fuentes de origen, se depuran y se preparan para luego cargarlos en un almacén de datos (data Warehouse).
    Las soluciones de Business Intelligence se pueden clasificar en:
    Consultas e informes (reportes) simples.
    Cubos OLAP (On-Line Analytic Processing).
    Minería de datos.
    Sistemas de previsión empresarial; predicción mediante estudio de series temporales (ejemplo: Previsión de ventas).

    ResponderEliminar
  2. Como funciona Cubo OLAP

    El objetivo de esta tecnología es realizar análisis sofisticados en grandes volúmenes de datos con un rendimiento
    excepcional, abacando 3 puntos:

    Informacion

    En cada empresa u organización
    existe un constante flujo de datos.
    Esta información proviene de múltiples
    fuentes y debe ser almacenada en
    Bases de Datos

    Data Warehouse

    Las Bases de Datos son el núcleo del
    sistema de información de cualquier
    empresa.
    Organizar esta gran cantidad de datos
    de forma que sean comprensibles se
    conoce como Data Warehousing.

    Cubo OLAP

    El objetivo del OLAP es agrupar los
    datos con el propósito de facilitar su
    posterior análisis, de forma que sean
    útiles para acceder y analizar
    información sobre la propia empresa.

    ResponderEliminar
  3. Muchas Gracias!! Excelente información muy precisa y comprensible!

    ResponderEliminar