Data Warehouse: Fundamentos, Arquitectura y Componentes Clave
Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones
Escrito el en español con un tamaño de 4,28 KB
Telecomunicaciones: En la definición inicial de DW se hablaba de una solución porque el concepto de almacén de datos implica procesos, software, hardware, conocimiento del negocio y conocimiento sobre integración de diversas infraestructuras.
La Arquitectura Básica
Los elementos son:
- Las fuentes internas que se refieren a los diferentes sistemas de información automatizados o no que tenga la organización para soportar sus procesos internos.
- Las fuentes externas que se refieren a la información que se debe capturar del entorno.
- El área de transformación que es una base de datos intermedia adonde se guardará la información capturada de las fuentes.
- El DW que es la base de datos final para la toma de decisiones.
- Las herramientas de usuario final que permitirán a los usuarios analizar la información guardada en el DW.
Propiedades de un DW
- Orientado a temas: La información almacenada en el DW responderá a las preguntas definidas de un tema de interés para la organización, pudiéndose así hablar del tema. La idea es que el DW agrupa la información necesaria para cubrir el todo de un tema.
- Variable en el tiempo: Si se ha dicho que la información final viene de muchas fuentes es lógico suponer que el día a día sigue ocurriendo y que cada operación transaccional del negocio genera nueva información que se debe añadir a lo que ya está en el DW. Por eso se debe definir la granularidad de los datos para saber cada cuanto tiempo se debe alimentar con información nueva el DW.
- Información unificada e integrada: La información del DW ha sido previamente clasificada, validada, y si múltiples fuentes de datos tienen la misma información, esta, al ser tomada, debe venir con una sola versión integrada para el DW.
- No volátil: La información del DW es no volátil ya que ningún usuario podrá cambiar, eliminar o añadir nuevos contenidos. El almacén de datos es una fuente única, integrada y confiable destinada a la consulta y no al procesamiento de transacciones. Así no hay riesgo de falta de integridad ni se debe tomar en cuenta estrategias para el manejo de concurrencia a no ser para optimizar el tiempo de respuesta en las consultas.
Componentes
- Metodología: Se debe contar con una serie de etapas, actividades, estrategias, técnicas y recursos que permitan enfrentar de forma ordenada un proyecto de desarrollo de un DW. En esencia es un sistema informático por lo que las etapas del ciclo de vida de desarrollo de software se pueden adaptar también a los DWs.
- Técnicas de modelaje de datos: Como el producto final será una base de datos, se debe contar con técnicas que ayuden a la concepción abstracta de los requerimientos de información. Se cuenta con algunos modelos que toman características del modelo E-R pero están enfocados a las propiedades de un DW.
- Proceso ETL (Extracción, Transformación y Carga): Se necesita definir e implementar estos tres procesos:
Extracción
Se refiere a la selección de las fuentes de datos y de los datos de cada fuente que se necesitan; incluye también la definición y desarrollo, cuando sea necesario, de estrategias para capturar los datos que vienen de fuentes no unificadas.
Transformación
Es el proceso que se realiza en el área de transformación e implica la validación, filtro, limpieza, integración y asociación a una unidad de tiempo de cada registro de información que se desea transportar al DW. La asociación a una unidad de tiempo es importantísima ya que si no se conoce de cuando es un registro no se sabrá si ya está en el DW cuando se haga una nueva carga de datos para incorporar nueva información al mismo.
Transporte (Carga)
Es el último paso que consiste en definir la estrategia para llevar los registros del área intermedia al DW. Como tanto el área intermedia como el DW son bases de datos, si son compatibles, el proceso de transporte no es más que una importación de datos sin dificultad adicional.