Introducción al Desarrollo de Data Warehouse
Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones
Escrito el en español con un tamaño de 14,54 KB
1) Resumen del Curso de Data Warehouse
Este curso proporcionará los elementos esenciales para construir un data warehouse. Se abordarán los siguientes temas:
- Aspectos importantes al iniciar un proyecto de data warehouse.
- Gestión de proyectos de data warehouse y formación de equipos, incluyendo roles y responsabilidades.
- Consideraciones de hardware, como el uso de RAID.
- Migración de datos a un data warehouse.
- Utilización de herramientas como SQL Server 2008, Data Warehouse Builder y Pentaho para la migración y transformación de datos.
2) Clave del Éxito en Data Warehouse
La clave del éxito radica en la capacidad del negocio para gestionar la información y convertirla en una ventaja competitiva. Esto implica una gestión flexible y eficiente de la información, asegurando una recopilación precisa y relevante.
3) Definición de Data Mart
Un data mart es un subconjunto especializado de un data warehouse que se enfoca en un área específica del negocio. Por ejemplo, una empresa podría tener un data mart financiero y otro de marketing, cada uno diseñado para proporcionar información a las áreas correspondientes.
4) Utilización de CPU en Sistemas Operativos vs. Data Warehouse
- En un sistema operativo, la utilización de la CPU suele ser predecible.
- En un data warehouse, la utilización de la CPU es esporádica. El procesamiento analítico en grandes conjuntos de datos puede generar picos de uso impredecibles.
En esencia, la CPU del data warehouse estará o al 100% de utilización o inactiva.
5) Utilidad de Conocer la Utilización de la CPU
Conocer la utilización de la CPU permite:
- Ampliar los recursos de manera eficiente.
- Ajustar el rendimiento de la base de datos.
6) Correlación entre Servicio al Cliente y Data Warehouse
Existe una alta correlación. Muchas empresas orientadas al servicio, como bancos y compañías de tarjetas de crédito, utilizan data warehouses para mejorar la atención al cliente. Un ejemplo es la realización de encuestas a estudiantes para mejorar los cursos y adaptar el contenido a las necesidades del grupo.
7) Correlación entre CRM y Data Warehouse
El software CRM (Customer Relationship Management) se utiliza para gestionar las relaciones con los clientes, las ventas y el marketing. En este contexto, CRM se refiere al data warehouse que contiene información sobre la gestión de ventas y los clientes.
¿Qué son las bases de datos de marketing? Las bases de datos de marketing almacenan perfiles de clientes con datos más subjetivos, como preferencias de ocio y hábitos de consumo. Estos datos permiten desarrollar perfiles detallados para ofrecer ofertas personalizadas.
La orientación al cliente es crucial. El objetivo es ofrecer al cliente lo que necesita en el momento adecuado. El software CRM online facilita el conocimiento profundo de las necesidades del cliente y permite anticiparse a su demanda.
Componentes del CRM:
- Funcionalidad de ventas y administración.
- Telemarketing.
- Gestión del tiempo.
- Servicio y soporte al cliente.
- Marketing.
- Manejo de información para ejecutivos.
- Integración con ERP (Enterprise Resource Planning).
- Sincronización de datos.
- Comercio electrónico (e-commerce).
- Servicio en el campo de ventas.
ANALOGÍA: La relación profesor-alumno se beneficia de las preguntas y la retroalimentación, ya que permiten al profesor conocer mejor a sus alumnos y ofrecer un mejor curso.
8) Teoría del Big Bang (SDLC) vs. Teoría de la Evolución (BSDLC)
- Teoría del Big Bang (SDLC): En el desarrollo de software tradicional, se comienza con una fase de especificación de requisitos detallada. Una vez finalizado el análisis, se procede a la construcción del sistema hasta su finalización.
- Teoría de la Evolución (BSDLC): El ciclo de vida de desarrollo de data warehouse se conoce como la"teoría de la evolució" porque los usuarios finales no siempre tienen una visión clara de sus necesidades analíticas desde el principio.
En un data warehouse, es crucial involucrar a los usuarios clave desde el inicio y permitir que experimenten con los datos a medida que el sistema evoluciona. La teoría del Big Bang no es adecuada para data warehouses, ya que no permite la flexibilidad y la adaptación necesarias.
9) Importancia de la Participación del Usuario
Excluir al usuario cuando un proyecto de data warehouse se retrasa es un camino seguro al desastre. La participación continua del usuario es esencial para el éxito del proyecto.
10) Recomendación para Datos Incompletos o"Sucio"
Es preferible proporcionar a los usuarios finales un núcleo funcional del data warehouse con datos"sucio" que esperar a tener un sistema perfecto. Esto les permite comenzar a trabajar con los datos y proporcionar retroalimentación valiosa.
11) Definición de Usuario Clave
Un usuario clave es aquel que:
- Está dispuesto a aprender nuevas tecnologías y compartir su conocimiento.
- Tiene la paciencia para trabajar con el data warehouse durante su desarrollo.
Identificar a los usuarios clave es fundamental para el éxito del proyecto.
12) Transacciones en OLTP vs. Data Warehouse
- OLTP (Procesamiento de Transacciones en Línea): Las transacciones OLTP son cortas, rápidas y manejan pequeñas cantidades de datos. Están diseñadas para soportar las operaciones diarias del negocio.
- Data Warehouse: Las transacciones en un data warehouse son analíticas, manejan grandes volúmenes de datos y pueden tardar mucho tiempo en completarse. Su propósito es soportar la toma de decisiones.
13) Paradigma de Desplazamiento en Data Warehouse
El paradigma de desplazamiento implica un cambio significativo en los hábitos y métodos de trabajo. La implementación de un data warehouse requiere que los usuarios adopten nuevas formas de acceder, analizar y utilizar la información.
14) Definición de Data Warehouse
Un data warehouse es una colección de información corporativa integrada y organizada que proviene de los sistemas operativos y otras fuentes de datos externas. Su objetivo principal es facilitar el análisis y la toma de decisiones.
15) Beneficios de las Configuraciones de Hardware y Software Potentes
Las configuraciones de hardware y software potentes permiten procesar grandes volúmenes de información de manera eficiente, lo que es esencial para el análisis en data warehouses.
16) Concepto de Data Warehouse
El concepto de data warehouse es simple: extraer información de la base de datos principal de la empresa, combinarla con datos demográficos y otros relevantes, y proporcionar acceso a esta información a través de herramientas fáciles de usar, como un navegador web.
17) Propósito del Data Warehouse
El propósito principal de un data warehouse es soportar la toma de decisiones empresariales, no las operaciones diarias. Permite a las empresas realizar análisis"what-i" y tomar decisiones informadas.
18) Aproximaciones para Construir un Sistema de Ayuda a la Decisión
Existen dos aproximaciones principales:
- Construir un núcleo de data warehouse: Esta aproximación implica construir primero un núcleo sólido del data warehouse que pueda servir como base para futuros data marts. Requiere más tiempo al principio, pero ofrece mayor flexibilidad y escalabilidad a largo plazo.
- Construir data marts específicos: Esta aproximación se centra en construir data marts para necesidades específicas de forma rápida. Ofrece resultados inmediatos, pero puede llevar a problemas de integración y redundancia de datos a largo plazo.
19) Aproximación del Curso
Este curso se centrará en la segunda aproximación: construir data marts y luego integrarlos en un data warehouse. Esta estrategia prioriza la obtención de resultados rápidos y la generación de valor inmediato para los usuarios.
20) Retorno de la Inversión (ROI) en Data Warehouse
El análisis de ROI es crucial para evaluar la viabilidad de un proyecto de data warehouse. Un estudio de IDC reveló que el ROI promedio de un data warehouse es del 401% en 3 años.
21) Núcleo del Data Warehouse
El núcleo del data warehouse contiene la información común y esencial, generalmente organizada en tablas de hechos. Es la base sobre la que se construyen los data marts y proporciona una visión integrada de los datos empresariales.
Riesgos y Desafíos en Proyectos de Data Warehouse
1) Factores de Riesgo en Proyectos de Data Warehouse
- Resistencia al cambio: Es fundamental contar con el apoyo de la dirección y la participación activa de los usuarios para superar la resistencia al cambio.
- Falta de comunicación: La falta de comunicación entre el equipo del data warehouse y los usuarios finales puede llevar a malentendidos y resultados insatisfactorios.
- Cambios en la tecnología: La rápida evolución de la tecnología requiere flexibilidad y adaptación por parte del equipo del data warehouse.
- Alta integración: Los data warehouses son sistemas complejos que requieren una alta integración entre sus componentes, lo que puede aumentar el riesgo de errores.
2) Back-End en Data Warehouse
Cuando surge un data warehouse, pueden ser necesarios arreglos no planeados en el back-end, que se refiere al repositorio de datos y el software asociado, como el servidor de la base de datos.
3) Rol del Data Miner
El data miner es responsable de analizar los datos y responder a dos preguntas clave:
- ¿Qué datos detallados necesita el cliente para la toma de decisiones?
- ¿Dónde se almacenan esos datos?
Las respuestas a estas preguntas guían el diseño del data warehouse y el proceso de migración de datos.
4) Conversión de Datos CHAR a VARCHAR2
Para convertir datos de tipo CHAR a VARCHAR2 durante la importación, se puede utilizar la función RTRIM
para eliminar los espacios en blanco finales.
5) Repositorio DSS vs. Repositorio Operacional
El repositorio de un sistema de soporte a la decisión (DSS) es significativamente más pequeño que su equivalente operacional. Contiene datos resumidos a diferentes niveles para facilitar el análisis.
6) Características de RDBMS OLTP vs. MDBMS OLAP
Característica | RDBMS OLTP | MDBMS OLAP |
---|---|---|
Operaciones típicas | Actualización | Análisis |
Cantidad de información por transacción | Poca | Mucha |
Tiempos/fechas de información | Actual | Histórico, actual, futuro |
Nivel de requisitos analíticos | Bajo | Alto |
7) Funciones del Data Miner
El data miner inspecciona los datos para determinar:
- Los datos detallados que los usuarios necesitan para la toma de decisiones.
- La ubicación de almacenamiento de esos datos.
8) DSS y EIS
- DSS (Sistema de Soporte a la Decisión): Un DSS proporciona herramientas para analizar datos y tomar decisiones informadas. A veces se utiliza como sinónimo de data warehouse.
- EIS (Sistema de Información Ejecutiva): Un EIS proporciona a los ejecutivos información resumida y de alto nivel para la toma de decisiones estratégicas.
Tanto los DSS como los EIS permiten a los ejecutivos analizar datos y tomar decisiones empresariales más informadas.
9) Back-End y Front-End en Data Warehouse
- Back-end: Se refiere al repositorio de datos, el software de gestión de bases de datos y la infraestructura de hardware que soporta el data warehouse.
- Front-end: Incluye las herramientas y aplicaciones que los usuarios finales utilizan para acceder y analizar los datos del data warehouse.
10) Paralelización
La paralelización es una técnica que divide una tarea en subtareas que se ejecutan simultáneamente en varios procesadores, lo que aumenta el rendimiento del sistema.
11) Equipo de Proyecto de Data Warehouse
Un equipo básico de data warehouse incluye:
- Programadores
- Expertos en la materia
- Líder del proyecto
- Usuarios finales
- Analistas de DSS
Los miembros más importantes son los usuarios finales y los analistas de DSS, ya que son quienes mejor conocen las necesidades del negocio y cómo utilizar los datos para la toma de decisiones.
12) Asociación de Columnas
A) ¿Qué datos detallados necesita el cliente para la toma de decisiones?
Respuesta: Asegurar un nivel de resumen adecuado en el DSS para satisfacer las necesidades de los usuarios.
B) ¿Dónde se almacenan los datos que el usuario necesita para la toma de decisiones?
Respuesta: Proporcionar información para el proceso de migración de datos, identificando la ubicación de los datos relevantes.
13) Almacenamiento de Información en OLTP vs. Data Warehouse
Característica | OLTP | Data Warehouse |
---|---|---|
Redundancia | Mínima | Permitida para optimizar consultas |
Normalización | Alta | Baja (desnormalización para optimizar consultas) |
Volumen de datos | Menor | Mayor |
14) Normalización en Data Warehouse
La normalización no es tan importante en un data warehouse porque:
- Los datos no se actualizan con tanta frecuencia como en un OLTP.
- La desnormalización (redundancia controlada) puede mejorar el rendimiento de las consultas.
15) Equipo de Desarrollo de Data Warehouse vs. OLTP
Los miembros del equipo de desarrollo de un data warehouse deben ser más flexibles, analíticos y trabajar en equipos más grandes que en un entorno OLTP. Esto se debe a la complejidad y la naturaleza iterativa de los proyectos de data warehouse.