Metodologías de Business Intelligence y Tipos de Datos
Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones
Escrito el en español con un tamaño de 4,02 KB
Metodologías de Business Intelligence
Tres metodologías:
- M. BI-SEMMA: S: Muestra de entrenamiento, E: Se analizan los datos, M: Se transforman los datos, M: Se crea el modelo, A: Se aprueba el modelo.
- M. BI-KDD: Proceso en donde se identifican patrones desconocidos dentro de los datos. Parte desde la base de datos hasta el conocimiento.
- M. BI-CRISP-DM: Cross-Industry Standard Process for Data Mining. Agrega el monitoreo continuo y el entendimiento del problema que tiene el negocio. Tiene tres etapas principales:
- Entender el negocio.
- Conocer los datos.
- Preparación de datos. (Clave: entender el negocio y el problema al que se enfrenta).
Exploración de Datos
Su tarea fundamental es el entendimiento de la base de datos, ya sea a nivel de datos (numéricos, fecha, etc.) o a nivel de negocio (estar consciente del problema de negocio que se enfrenta). Para facilitar este proceso, es importante saber el significado de cada variable que contiene la base de datos (ID: identificador, Nombre: nombre del socio, etc.). Es muy importante la presencia de un ID, ya que facilita las operaciones en la base de datos.
Interpretación a Nivel Agregado
Obtención de estadísticas.
Interpretación a Nivel Variable
Complemento entre lo que se visualiza y las estadísticas obtenidas.
Integración y Estructuración
Gran parte del trabajo está en la preparación de los datos. Cada registro entrega información relevante del negocio, y es muy necesaria la presencia del ID en la base de datos. Los resultados de una base de datos se hacen a nivel de registro. Tres etapas fundamentales: importación y exportación de datos, integración entre tablas, y pivot.
Tipos de Datos
¿Qué significa Dato?
Es un registro que me entrega información sobre un hecho relevante, que está a nivel de fila. Un atributo está a nivel de columna.
Bases de Datos Relacionales
- Datos estructurados: Son aquellos datos que se disponen dentro de una base de datos como Excel, donde a nivel de columna se tienen los atributos y a nivel de filas están los registros. Se puede tener dos o más veces el mismo ID. Es una colección de registros descrita por ciertos atributos predeterminados (todos tienen que tener los mismos atributos).
- Datos no estructurados: No es importante que tengan los mismos atributos. Cualquier tipo de texto es una base no estructurada (se lee y la información se entiende directamente). Ejemplo: revistas.
Tipos de Medidas
Distintos tipos de escalas donde se tienen distintos tipos de variables. Las variables se clasifican para entregar la información de manera adecuada.
Variables Cualitativas
Describen percepciones.
- Nominal scale: Describen algo en particular. Se puede crear (ej. camiseta de fútbol, la describe el número).
- Categorical scale: Categorías que ya vienen predeterminadas. No se puede crear (ej. color de ojos, sexo).
- Ordinal scale: Establecen un orden a priori (ej. podio, lugar que se obtuvo después de una carrera).
Variables Cuantitativas
Variable discreta (números enteros, es un tipo de variable que tiene un corte establecido en un punto, casos aislados entre sí) y continua (no existen cortes, corre a través de un rango).
- Interval scale: Clasifica y segmenta (ej. puntaje PSU).
- Ratio scale: Permite realizar comparaciones y establecer proporciones.
Desafío
Saber qué tipo de medida es necesaria para enfrentar mi modelo y/o problema de negocio. Para esto podemos convertir (transformar una variable a lo que yo necesito que sea) o discretizar (tomo variables continuas y establezco cortes) variables.
Conversión de Variables
Convierte o transforma tanto valores nominales como numéricos, ej: agrupar valores.