Conceptos Fundamentales para la Investigación y Modelado de Datos
Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones
Escrito el en español con un tamaño de 4,86 KB
Diseño de Investigación de Mercados
El diseño de investigación es un proceso estructurado que permite abordar un problema o pregunta específica. Sus fases clave incluyen:
- Definir la información que se requiere.
- Planear las distintas fases: exploratoria, concluyente y causal.
- Especificar el plan de medición.
- Construir el cuestionario o instrumento de recolección de datos.
- Diseñar el proceso de muestreo.
- Crear un plan de análisis.
Algoritmo K-medias (K-Means)
El algoritmo K-medias se utiliza en base a distancias, es decir, los elementos se agrupan al centroide más cercano. Pertenece a los modelos de partición rígida.
Cómo se construye el algoritmo de K-medias?
Lo que hace es que los datos se mueven al centroide más cercano. Dada la cantidad de centroides que se definen, esa será la cantidad de segmentos o clústeres resultantes. El desafío principal es determinar el número óptimo de clústeres que se necesitan. Es fundamental optimizar este número para poder representar adecuadamente el problema.
Determinación del Número Óptimo de Clústeres
Para determinar el número óptimo de clústeres, se debe considerar:
- El universo muestral (cantidad de datos).
- Los tipos de datos de las variables (se clasifican, por ejemplo, por la distancia euclídea, que es la distancia entre dos puntos).
Reglas de Asociación y Tipos de Investigación
Aplicaciones de las Reglas de Asociación
- Segmentación: Consiste en agrupar elementos similares, pero distintos de otros grupos, permitiendo abordar a grupos de interés de manera diferenciada, buscando la mayor probabilidad de éxito.
- Clasificación: Permite entender a qué categoría o grupo pertenece un elemento.
- Predicción: Consiste en anticiparse a eventos futuros.
- Asociación: Medida utilizada a lo largo del tiempo para analizar comportamientos (movimientos en conjunto), los cuales pueden determinarse de manera causal o concluyente.
Causalidad en la Investigación
La causalidad consiste en identificar las relaciones de causa y efecto entre las variables. Se intenta establecer que cuando ocurre un evento, otro le sucederá (aunque la veracidad no siempre se puede demostrar de forma absoluta). Por ejemplo, un cambio en el diseño de un producto busca:
- Comprender la causa y el efecto.
- Entender el origen de la relación.
Las fuentes de datos comunes para este tipo de investigación incluyen encuestas y experimentos.
Investigación Concluyente
La investigación concluyente se enfoca en la comprobación de hipótesis derivadas de una investigación exploratoria, utilizando la información recopilada para tomar las mejores decisiones.
Conceptos Clave en Procesamiento de Datos
Canasta de Compra (Market Basket Analysis)
Se refiere al conjunto de datos relevantes que forman parte de una base de datos, a menudo asociados a transacciones de clientes. La canasta permite entender y comprender el comportamiento del cliente, facilitando así la toma de decisiones estratégicas. También genera insights valiosos sobre patrones de compra.
Balanceo de Datos: Train y Test
El balanceo de datos consiste en dividir la base de datos en conjuntos de entrenamiento (*train*) y prueba (*test*), generalmente proporcionando un 75% para *train* y un 25% para *test*.
Conjunto de Entrenamiento (Train)
Es un subconjunto de datos utilizado para entrenar un modelo de aprendizaje automático. Debe ser lo suficientemente grande como para generar resultados estadísticamente significativos.
Conjunto de Prueba (Test)
Es un subconjunto de datos utilizado para evaluar el rendimiento de un modelo ya entrenado, verificando su capacidad de generalización con datos no vistos.
Técnicas de Muestreo para Balanceo
Submuestreo (Undersampling)
Consiste en disminuir el tamaño de la base de datos eliminando muestras aleatorias de la clase mayoritaria, con el fin de equilibrar la distribución de clases.
Sobremuestreo (Oversampling)
Consiste en seleccionar aleatoriamente y duplicar datos de la clase minoritaria para agregarlos a la base original, buscando también equilibrar la distribución de clases.
Sobreajuste (Overfitting)
También conocido como Overfitting, ocurre cuando un algoritmo se entrena excesivamente con datos específicos (datos de entrenamiento), lo que lleva a un rendimiento deficiente (mala predicción) con datos nuevos o no vistos. El modelo se ajusta demasiado al ruido y a las particularidades del conjunto de entrenamiento, perdiendo su capacidad de generalización.