Limpieza y Segmentación de Datos para Machine Learning
Enviado por Chuletator online y clasificado en Francés
Escrito el en español con un tamaño de 3,83 KB
Limpieza de Datos
Limpieza de datos: Filtrar y corregir los datos.
A. Valores Atípicos (Outliers)
Valores que se alejan de la concentración de datos. Van hacia arriba o hacia abajo. Se puede identificar un outlier mediante:
- La Desviación estándar (se puede generar un criterio).
- Forma gráfica (están alejados del centro, donde está la media, mediana).
Distorsionan la media.
Tratamiento de Outliers
- Eliminándolos: Se elimina el registro completo.
- Desventaja: Disminución de los casos de estudio.
- Ventaja: No se altera la muestra. Es más rápido de tratar.
- Modificándolos:
- A. Imputarlos por la media: Promedio que representa la tendencia central. Depende de las variables y a qué apunta la variable.
- B. Imputarlos por la mediana: Dato central que representa la separación equitativa. Depende de la variable y a qué apunta la variable.
- C. Imputarlos al extremo más cercano: Mantiene los límites. Depende de la variable y a qué apunta la variable. Depende de la variable y de qué quiere reflejar la variable dentro del modelo.
- Reemplazándolos: Cuando no se quiere alterar el dato ni la media, se reemplaza por cero.
Cuando hago limpieza de datos siempre debo tener presente cuánto es el peso en cantidad de los valores “sucios” en la variable. Debo ser fiel a la función que cumple la variable dentro del modelo para hacer las imputaciones en base a eso.
B. Valores Nulos o Vacíos
Valores que no están presentes en la base de datos.
Tratamiento de Valores Nulos
- Eliminarlos: El valor tiene que estar sí o sí presente para que sea representativo; el valor tiene que ser necesario para el análisis.
- Reemplazarlos por 0: Cuando se quiere usar el resto de las variables sin afectar la variable del análisis.
- Reemplazarlos por la media: Es el que menos se utiliza/recomienda.
Interpretación a Nivel de Variables
Importancia de la complementación entre visualización y cortes estadísticos. Calidad de datos: Distribución, rangos, nivel de actualización, valores perdidos, outliers, % completitud, datos redundantes.
Segmentación de Datos
La segmentación arma muchos grupos de datos que son lo más homogéneos entre sí, pero heterogéneos entre grupos.
¿El problema fundamental de una Empresa? El gran problema de una empresa es que se tiene una gran cantidad de clientes muy distintos entre sí.
Machine Learning
Si se visualiza desde una perspectiva computacional, es un aprendizaje automático que tiene como fin el desarrollo de programas que tengan ciertos comportamientos a partir de la información que se les importa.
Algoritmo
Es un proceso iterativo que busca, a través del establecimiento de parámetros, obtener resultados.
*Parámetros: Condiciones que le establezco al modelo.
Tipos de Algoritmos
Aprendizaje Supervisado
Su función es “explicar el fenómeno”, es decir, qué es lo que quiero que me entregue. Ej: Un alumno va a reprobar o no el ramo.
Aprendizaje No Supervisado
Su función es “no predecir el fenómeno”, sino que solo sirve para agrupar a los clientes de una empresa. Ej: La segmentación.
Aprendizaje Semi-supervisado
En este caso, la información está, pero no toda tiene su respectiva marca.
La diferencia es que en el semi-supervisado no todos tienen la etiqueta, en cambio, en el supervisado sí.