Limpieza y Segmentación de Datos para Machine Learning

Enviado por Chuletator online y clasificado en Francés

Escrito el en español con un tamaño de 3,83 KB

Limpieza de Datos

Limpieza de datos: Filtrar y corregir los datos.

A. Valores Atípicos (Outliers)

Valores que se alejan de la concentración de datos. Van hacia arriba o hacia abajo. Se puede identificar un outlier mediante:

  • La Desviación estándar (se puede generar un criterio).
  • Forma gráfica (están alejados del centro, donde está la media, mediana).

Distorsionan la media.

Tratamiento de Outliers

  1. Eliminándolos: Se elimina el registro completo.
    • Desventaja: Disminución de los casos de estudio.
    • Ventaja: No se altera la muestra. Es más rápido de tratar.
  2. Modificándolos:
    • A. Imputarlos por la media: Promedio que representa la tendencia central. Depende de las variables y a qué apunta la variable.
    • B. Imputarlos por la mediana: Dato central que representa la separación equitativa. Depende de la variable y a qué apunta la variable.
    • C. Imputarlos al extremo más cercano: Mantiene los límites. Depende de la variable y a qué apunta la variable. Depende de la variable y de qué quiere reflejar la variable dentro del modelo.
  3. Reemplazándolos: Cuando no se quiere alterar el dato ni la media, se reemplaza por cero.

Cuando hago limpieza de datos siempre debo tener presente cuánto es el peso en cantidad de los valores “sucios” en la variable. Debo ser fiel a la función que cumple la variable dentro del modelo para hacer las imputaciones en base a eso.

B. Valores Nulos o Vacíos

Valores que no están presentes en la base de datos.

Tratamiento de Valores Nulos

  1. Eliminarlos: El valor tiene que estar sí o sí presente para que sea representativo; el valor tiene que ser necesario para el análisis.
  2. Reemplazarlos por 0: Cuando se quiere usar el resto de las variables sin afectar la variable del análisis.
  3. Reemplazarlos por la media: Es el que menos se utiliza/recomienda.

Interpretación a Nivel de Variables

Importancia de la complementación entre visualización y cortes estadísticos. Calidad de datos: Distribución, rangos, nivel de actualización, valores perdidos, outliers, % completitud, datos redundantes.

Segmentación de Datos

La segmentación arma muchos grupos de datos que son lo más homogéneos entre sí, pero heterogéneos entre grupos.

¿El problema fundamental de una Empresa? El gran problema de una empresa es que se tiene una gran cantidad de clientes muy distintos entre sí.

Machine Learning

Si se visualiza desde una perspectiva computacional, es un aprendizaje automático que tiene como fin el desarrollo de programas que tengan ciertos comportamientos a partir de la información que se les importa.

Algoritmo

Es un proceso iterativo que busca, a través del establecimiento de parámetros, obtener resultados.

*Parámetros: Condiciones que le establezco al modelo.

Tipos de Algoritmos

Aprendizaje Supervisado

Su función es “explicar el fenómeno”, es decir, qué es lo que quiero que me entregue. Ej: Un alumno va a reprobar o no el ramo.

Aprendizaje No Supervisado

Su función es “no predecir el fenómeno”, sino que solo sirve para agrupar a los clientes de una empresa. Ej: La segmentación.

Aprendizaje Semi-supervisado

En este caso, la información está, pero no toda tiene su respectiva marca.

La diferencia es que en el semi-supervisado no todos tienen la etiqueta, en cambio, en el supervisado sí.

Entradas relacionadas: