Modelado Predictivo: Regresión Lineal, Logística y Árboles de Decisión en Machine Learning
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en
español con un tamaño de 4,76 KB
Modelos de Regresión y Clasificación: Fundamentos
Generación y Comprobación de Hipótesis
El primer paso en el modelado predictivo es definir el problema y establecer las hipótesis a comprobar.
- Definición del Problema: Identificar si el problema asociado al dataset es de regresión, clasificación o segmentación.
- Ejemplo de Regresión: ¿Qué factores influyen en el precio de los autos? ¿Cómo puedo predecir el precio de un auto?
Formulación de Hipótesis (Intuición)
- La marca influye directamente en el precio.
- El tamaño del auto se relaciona positivamente con el precio.
El modelado puede ser predictivo (calcular nuevos precios) o descriptivo (conocer el valor base o intercepto).
Data Mining (DM): Búsqueda de Patrones
El Data Mining se enfoca en buscar patrones y generar un modelo o fórmula que describa los datos.
Tipos de Aprendizaje
- SUPERVISADO:
- Regresión: Utiliza una variable dependiente ('Y') cuantitativa (ej. Regresión Lineal).
- Clasificación: Utiliza una variable dependiente ('Y') cualitativa (ej. Regresión Logística Binaria, donde Y puede ser 0 o 1; sí o no; blanco o negro; etc.).
- NO SUPERVISADO: Segmentación (Clustering).
Regresión Lineal (Y Cuantitativa)
La Regresión Lineal es un modelo fundamental para predecir valores continuos.
Supuestos del Modelo de Regresión Lineal
- No debe haber correlación entre variables independientes ni autocorrelación.
- La relación entre Y y X debe ser lineal.
- Homocedasticidad (varianza constante de los errores).
- Y es normal para cada valor de X.
Métricas de Calidad de Ajuste
R² (R-squared)
Mide la calidad del ajuste del modelo (rango de 0 a 1):
- < 0: Es pésima.
- 0: El modelo no es mejor que usar la media.
- > 0.5: Es decente.
- 1: Es muy buena, no hay error (ningún punto quedó fuera de la recta).
Tests Estadísticos para Evaluación del Modelo
- T-test: Se aplica por variables independientes.
- Hipótesis Nula: El coeficiente es 0.
- Regla: Si el p-valor es [ < 0.05, se Rechaza] la hipótesis nula.
- F-test: Evalúa la significancia de todo el modelo.
- Hipótesis Nula: El modelo es nulo (no aporta valor).
Regresión Logística Binaria
Se utiliza para predecir resultados binarios (clasificación).
Ejemplo: Predecir cáncer. 1 = tiene cáncer / 0 = no tiene cáncer.
Árboles de Decisión
Los árboles de decisión son modelos versátiles utilizados tanto para clasificación como para regresión.
Métricas de Pureza en Clasificación
En los árboles de clasificación, la pureza del nodo se mide para determinar la mejor división.
Impureza de Gini
La impureza de Gini se calcula sumando la probabilidad de cada elemento siendo elegido, multiplicado por la probabilidad de un error en la categorización de ese elemento. Alcanza su mínimo (cero) cuando todos los casos del nodo corresponden a una sola categoría de destino.
Ganancia de Información (Entropía)
Se calcula restando a la entropía global la medida ponderada de las entropías asociadas a los valores que puede tomar una característica.
Diferencias en Árboles de Regresión
En los árboles de regresión, el procedimiento de división es similar, pero las métricas cambian:
- La impureza se calcula con la suma de los residuales (con respecto a la media de la porción) al cuadrado.
- Al terminar el árbol, en vez de usar la clase mayoritaria (como en clasificación), se usa el promedio de la variable dependiente en la porción.
Ventajas de los Árboles de Decisión
- Son muy transparentes, fáciles de interpretar y muy “humanos”.
- Manejan todo tipo de datos (categóricos y continuos) sin mayores problemas.
- Son fáciles de calcular.
Desventajas de los Árboles de Decisión
- Se ajustan bastante a los datos (sensibilidad). Un cambio muy brusco puede hacer que un árbol deje de funcionar.
- No solucionan cualquier problema.
- Son “cuadradas” las funciones que aproximan.
- No son tan precisos como otros métodos y pueden terminar haciendo sobreajuste (overfitting).