Modelos Clave de Machine Learning: Regresión, Árboles y Tratamiento de Datos
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en
español con un tamaño de 6,52 KB
Técnicas de Imputación para Valores Faltantes (NA)
El tratamiento de valores faltantes (NA) es crucial, especialmente cuando su proporción es alta y no queremos descartar los registros. En estos casos, nos interesa conservar los datos. Para ello, reemplazamos estos valores faltantes por aproximaciones, un proceso conocido como imputación de datos.
Consejo práctico: Para calcular la media ignorando los valores NA en lenguajes como R, se utiliza el argumento na.rm = TRUE en la función correspondiente.
Pregunta de Repaso
Cuando se realiza imputación por media en una variable numérica con valores faltantes, ¿cuál de las siguientes afirmaciones es verdadera?
- A. Aumenta la correlación entre la variable imputada y las demás.
- B. Reduce la variabilidad y distorsiona la correlación.
- C. Preserva la variabilidad de la variable original.
Respuesta correcta: B.
La imputación por media reduce la varianza (ya que todos los valores imputados son idénticos) y, en consecuencia, altera las correlaciones con otras variables.
Modelo de Regresión Logística: Fundamentos y Aplicaciones
La regresión logística se aplica cuando la variable dependiente (o de salida) es cualitativa. Si solo existen dos categorías (generalmente codificadas como 0 y 1), se trata de una regresión logística binaria. El objetivo del modelo es determinar la probabilidad de que una observación pertenezca a una de las categorías basándose en una o más variables predictoras.
¿Por qué no usar la Regresión Lineal?
No es adecuado utilizar la regresión lineal para problemas de clasificación porque su salida no está acotada y puede generar valores fuera del rango de probabilidad [0, 1]. Para asegurar que la salida sea una probabilidad, la regresión logística utiliza la función sigmoide, que transforma cualquier valor real en un resultado comprendido entre 0 y 1.
Consideraciones Clave
- Sensibilidad a datos atípicos: La regresión logística es sensible a valores extremos, por lo que es importante identificarlos y tratarlos.
- Independencia de observaciones: Las observaciones deben ser independientes entre sí.
- Ausencia de multicolinealidad: Se debe comprobar que no exista una alta correlación entre las variables de entrada.
- Escalado de variables: Aunque no es obligatorio, se recomienda escalar las variables para que todas estén en un rango similar (por ejemplo, entre 0 y 1), lo que puede mejorar el rendimiento del modelo.
Introducción a la Regresión Cuantílica
A diferencia de la regresión lineal, que se centra en modelar la media de la variable de respuesta, la regresión cuantílica permite modelar diferentes cuantiles (como la mediana, el percentil 25 o el 75) de dicha variable.
La regresión lineal clásica busca minimizar la suma de los residuos al cuadrado y asume ciertas condiciones, como la homocedasticidad (la dispersión de los errores es constante) y la normalidad de los errores. La gran ventaja de la regresión cuantílica es su robustez, ya que no requiere que se cumplan estos supuestos. Es especialmente útil cuando la media no es el parámetro más representativo de la distribución, como en presencia de datos atípicos o distribuciones asimétricas.
Regresión de Poisson para Datos de Conteo
El modelo de regresión de Poisson es una herramienta estadística diseñada específicamente para modelar variables de respuesta que son datos de conteo. Esto significa que la variable dependiente (Y) representa el número de veces que ocurre un evento en un intervalo fijo de tiempo, espacio o área. Por ejemplo, el número de clientes que llegan a una tienda en una hora o el número de defectos en un lote de producción.
Árboles de Decisión: Estructura y Funcionamiento
Los árboles de decisión son modelos predictivos con una estructura jerárquica similar a un diagrama de flujo. Funcionan aplicando una serie de reglas de decisión a las variables de entrada para predecir el valor de una variable de salida. Su estructura se compone de:
- Nodo raíz: El punto de partida del árbol.
- Nodos intermedios: Representan las decisiones o divisiones.
- Ramas: Conectan los nodos y representan los resultados de las decisiones.
- Nodos terminales (u hojas): Contienen la predicción final.
Tipos de Árboles de Decisión
- Árboles de clasificación: Predicen la clase o categoría de una variable cualitativa.
- Árboles de regresión: Predicen valores numéricos de una variable de salida cuantitativa.
El Problema del Sobreajuste (Overfitting)
Uno de los principales desafíos de los árboles de decisión es el sobreajuste (overfitting). Esto ocurre cuando el modelo se vuelve excesivamente complejo, creando ramas innecesarias basadas en datos poco relevantes o ruido. Como resultado, el árbol se ajusta perfectamente a los datos de entrenamiento, pero sus predicciones son deficientes con nuevos conjuntos de datos. Este fenómeno se conoce como alta varianza, ya que los resultados cambian drásticamente con pequeñas variaciones en los datos de entrenamiento.
Criterios de División de Nodos
La pregunta fundamental al construir un árbol es: ¿qué variable de entrada (Xi) y qué punto de corte (v) dividen mejor los datos para que los nodos resultantes sean lo más homogéneos posible con respecto a la variable de salida (Y)?
Para encontrar la mejor división, se utilizan diferentes métricas. En los árboles de clasificación, una de las más comunes es la entropía.
Entropía
La entropía es una medida del desorden o la impureza en un conjunto de datos. En este contexto:
- Una entropía de 0 significa que el nodo es completamente puro; todos los elementos pertenecen a la misma clase.
- Una entropía de 1 (el valor máximo en clasificación binaria) indica la máxima impureza; las clases están distribuidas de manera uniforme.