Regresión Lineal: Criterios Esenciales para la Selección de Variables y Validación de Modelos
Enviado por Programa Chuletas y clasificado en Matemáticas
Escrito el en español con un tamaño de 4,35 KB
Regresión Lineal: Selección y Validación de Modelos
1. Selección de Variables en Modelos de Regresión Lineal
En el desarrollo de modelos de regresión lineal, no es común utilizar todas las p variables disponibles inicialmente. Esto se debe a que algunas de estas variables pueden no influir significativamente sobre la variable dependiente (Y), o bien, pueden presentar problemas de colinealidad o multicolinealidad.
Para seleccionar las variables que finalmente conformarán el modelo, se deben considerar dos factores clave:
- Independencia entre Variables Predictoras: Las variables independientes (Xi) no deben estar correlacionadas entre sí, ni en parejas (colinealidad) ni en grupos (multicolinealidad).
- Caso Ideal: Corr(Xi, Xj) = 0 para i ≠ j (ausencia total de colinealidad) y K(X) = 1 (ausencia total de multicolinealidad, donde K(X) es el número de condición).
- Correlación con la Variable Dependiente: Las variables independientes deben tener la mayor correlación posible con la variable dependiente (Y). Aunque no existe un límite inferior estricto para la correlación entre una Xi y Y que determine su inclusión en el modelo, es importante destacar que cuanto mayor sea esta correlación, mayor será la capacidad predictiva del modelo.
- Caso Ideal: |Corr(Xi, Y)| = 1 para toda Xi que formará parte del modelo.
Observación Importante: Una variable Xi puede presentar una baja correlación lineal con Y y, a su vez, tener una fuerte relación matemática (no lineal) con esta. En tales casos, Xi debe ser considerada, como se explicará más adelante en el contexto de transformaciones de variables o inclusión de términos no lineales.
2. Validación de un Modelo de Regresión Lineal
Para que un modelo de regresión lineal sea considerado válido y sus inferencias sean fiables, se deben cumplir los siguientes criterios fundamentales:
2.1. Verificación de Supuestos
Es crucial verificar los supuestos clásicos del modelo de regresión lineal: normalidad, homocedasticidad e independencia de los errores (residuos).
- Análisis de Gráficos de Residuos:
Existen diversos tipos de gráficos de residuos, como Residuos vs. Orden de los Datos, Residuos vs. Valores Estimados, o Residuos vs. Xi. Estos gráficos son herramientas visuales fundamentales para verificar la homocedasticidad (varianza constante de los errores) y la independencia de los errores, así como para evaluar la calidad general del ajuste del modelo.
Un gráfico de residuos ideal debe mostrar una estructura homogénea, sin patrones discernibles (como formas de embudo o curvas), y con un nivel de dispersión constante a lo largo de todo el rango de los valores predichos o de las variables independientes.
- Histograma de Frecuencias de los Residuos:
Esta herramienta visual permite verificar la distribución de los residuos, la cual debe ser normal. Por lo tanto, el histograma debe exhibir una forma acampanada, similar a una campana de Gauss, centrada alrededor de cero.
- Otras Pruebas de Normalidad:
Además del histograma, se pueden emplear otras herramientas y pruebas formales para evaluar la normalidad de los residuos, como el gráfico de probabilidad normal (Q-Q plot) o pruebas estadísticas como el test de Kolmogorov-Smirnov o Shapiro-Wilk.
- Prueba de Durbin-Watson:
Esta prueba estadística permite evaluar formalmente la independencia entre los residuos. Es una herramienta más concluyente que la inspección visual de los gráficos de residuos para detectar autocorrelación.
- Test de Bartlett:
Este test estadístico permite evaluar formalmente la homocedasticidad (homogeneidad de varianzas) de los residuos entre diferentes grupos o niveles de una variable categórica, o en el contexto de la varianza de los residuos a lo largo del rango de los valores predichos.
Nota: Este documento es la tercera parte de una serie sobre regresión lineal. Las secciones restantes (2.2, 2.3 y 2.4) de la validación del modelo se abordarán en la siguiente entrega.