Regresión Múltiple: Conceptos Esenciales y Aplicaciones
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en español con un tamaño de 6,44 KB
Definición del Modelo de Regresión Múltiple
Es el caso en el que el modelo incluye más de una variable regresora:
Yi = β0 + β1x1i + β2x2i + ui; para i = 1, ..., N
- β0: Es el intercepto o constante. Se interpreta como el valor medio de Y cuando las variables X toman el valor cero, aunque en algunos casos no tiene interpretación económica.
- β1: Mide el cambio esperado en la variable Y con respecto a un cambio en la variable x1, manteniendo las otras variables constantes (ceteris paribus).
- β2: Mide el cambio esperado en la variable Y con respecto a un cambio en la variable x2, manteniendo las otras variables constantes (ceteris paribus).
Ejemplo de Aplicación
El siguiente modelo de regresión múltiple explica el nivel educativo de una persona a partir de los niveles educativos de sus padres:
edhijoi = β0 + β1edmadrei + β2edpadrei + ui para i = 1, ..., N
- En este ejemplo se incluyen dos variables explicativas en el modelo (k = 2).
- El coeficiente β1 mide el efecto que un incremento en los años de educación de la madre tiene en los años de educación del hijo, sin que cambien los años de educación del padre.
- El coeficiente β2 mide el efecto que un incremento en los años de educación del padre tiene en los años de educación del hijo, sin que cambien los años de educación de la madre.
Supuestos Básicos del Modelo de Regresión Lineal Múltiple (MRLM)
Para que los estimadores de Mínimos Cuadrados Ordinarios (MCO) sean óptimos, el Modelo de Regresión Lineal Múltiple debe cumplir con ciertos supuestos:
- MRLM1. Linealidad: Existe una relación lineal entre la variable explicada (Y) y las variables explicativas (X). Con "modelo de regresión lineal" nos referimos a la linealidad con respecto a los coeficientes βj, y no necesariamente con respecto a las variables.
- MRLM2. Muestra Aleatoria: La muestra tomada de las variables (xi, yi), para i = 1, ..., N, debe ser una muestra aleatoria que sigue el modelo de regresión lineal definido en la ecuación (1).
- MRLM3. No Colinealidad Perfecta: Los valores de las variables explicativas xi, para i = 1, ..., N, no pueden ser todos iguales. Que la matriz X sea de rango completo requiere que no existan relaciones lineales exactas entre las variables explicativas, lo que se conoce como la no existencia de colinealidad exacta.
- MRLM4. Media Condicional Cero del Error: E[ui | X] = 0 para i = 1, ..., N. Equivalentemente, E[yi | X] = β0 + β1x1i + ... + βkxki para i = 1, ..., N. A la expresión E[yi | X] = β0 + β1x1i + ... + βkxki se le denomina recta de regresión poblacional.
- MRLM5. Homocedasticidad y Ausencia de Correlación Serial:
- Homocedasticidad: La varianza del error es constante para todas las observaciones de la muestra. Es decir: Var(ui | X) = σ² para i = 1, ..., N.
- Ausencia de Correlación Serial: Los errores no están correlacionados entre sí. Cov(ui, uj | X) = E[uiuj | X] = 0 para i ≠ j.
El Teorema de Gauss-Markov
Este teorema establece que, bajo los supuestos del MRLM, los estimadores de Mínimos Cuadrados Ordinarios (MCO) son los Mejores Estimadores Lineales Insesgados (MELI). De la expresión de la varianza de los coeficientes estimados (β̂j) obtenemos que:
- La varianza de β̂j es mayor cuanto mayor sea la varianza de la parte no observable (u).
- La varianza de β̂j es menor cuanto mayor sea el tamaño de la muestra (N).
- La varianza de β̂j es menor cuanto mayor sea la varianza de la variable explicativa xj.
- La varianza de β̂j es mayor cuanto mayor sea el coeficiente de determinación R²j (R-cuadrado de la regresión de xj sobre las otras variables explicativas), es decir, cuanto más relacionada esté la variable xj con el resto de variables explicativas. El caso ideal sería cuando R²j = 0, en cuyo caso la variable xj no está relacionada con el resto de variables explicativas.
Importante: Este teorema solo se aplica a estimadores lineales e insesgados. Si un estimador no es lineal o no es insesgado, no podemos determinar si su varianza será mayor o menor que la varianza del estimador MCO.
Bondad de Ajuste y Selección de Regresores
El coeficiente de determinación (R²) mide la proporción de la varianza total de la variable dependiente que es explicada por el modelo. Sin embargo, el R² tiene un problema: a medida que aumenta el número de variables explicativas, el R² siempre crece o se mantiene igual, incluso si las nuevas variables no aportan información relevante.
Es decir, si tenemos dos modelos:
Modelo 1: yi = β0 + β1x1i + β2x2i + ui
Modelo 2: yi = β0 + β1x1i + β2x2i + β3x3i + ui
Entonces el coeficiente R² del Modelo 2 será mayor que el del Modelo 1 (incluso si la variable x3 no proporciona información alguna sobre la variable y).
Por ello, cuando se quieren comparar la bondad de ajuste de distintos modelos de regresión múltiple, se utiliza el coeficiente de determinación ajustado (R̄²) en lugar del coeficiente de determinación R². Observa que el coeficiente R̄² puede ser negativo (a diferencia del R², que toma valores entre 0 y 1).