Problemas de Varianza No Constante y Correlación Residual en Regresión Lineal

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en español con un tamaño de 6,25 KB

Heterocedasticidad: Definición, Causas y Consecuencias

La Heterocedasticidad es una violación del supuesto de varianza constante de los errores en los modelos de regresión. Idealmente, la desviación típica (varianza) de las perturbaciones aleatorias debe ser lo más pequeña posible.

Definición y Contraste con la Homocedasticidad

La heterocedasticidad (considerada un problema) aparece en la perturbación aleatoria (u) o error, cuando estos tienen una varianza no constante en el tiempo y, potencialmente, una media no nula. El objetivo es que el error sea:

  • Pequeño.
  • Estable.
  • Constante.

La Homocedasticidad, por el contrario, implica una varianza constante del error, con errores pequeños y constantes en el tiempo, con media nula y varianza constante (este es el escenario ideal, menos dañino y más manejable).

Causas de la Heterocedasticidad

Las principales causas de la heterocedasticidad incluyen:

  • Variables explicativas con mucha varianza (los modelos transversales son muy susceptibles a este problema).
  • Omisión de variables relevantes en el modelo.
  • Cambio estructural en la serie de datos.
  • Empleo de variables no relativizadas.

Implicaciones y Soluciones de la Matriz de Varianzas-Covarianzas

Cuando existe heterocedasticidad, la matriz de varianzas-covarianzas es no escalar. Esto tiene serias implicaciones en la eficiencia de los estimadores de Mínimos Cuadrados Ordinarios (MCO).

Consecuencias de Usar MCO bajo Heterocedasticidad

Si se ignora la heterocedasticidad y se sigue utilizando MCO, se estima la varianza como si existiera homocedasticidad, calculando la varianza cuando la matriz de varianzas-covarianzas es no escalar. Esto puede ser muy perjudicial:

  • La varianza al emplear MCO en vez de Mínimos Cuadrados Generalizados (MGC) cuando hay heterocedasticidad puede incrementar hasta 10 veces la varianza estimada del parámetro constante.
  • Puede generar valores hasta 4 veces mayores en las varianzas de los parámetros de las variables explicativas.

Estrategias de Corrección

Para corregir este problema, se pueden emplear las siguientes estrategias:

  • Matriz de Varianzas-Covarianzas No Escalar: Se recomienda emplear estimadores MGC (o Aitken) para estimar los parámetros. Cuando la estimación de la matriz de varianzas (S) es correcta, los parámetros son insesgados, lineales, óptimos y consistentes para estimar una estructura no escalar. (Nota: Cuando la estimación de la matriz S tiene sesgo o error, el estimador Aitken puede ser menos eficiente que MCO, incluso con heterocedasticidad).
  • Corrección de White: Si la matriz es no escalar, se puede utilizar MCO con la corrección de White para heterocedasticidad.
  • Matriz Escalar (Homocedasticidad): Si se cumple el supuesto de homocedasticidad, se utiliza MCO para conseguir la plena eficiencia de los parámetros. Esto asegura que la matriz sea eficiente (mínima) y permite realizar análisis y contrastes de significatividad válidos.

Detección de Heterocedasticidad

Test de White

El Test de White es una prueba formal para detectar la heterocedasticidad. La hipótesis nula (H0) es la homocedasticidad. Si el valor de R cuadrado multiplicado por el número de observaciones (Obs R-squared) es superior al 5% (o al nivel de significancia elegido), se acepta H0 (homocedasticidad).

Análisis Gráfico y Estadísticos de Normalidad

Para que la varianza sea constante, los residuos deben permanecer dentro de las bandas de confianza. En los gráficos de líneas de residuos, se busca la aleatoriedad.

En el histograma de la serie, se analizan los siguientes estadísticos:

  • Desviación Estándar (Std Dev): Se busca que la varianza sea pequeña.
  • Asimetría (Skewness): Si es 0, la distribución es más simétrica (mejor).
  • Curtosis (Kurtosis o Apuntamiento): Si es 3, la distribución es perfecta (distribución normal).
  • Jarque-Bera (JB): Cuanto más cercano a 0, mejor (si se aleja, puede indicar heterocedasticidad o falta de normalidad).
  • Probabilidad (Prob): Un valor de 5% es aceptable; cuanto más alto sea este valor, mejor (indica que la hipótesis nula de normalidad no se rechaza).

Autocorrelación Residual

La Autocorrelación Residual es la vinculación o correlación de los errores entre sí a lo largo del tiempo o del espacio. Idealmente, el comportamiento de los errores debe ser completamente aleatorio.

Causas y Efectos de la Autocorrelación

Causas

  • Mala especificación del modelo.
  • Colinealidad entre variables.

Efectos

La autocorrelación residual a menudo resulta en una subestimación de la varianza, lo que lleva a:

  • Mayor tamaño del error.
  • Predicción contagiada del error (los errores están relacionados, afectando la inferencia).

Detección de Autocorrelación

Detección Visual

  • Autocorrelación Positiva: Se observa un patrón de movimientos en ondas.
  • Autocorrelación Negativa: Se observa un patrón de dientes de sierra.

Test de Durbin-Watson (DW)

El estadístico de Durbin-Watson (DW) es una prueba de orden 1 utilizada para determinar la presencia de autocorrelación. La hipótesis nula (H0) es la ausencia de autocorrelación de las perturbaciones aleatorias.

El rango del estadístico DW va de 0 a 4. Las zonas de decisión son:

  1. Zona 1 (0 a dL): Se acepta la hipótesis alternativa (H1) de autocorrelación positiva de primer orden.
  2. Zona 2 (dL a dU): Zona de duda inferior.
  3. Zona 3 (dU a 4-dU): Se acepta la hipótesis nula (H0) de ausencia de autocorrelación.
  4. Zona 4 (4-dU a 4-dL): Zona de duda superior.
  5. Zona 5 (4-dL a 4): Se acepta la hipótesis alternativa (H1) de autocorrelación negativa de primer orden.

Entradas relacionadas: