Conceptos Fundamentales de Estadística Multivariante y Regresión Lineal

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en español con un tamaño de 5,36 KB

Conceptos Básicos de Estadística

  • Homogeneidad: El coeficiente de homogeneidad mide el grado de uniformidad de la dispersión de los datos respecto a su varianza; cuanto más pequeño, más homogéneo.
  • Pearson vs. Spearman: Pearson se usa para medir si dos variables tienen una relación lineal, mientras que Spearman mide si una variable tiende a aumentar o disminuir cuando la otra lo hace, aunque la relación no sea lineal. Además, Spearman es más adecuado cuando hay valores atípicos o los datos no siguen una distribución normal. Por ejemplo, si y=x², al aumentar x, y también aumenta siempre. Spearman detectaría una relación perfecta, mientras que Pearson no, porque la relación no es una recta.
  • Asimetría (Fisher): Mide el grado y la dirección de la asimetría de una distribución respecto a su media. Si es >0, la asimetría es positiva; si es =0, es simétrica.
  • Kurtosis univariante: Mide la forma de una distribución, especialmente la concentración de datos alrededor de la media y el peso de sus colas. Si K>0, es leptocúrtica (mayor concentración respecto a la media y posibles valores extremos); si K<0, es platicúrtica (plana y con datos dispersos); si K=0, es mesocúrtica (similar a la distribución normal).
  • Kurtosis multivariante: Mide la concentración y el peso de las colas de una distribución considerando simultáneamente varias variables. En la fórmula, 'd' es la distancia de Mahalanobis.

Modelos de Regresión Lineal

Supuestos del Modelo

  • Supuesto de linealidad: La relación entre la variable dependiente y las variables independientes puede representarse mediante una función lineal.
  • Linealidad: Se asume que la relación entre la variable independiente X y la dependiente Y es lineal. Si la relación real no es lineal, el modelo estará mal especificado y las estimaciones serán incorrectas o sesgadas.
  • Independencia de los errores: Los errores deben ser independientes entre sí. Es importante porque garantiza que cada observación aporte información independiente al modelo.
  • Homocedasticidad: Los errores tienen varianza constante. Es importante porque si la varianza cambia, los intervalos de confianza y tests pueden ser incorrectos.

Intervalos y Métricas

  • Diferencia entre IC e IP: El IC (Intervalo de Confianza) estima el rango donde se encuentra la media poblacional de la variable respuesta. El IP (Intervalo de Predicción) estima el rango donde puede encontrarse una observación individual futura. Por ello, el IP es siempre más amplio que el IC.
  • SST: Variabilidad total de Y respecto a la media; sum(y-media)².
  • SSR: Parte de la variabilidad de Y explicada por X; sum(ypred-media)².
  • SSE: sum(y-ypred)².
  • R²: Mide la variabilidad de Y que queda explicada por la variable X; SSR/SST.
  • Hipótesis: T=b1/SE(b1); SE(b1)= raíz(var residual/sum(x-media)²).

Distribuciones Multivariantes

  • Matriz de covarianzas: Las varianzas explican la dispersión de x1 y x2, y la covarianza indica la relación entre ambas variables.
  • Distribución normal multivariada: Describe conjuntamente varias variables normales. Está determinada por el vector de medias (centro) y la matriz de covarianza (dispersión y correlaciones). Es simétrica alrededor de la media y sus contornos de igual densidad son elipses o elipsoides.
  • Condicionales: E(x2|x1=xo) = media2+(v21/v11)*(x0-media1); Var(x2|x1=xo) = v22-(v21²/v11). Conocer x1 reduce la incertidumbre sobre x2, ya que la varianza condicional es menor o igual que la marginal.
  • Distribución de Dirichlet: Var(xi)= (ai(a0-ai))/(a0²(a0+1)). El parámetro a0 representa la concentración total; si aumenta, las varianzas disminuyen y las proporciones se concentran más.
  • Distribución Wishart: Describe la distribución de una matriz de covarianzas muestral obtenida a partir de una normal multivariada. Es la generalización multivariante de la distribución chi-cuadrado.

Inferencia y Contrastes

  • Método de máxima verosimilitud: Elige los valores de los parámetros que hacen más probable haber observado la muestra. Se usa para estimar el vector de medias y la matriz de covarianza.
  • Contraste de un valor particular: Comprueba si el vector de medias poblacional es igual a un vector concreto fijado.
  • Contraste de independencia: Comprueba si dos grupos de variables son independientes (covarianzas entre bloques nulas).
  • Contraste de esfericidad: Comprueba si la matriz de covarianzas es proporcional a la identidad (misma varianza y covarianzas nulas).
  • Distancia de Mahalanobis: Mide la distancia de una observación respecto al centro, considerando la varianza y la relación entre variables.
  • Aplicación práctica: Para ventas de pan, bollería y repostería se usa la distribución multinomial.

Entradas relacionadas: