Fundamentos Esenciales de Estadística e Inferencia para Data Science

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en español con un tamaño de 8,54 KB

Estadística Descriptiva y Medidas de Dispersión

  • La Media ($\bar{X} = (1/n)\sum X_i$) mide la tendencia central.
  • La Mediana es el valor central de los datos ordenados.
  • La Moda es el valor más frecuente.
  • La Varianza ($s^2 = \sum(X_i - \bar{X})^2 / (n-1)$) mide la dispersión cuadrática.
  • La Desviación Estándar ($s = \sqrt{Varianza}$) es la raíz cuadrada de la varianza.
  • El Coeficiente de Variación ($CV = s/\bar{X}$) mide la dispersión relativa.
  • El Sesgo:
    • Sesgo > 0: indica cola derecha (asimetría positiva).
    • Sesgo < 0: indica cola izquierda (asimetría negativa).
  • La Curtosis:
    • Curtosis > 3: indica colas pesadas (leptocúrtica).
    • Curtosis $\approx 3$ y Sesgo $\approx 0$ sugieren normalidad.

Inferencia Estadística y Errores

Errores en el Contraste de Hipótesis

  • Error Tipo I ($\alpha$): Rechazar $H_0$ siendo verdadera (falso positivo).
  • Error Tipo II ($\beta$): No rechazar $H_0$ siendo falsa (falso negativo).
  • La Potencia es $1 - \beta$, la probabilidad de detectar un efecto real.
  • Reducir $\alpha$ (nivel de significancia) generalmente aumenta $\beta$.

Distribuciones de Probabilidad Fundamentales

  • Normal ($\mu, \sigma^2$): Distribución simétrica fundamental.
  • Binomial ($n, p$): Éxitos discretos.
  • Poisson ($\lambda$): Eventos raros en un intervalo fijo.
  • Exponencial ($\lambda$): Tiempos positivos hasta el primer evento.
  • Gamma ($\alpha, \theta$): Tiempos acumulados.
  • t-Student ($n-1$ grados de libertad): Usada cuando la varianza poblacional es desconocida.
  • Chi-cuadrado ($\chi^2$): Suma de cuadrados de variables normales estándar.

Intervalos de Confianza

Fórmulas para un nivel de confianza $1-\alpha$:

  • Media (Varianza $\sigma^2$ conocida): $\bar{X} \pm z_{\alpha/2} \cdot (\sigma/\sqrt{n})$.
  • Media (Varianza $s^2$ desconocida): $\bar{X} \pm t_{\alpha/2} \cdot (s/\sqrt{n})$.
  • Proporción: $\hat{p} \pm z_{\alpha/2} \cdot \sqrt{\hat{p}(1-\hat{p})/n}$.
  • Diferencia de Medias: $(\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2} \cdot S_p \sqrt{1/n_1 + 1/n_2}$.

Contraste de Hipótesis (Test de Hipótesis)

  1. Formular la hipótesis nula ($H_0$) y la hipótesis alternativa ($H_1$).
  2. Fijar el nivel de significancia ($\alpha$).
  3. Calcular el estadístico de prueba:
    • Estadístico $Z$: $z = (\bar{X} - \mu_0) / (\sigma/\sqrt{n})$.
    • Estadístico $T$: $t = (\bar{X} - \mu_0) / (s/\sqrt{n})$.
  4. Tomar la decisión:
    • Si el p-valor ($p$) es menor que $\alpha$ ($p < \alpha$), se rechaza $H_0$ (hay evidencia estadística).
    • Si el intervalo de confianza no incluye $H_0$, se rechaza.
    • Si $p \geq \alpha$, no hay evidencia suficiente para rechazar $H_0$.

Tests Específicos

  • Test T de dos muestras: $t = (\bar{X}_1 - \bar{X}_2) / (S_p \sqrt{1/n_1 + 1/n_2})$.
    • Si las varianzas son distintas, usar el Test de Welch.
  • Test F: Compara varianzas. $F = s_1^2 / s_2^2$.

Muestreo y Distribución Muestral

  • El Muestreo Estratificado toma una muestra aleatoria dentro de cada subgrupo (estrato).
  • El Error Estándar de la Media ($EE = \sigma/\sqrt{n}$) mide la variabilidad de la media muestral. Disminuye si aumenta $n$.
  • La Distribución Muestral es la distribución del estimador sobre todas las muestras posibles.

Regresión y Correlación

Regresión Lineal Simple

Modelo: $Y = a + bX$.

  • Pendiente ($b$): $b = r \cdot (s_Y / s_X)$.
  • Intercepto ($a$): $a = \bar{Y} - b\bar{X}$.
  • Coeficiente de Determinación ($R^2 = r^2$): Proporción de la varianza explicada por el modelo.

Correlación

  • El Coeficiente de Correlación ($r = Cov(X, Y) / (s_X \cdot s_Y)$) mide la fuerza y dirección de la relación lineal.

Estimación y Propiedades de Estimadores

El Error Cuadrático Medio ($ECM = Var + (Sesgo)^2$) es una medida de calidad.

  • Insesgado: $E(\hat{\theta}) = \theta$. El valor esperado del estimador es el parámetro real.
  • Eficiente: Posee la mínima varianza posible.
  • Consistente: $\hat{\theta} \to \theta$ cuando el tamaño de la muestra ($n$) crece.
  • Máxima Verosimilitud (MLE): Estima parámetros que maximizan la función de verosimilitud ($L(\theta)$).

Métodos de Remuestreo y No Paramétricos

Bootstrap

Método de remuestreo con reemplazo utilizado para estimar la distribución de un estimador, calcular el error estándar y los intervalos de confianza.

Estimación de Densidad Kernel (KDE)

Fórmula: $\hat{f}_h(x) = (1/nh)\sum K((x - X_i)/h)$.

  • El Bandwidth ($h$) controla el suavizado.
  • Kernels comunes: Gaussiano (soporte infinito, estándar), Rectangular (uniforme), Triangular (lineal).

Trade-off Sesgo-Varianza

Este compromiso es crucial en la estimación no paramétrica y el aprendizaje automático:

  • $h$ pequeño: Bajo sesgo, pero alta varianza (sobreajuste).
  • $h$ grande: Baja varianza, pero alto sesgo (suavizado excesivo).
  • Disminuir $h$ reduce el sesgo y aumenta la varianza.
  • Aumentar $h$ reduce la varianza y aumenta el sesgo.

Visualización y Diagnóstico

Visualización de Distribuciones

  • El Boxplot muestra la mediana, el Rango Intercuartílico (IQR) y los outliers.
  • El Histograma muestra la forma de la distribución.
  • El QQ-Plot compara cuantiles observados vs. teóricos. Una curva recta indica ajuste normal.

Selección de Modelos y Diagnóstico

  • Cullen y Frey: Gráfico que utiliza la asimetría y la curtosis para sugerir distribuciones candidatas.
  • En inferencia, elegir el modelo según el soporte de la variable, la forma y el sesgo:
    • Normal si es simétrica.
    • Gamma o Lognormal si es positiva y asimétrica.
    • Exponencial si tiene una cola derecha fuerte.

Conceptos de Riesgo

  • Valor en Riesgo (VaR): Percentil $\alpha$ de la distribución de pérdidas. Mide la pérdida máxima esperada con probabilidad $\alpha$.

Herramientas y Paquetes en R (Ejemplos)

Paquete fitdistrplus

Utilizado para el ajuste de distribuciones a datos:

  • descdist: Sugiere la familia de distribuciones.
  • fitdist: Ajusta la distribución.
  • summary(aux): Muestra los parámetros estimados.
  • plot(aux): Compara el ajuste con los datos.
  • El Bootstrap en fitdistrplus evalúa la varianza de los parámetros.

Paquetes ggplot y dplyr

Herramientas esenciales para la manipulación y visualización de datos:

  • filter: Selecciona filas.
  • summarise: Resume datos.
  • mutate: Crea nuevas variables.
  • group_by: Agrupa datos.
  • ggplot con geom_histogram o geom_boxplot: Visualiza la forma y la dispersión.

Estos conceptos cubren la descripción, inferencia, distribuciones, regresión, bootstrap y kernel, necesarios para interpretar código y resultados en R.

Entradas relacionadas: