Fundamentos Esenciales de Estadística e Inferencia para Data Science
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en
español con un tamaño de 8,54 KB
Estadística Descriptiva y Medidas de Dispersión
- La Media ($\bar{X} = (1/n)\sum X_i$) mide la tendencia central.
- La Mediana es el valor central de los datos ordenados.
- La Moda es el valor más frecuente.
- La Varianza ($s^2 = \sum(X_i - \bar{X})^2 / (n-1)$) mide la dispersión cuadrática.
- La Desviación Estándar ($s = \sqrt{Varianza}$) es la raíz cuadrada de la varianza.
- El Coeficiente de Variación ($CV = s/\bar{X}$) mide la dispersión relativa.
- El Sesgo:
- Sesgo > 0: indica cola derecha (asimetría positiva).
- Sesgo < 0: indica cola izquierda (asimetría negativa).
- La Curtosis:
- Curtosis > 3: indica colas pesadas (leptocúrtica).
- Curtosis $\approx 3$ y Sesgo $\approx 0$ sugieren normalidad.
Inferencia Estadística y Errores
Errores en el Contraste de Hipótesis
- Error Tipo I ($\alpha$): Rechazar $H_0$ siendo verdadera (falso positivo).
- Error Tipo II ($\beta$): No rechazar $H_0$ siendo falsa (falso negativo).
- La Potencia es $1 - \beta$, la probabilidad de detectar un efecto real.
- Reducir $\alpha$ (nivel de significancia) generalmente aumenta $\beta$.
Distribuciones de Probabilidad Fundamentales
- Normal ($\mu, \sigma^2$): Distribución simétrica fundamental.
- Binomial ($n, p$): Éxitos discretos.
- Poisson ($\lambda$): Eventos raros en un intervalo fijo.
- Exponencial ($\lambda$): Tiempos positivos hasta el primer evento.
- Gamma ($\alpha, \theta$): Tiempos acumulados.
- t-Student ($n-1$ grados de libertad): Usada cuando la varianza poblacional es desconocida.
- Chi-cuadrado ($\chi^2$): Suma de cuadrados de variables normales estándar.
Intervalos de Confianza
Fórmulas para un nivel de confianza $1-\alpha$:
- Media (Varianza $\sigma^2$ conocida): $\bar{X} \pm z_{\alpha/2} \cdot (\sigma/\sqrt{n})$.
- Media (Varianza $s^2$ desconocida): $\bar{X} \pm t_{\alpha/2} \cdot (s/\sqrt{n})$.
- Proporción: $\hat{p} \pm z_{\alpha/2} \cdot \sqrt{\hat{p}(1-\hat{p})/n}$.
- Diferencia de Medias: $(\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2} \cdot S_p \sqrt{1/n_1 + 1/n_2}$.
Contraste de Hipótesis (Test de Hipótesis)
- Formular la hipótesis nula ($H_0$) y la hipótesis alternativa ($H_1$).
- Fijar el nivel de significancia ($\alpha$).
- Calcular el estadístico de prueba:
- Estadístico $Z$: $z = (\bar{X} - \mu_0) / (\sigma/\sqrt{n})$.
- Estadístico $T$: $t = (\bar{X} - \mu_0) / (s/\sqrt{n})$.
- Tomar la decisión:
- Si el p-valor ($p$) es menor que $\alpha$ ($p < \alpha$), se rechaza $H_0$ (hay evidencia estadística).
- Si el intervalo de confianza no incluye $H_0$, se rechaza.
- Si $p \geq \alpha$, no hay evidencia suficiente para rechazar $H_0$.
Tests Específicos
- Test T de dos muestras: $t = (\bar{X}_1 - \bar{X}_2) / (S_p \sqrt{1/n_1 + 1/n_2})$.
- Si las varianzas son distintas, usar el Test de Welch.
- Test F: Compara varianzas. $F = s_1^2 / s_2^2$.
Muestreo y Distribución Muestral
- El Muestreo Estratificado toma una muestra aleatoria dentro de cada subgrupo (estrato).
- El Error Estándar de la Media ($EE = \sigma/\sqrt{n}$) mide la variabilidad de la media muestral. Disminuye si aumenta $n$.
- La Distribución Muestral es la distribución del estimador sobre todas las muestras posibles.
Regresión y Correlación
Regresión Lineal Simple
Modelo: $Y = a + bX$.
- Pendiente ($b$): $b = r \cdot (s_Y / s_X)$.
- Intercepto ($a$): $a = \bar{Y} - b\bar{X}$.
- Coeficiente de Determinación ($R^2 = r^2$): Proporción de la varianza explicada por el modelo.
Correlación
- El Coeficiente de Correlación ($r = Cov(X, Y) / (s_X \cdot s_Y)$) mide la fuerza y dirección de la relación lineal.
Estimación y Propiedades de Estimadores
El Error Cuadrático Medio ($ECM = Var + (Sesgo)^2$) es una medida de calidad.
- Insesgado: $E(\hat{\theta}) = \theta$. El valor esperado del estimador es el parámetro real.
- Eficiente: Posee la mínima varianza posible.
- Consistente: $\hat{\theta} \to \theta$ cuando el tamaño de la muestra ($n$) crece.
- Máxima Verosimilitud (MLE): Estima parámetros que maximizan la función de verosimilitud ($L(\theta)$).
Métodos de Remuestreo y No Paramétricos
Bootstrap
Método de remuestreo con reemplazo utilizado para estimar la distribución de un estimador, calcular el error estándar y los intervalos de confianza.
Estimación de Densidad Kernel (KDE)
Fórmula: $\hat{f}_h(x) = (1/nh)\sum K((x - X_i)/h)$.
- El Bandwidth ($h$) controla el suavizado.
- Kernels comunes: Gaussiano (soporte infinito, estándar), Rectangular (uniforme), Triangular (lineal).
Trade-off Sesgo-Varianza
Este compromiso es crucial en la estimación no paramétrica y el aprendizaje automático:
- $h$ pequeño: Bajo sesgo, pero alta varianza (sobreajuste).
- $h$ grande: Baja varianza, pero alto sesgo (suavizado excesivo).
- Disminuir $h$ reduce el sesgo y aumenta la varianza.
- Aumentar $h$ reduce la varianza y aumenta el sesgo.
Visualización y Diagnóstico
Visualización de Distribuciones
- El Boxplot muestra la mediana, el Rango Intercuartílico (IQR) y los outliers.
- El Histograma muestra la forma de la distribución.
- El QQ-Plot compara cuantiles observados vs. teóricos. Una curva recta indica ajuste normal.
Selección de Modelos y Diagnóstico
- Cullen y Frey: Gráfico que utiliza la asimetría y la curtosis para sugerir distribuciones candidatas.
- En inferencia, elegir el modelo según el soporte de la variable, la forma y el sesgo:
- Normal si es simétrica.
- Gamma o Lognormal si es positiva y asimétrica.
- Exponencial si tiene una cola derecha fuerte.
Conceptos de Riesgo
- Valor en Riesgo (VaR): Percentil $\alpha$ de la distribución de pérdidas. Mide la pérdida máxima esperada con probabilidad $\alpha$.
Herramientas y Paquetes en R (Ejemplos)
Paquete fitdistrplus
Utilizado para el ajuste de distribuciones a datos:
descdist: Sugiere la familia de distribuciones.fitdist: Ajusta la distribución.summary(aux): Muestra los parámetros estimados.plot(aux): Compara el ajuste con los datos.- El Bootstrap en fitdistrplus evalúa la varianza de los parámetros.
Paquetes ggplot y dplyr
Herramientas esenciales para la manipulación y visualización de datos:
filter: Selecciona filas.summarise: Resume datos.mutate: Crea nuevas variables.group_by: Agrupa datos.ggplotcongeom_histogramogeom_boxplot: Visualiza la forma y la dispersión.
Estos conceptos cubren la descripción, inferencia, distribuciones, regresión, bootstrap y kernel, necesarios para interpretar código y resultados en R.