Estadística Inferencial y Descriptiva: Conceptos Clave y Pruebas de Hipótesis
Enviado por Programa Chuletas y clasificado en Matemáticas
Escrito el en
español con un tamaño de 8,59 KB
Conceptos Fundamentales y Representación de Datos
Población: Se describe mediante parámetros (letras griegas). Se asume que no hay error en la medición poblacional.
Representación Gráfica de Variables
- Variables Cualitativas (Categóricas): Gráficos de sectores y diagramas de barras.
- Variables Cuantitativas: Histogramas, diagramas de caja y bigotes, y polígonos de frecuencia.
Medidas de Forma: Asimetría y Curtosis
Asimetría
Se mide mediante $A_s$ (Pearson) o $g_1$ (Fisher).
- Si la cola se extiende a la derecha, la asimetría es positiva ($g_1 > 0$).
Curtosis ($g_2$)
- Leptocúrtica (Puntiforme): Mayor concentración de datos en el centro ($g_2 > 0$).
- Mesocúrtica (Normal): Distribución normal ($g_2 \approx 0$).
- Platicúrtica (Plana): Menor concentración de datos en el centro ($g_2 < 0$).
Medidas de Variabilidad y Dispersión
- Error Total: Suma de las desviaciones.
- Suma de Errores al Cuadrado ($SC$): Buen indicador de homogeneidad de medias, pero depende fuertemente del número de datos (a mayor $N$, mayor $SC$).
- Varianza Muestral ($s^2$): Suma de errores al cuadrado dividida entre $N-1$. Es útil para comparar la dispersión entre diferentes grupos. Desventaja: las unidades están al cuadrado, dificultando la interpretación directa de la dispersión.
- Desviación Típica o Estándar ($s$): Es la raíz cuadrada de $s^2$. Es la medida más robusta y utilizada. Si $s$ es pequeña, los valores están agrupados. Posee las mismas unidades que la media.
- Error Típico o Estándar de la Media ($EE_{\bar{X}}$): $s / \sqrt{n}$.
Puntuaciones Estandarizadas
- Puntuaciones Diferenciales ($X_{di}$): $X_i - \bar{X}$. Indica la distancia de un valor respecto a la media. La suma de todas las puntuaciones diferenciales es cero.
- Puntuaciones Tipificadas ($Z$): $Z = (X_i - \bar{X}) / s$. Permite transformar cualquier distribución a unidades de Desviación Típica.
Estimación e Inferencia Estadística
Estimación Puntual
Propiedades deseables de los estimadores:
- Suficiencia
- Ausencia de sesgo (insesgadez)
- Consistencia
- Eficiencia
Estimación por Intervalos de Confianza
Se calcula sumando y restando el margen de error al estimador puntual.
- Para un nivel de confianza del 95% (0.95), el valor crítico aproximado es 1.96 (el documento usa 1.95).
- Para un nivel de confianza del 99% (0.99), el valor crítico aproximado es 2.58 (el documento usa 2.57).
Relación entre Variables: Correlación y Regresión
Covarianza
Es la forma más simple de determinar si dos variables cuantitativas están relacionadas. Si es positiva, ambas variables cambian en la misma dirección. Está limitada por la escala de medición, lo que impide la comparación directa si las unidades no son las mismas.
Coeficiente de Correlación de Pearson ($r$)
Es la covarianza estandarizada (dividida por las desviaciones típicas). Permite comparar la fuerza de la relación independientemente de las unidades de medida.
Regresión Lineal
Permite pronosticar el valor de una variable conociendo el valor de otra.
- Regresión Simple: Utiliza una variable predictora (independiente) y una variable dependiente.
- Regresión Múltiple: Utiliza más de una variable predictora (independiente) y una variable dependiente.
Pruebas de Hipótesis Comunes
Resumen de la aplicación de pruebas estadísticas según el tipo de variables:
- T de Student: 1 Variable Cualitativa (2 categorías) + 1 Variable Cuantitativa.
- ANOVA: 1 Variable Cualitativa (3 o más categorías) + 1 Variable Cuantitativa.
- Correlación y Regresión: 2 Variables Cuantitativas.
- Chi Cuadrado ($\chi^2$): 2 Variables Cualitativas.
Prueba T de Student
T de Student para Muestras Independientes
Supuestos
- Normalidad: Si no se cumple, se pueden eliminar outliers o transformar los datos. Alternativa no paramétrica: $U$ de Mann-Whitney.
- Homocedasticidad (Homogeneidad de Varianzas): Se evalúa con el Test de Levene. Si $p > 0.05$, se asume homocedasticidad. Si no se cumple, se debe aplicar una modificación de la prueba T (e.g., corrección de Welch).
- Independencia: Si no se cumple, se debe usar la prueba T para muestras relacionadas.
T de Student para Muestras Relacionadas
Supuestos
- Normalidad de las Diferencias: Si no se cumple, alternativa no paramétrica: Test de Wilcoxon.
Tamaño del Efecto ($r$)
Se calcula como: $r = \sqrt{\frac{t^2}{t^2 + gl}}$
ANOVA (Análisis de Varianza)
ANOVA de 1 Factor Entre Sujetos
El Ratio F se calcula como: $F = MC_m / MC_r$
Componentes de la Varianza
- Media Cuadrática del Modelo ($MC_m$): Variabilidad explicada por el modelo. $MC_m = SC_m / gl_m$ (Suma de Cuadrados del Modelo / Grados de Libertad del Modelo).
- Media Cuadrática Residual ($MC_r$): Variabilidad no explicada (error). $MC_r = SC_r / gl_r$ (Suma de Cuadrados Residual / Grados de Libertad Residual).
Supuestos
- Normalidad: Alternativa no paramétrica: Kruskal-Wallis.
- Homocedasticidad: Si el Test de Levene es significativo ($p < 0.05$), se deben usar estadísticos $F$ alternativos (Welch o Brown-Forsythe).
- Independencia: Si no se cumple, se debe usar ANOVA de Medidas Repetidas.
Pruebas Post-Hoc (Comparaciones Múltiples)
- Asumiendo Varianzas Iguales: DMS, BONFERRONI, SIDAK, TUKEY, GABRIEL.
- No Asumiendo Varianzas Iguales ($p < 0.05$ en Levene): Games-Howell.
ANOVA de Medidas Repetidas
Supuestos
- Normalidad: Alternativa no paramétrica: Friedman.
- Esfericidad: Las varianzas de las diferencias entre las parejas de medidas deben ser similares. Se evalúa con la Prueba de Esfericidad de Mauchly.
Alternativas a la Esfericidad
Si no se cumple la esfericidad, se utilizan:
- Aproximación univariada con ajuste de Grados de Libertad (Límite Inferior, Greenhouse-Geisser, Huynh-Feldt).
- Aproximación multivariada.
Pruebas Post-Hoc
DMS, BONFERRONI, SIDAK.
Tamaño del Efecto ($\eta^2$)
El valor de Eta al Cuadrado ($\eta^2$) se calcula como: $SC_m / SC_t$ ($SC_m$ es la Suma de Cuadrados Entre Grupos).