Conceptos Fundamentales de Estadística: Medidas, Distribuciones y Pruebas de Hipótesis

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en español con un tamaño de 7,2 KB

Medidas Descriptivas y Distribuciones Fundamentales

  • Respecto a las medidas de centralización: la moda puede no ser única; además, en distribuciones simétricas, la media, la mediana y la moda coinciden.
  • Una característica que no define a una distribución normal es: que el 99% de las observaciones caigan dentro de 2 desviaciones típicas (DT) de distancia a la media. (Nota: Aproximadamente el 95.45% de las observaciones caen dentro de ±2 DT en una distribución normal).
  • El nivel de medición de una variable influye en las fórmulas estadísticas que se utilizan para probar hipótesis teóricas.
  • Variables de intervalo: los intervalos entre puntos son iguales entre cualquier par de puntos de la recta. Además, permiten establecer relaciones de cantidad entre los valores asignados a las modalidades de las características que miden.
  • No se puede calcular la media de variables categóricas nominales, como podría ser una variable de "grupo de tratamiento" si esta no tiene un orden o valor numérico intrínseco.
  • Las propiedades que caracterizan a una distribución normal tipificada (o estándar Z) son: media igual a 0 y Desviación Típica (DT) igual a 1.
  • Una propiedad que no se corresponde con la distribución de probabilidad t de Student es: que tenga 'dos parámetros denominados grados de libertad'. (Aclaración: La distribución t estándar se caracteriza por un solo parámetro: los grados de libertad).
  • La forma de la distribución normal cambia cuando cambia su Desviación Típica (DT); también cambia si se modifica su media (posición).
  • Suponiendo que la edad de los sujetos de una población sigue una distribución normal, si se extrae una muestra aleatoria de 300 sujetos con una media de 50 años y una Desviación Típica (DT) de 10 años: aproximadamente el 95% de los sujetos de la población tendrían edades entre 30 y 70 años (es decir, media ± 1.96*DT, comúnmente aproximado a 2*DT).

Teoría de Muestreo y Estimación

  • Según el Teorema Central del Límite: la media de los promedios muestrales tiende a ser la misma que la media de la variable original en la población. Además, dada una variable aleatoria cualquiera (con varianza finita), los promedios muestrales de sucesivas muestras suficientemente grandes extraídas de la población tienden a seguir una distribución aproximadamente normal.
  • Para saber si una observación de una variable aleatoria, como el valor de un estadístico, es anómala (atípica), podemos utilizar, entre otros métodos, la función de distribución acumulada del estadístico o calcular su puntuación Z.
  • Una distribución muestral es la distribución de probabilidad teórica de un estadístico (ej. la media muestral) calculado a partir de todas las muestras posibles de un tamaño dado, extraídas de una población.
  • Un parámetro es una característica numérica de una población (ej. la media poblacional μ). Generalmente, se infiere a partir de los estadísticos muestrales.
  • Un estadístico es un valor numérico definido sobre los valores de una muestra (ej. la media muestral x̄).
  • En el muestreo probabilístico, se puede calcular la probabilidad asociada a la selección de cada una de las muestras posibles que se pueden extraer de una determinada población.

Contraste de Hipótesis

  • El nivel de significación (α) indica:
    • La probabilidad de cometer un error de tipo I (rechazar la hipótesis nula H0 cuando esta es verdadera).
    • La probabilidad de que el estadístico de prueba caiga en la región crítica (o de rechazo), bajo la suposición de que la hipótesis nula (H0) es cierta.
  • Se entiende que un contraste de hipótesis es estadísticamente significativo si los datos de la muestra aleatoria proporcionan suficiente evidencia para rechazar la hipótesis nula (H0), es decir, no son coherentes con H0.
  • La zona de rechazo o zona crítica es el conjunto de valores del estadístico de prueba en la distribución muestral que son tan extremos (alejados de la afirmación de la hipótesis nula H0) que es poco probable que ocurran si H0 es verdadera. Si el estadístico cae en esta zona, se rechaza H0.
  • La probabilidad asociada a la zona de no rechazo (o zona de aceptación) es el nivel de confianza, y se representa como 1-α (uno menos alfa).
  • El p-valor es la probabilidad de obtener un resultado al menos tan extremo como el observado en la muestra, asumiendo que la hipótesis nula (H0) es verdadera. Se rechaza H0 si el p-valor ≤ α (nivel de significación).
  • El contraste de hipótesis de Levene se utiliza para comprobar la homogeneidad de varianzas (homocedasticidad) entre dos o más grupos. La hipótesis nula (H0) plantea que las varianzas son iguales en los grupos, mientras que la hipótesis alternativa (H1) plantea que al menos una varianza es diferente.
  • Afirmación incorrecta: "El test de Levene sirve para evaluar el supuesto de normalidad". (Aclaración: El test de Levene evalúa la homogeneidad de varianzas, no la normalidad. Para normalidad se usan tests como Shapiro-Wilk o Kolmogorov-Smirnov).
  • Si una prueba de homogeneidad de varianzas (ej. Test de Levene) resulta significativa (es decir, su valor p es menor que el nivel de significación α), se rechaza la hipótesis nula de igualdad de varianzas. En tal caso, para comparar medias entre dos grupos, se debería utilizar una variante de la prueba t que no asuma varianzas iguales, como la prueba t de Welch.
  • Los grados de libertad (gl o df):
    • Se calculan de forma distinta para cada estadístico y prueba.
    • Sirven para determinar la forma específica de la distribución del estadístico de prueba (ej. t, F, chi-cuadrado) y, con ello, definir la región crítica o calcular el p-valor.

Entradas relacionadas: