Contrastes de Hipótesis: Definición, Tipos y Ejemplos

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en español con un tamaño de 22,6 KB

Hipótesis

HIPÓTESIS: Es una técnica estadística que se centra en rechazar o no una hipótesis estadística sobre una o más características de una población midiendo el estado de una o más variables y comprobando si se corresponden con los valores esperados.

Contraste de Hipótesis

En un contraste intervienen dos hipótesis:

  • La Hipótesis Nula, H0: Es la hipótesis que se desea contrastar. Suele ser una afirmación preestablecida acerca de la población, que debe aceptarse salvo que nuevos datos demuestren que ha habido un cambio.
  • La Hipótesis Alternativa H1: Es excluyente de H0 y se acepta cuando a partir de la muestra existe una evidencia para rechazar H0, solo será aceptada si recibe una ratificación importante por parte de las observaciones de la muestra.

El contraste de hipótesis busca un criterio que nos permita decidir si nuestros datos son incompatibles con la hipótesis nula pero debemos privilegiar esa hipótesis nula y descartar que el cambio que señala nuestra muestra (valor observado) respecto a la evidencia preexistente (el valor esperado por lo que se sabe hasta entonces) pueda ser debido a las variaciones aleatorias asociadas al muestreo, por lo que Aceptamos H0 si La Discrepancia entre el valor observado y el valor esperado puede ser debida al azar (no hay diferencia) y Rechazamos H0 y aceptamos H1 si La discrepancia entre el valor observado y el valor esperado muy raramente puede ser debida al azar (la diferencia es estadísticamente significativa).

Tipos de Hipótesis Estadísticas

Contrastes Paramétricos: Son los contrastes cuya distribución generalmente es conocida y su finalidad es obtener información sobre los parámetros desconocidos de la población.

Contrastes No Paramétricos: Son los contrastes cuya distribución generalmente no es conocida y su finalidad es determinar alguna característica de la población o de la muestra en estudio.

Siempre que sea posible se deben utilizar los contrastes paramétricos, porque presentan más información que los no paramétricos y tienen asociados intervalos de confianza que permiten conocer cuánto pueden alejarse los parámetros muestrales de los parámetros poblacionales.

Tipos de Contrastes de Hipótesis

  • Contraste bilateral: La hipótesis alternativa de la prueba de hipótesis afirma que el parámetro poblacional es «diferente a» un valor concreto.
  • Contraste unilateral: La hipótesis alternativa de la prueba de hipótesis afirma que el parámetro poblacional es «mayor que» (cola derecha) o «menor que» (cola izquierda) un valor concreto.

Si en la investigación estamos interesados en identificar un incremento o un decrecimiento, pero no ambos, debemos usar un contraste de unilateral. Si estamos interesados en cualquier diferencia respecto al valor de la hipótesis nula el contraste debe ser bilateral.

Decisión y Errores

Se definen dos regiones:

  • La región crítica o de rechazo de HO: En la que se encuentran los valores del estadístico de contraste que es muy poco probable que ocurran si HO es verdadera. Su probabilidad es α, el nivel de significación del contraste.
  • La región de aceptación de HO: En la que se encuentran los valores del estadístico de contraste que es más probable que ocurran si HO es verdadera. Su probabilidad es 1-α, el nivel de confianza.

Una vez definidas estas regiones, la decisión a tomar es la siguiente: - Si el estadístico de contraste cae en la zona de rechazo, entonces se rechaza HO, es decir, se demuestra que HO es falsa. Si el estadístico de contraste cae en la zona de aceptación, se considera que la hipótesis nula HO es compatible con los datos, pero no se demuestra que HO sea cierta.

Se define el NIVEL DE SIGNIFICACIÓN α (alfa): la máxima probabilidad de error de tipo I que estamos dispuestos a asumir, α=P (Rechazar HO| HO Cierta). El nivel de significación del contraste o test se establece de antemano y tiene que ver con los intervalos de confianza.

El P-VALOR es una manera de cuantificar la fuerza de la evidencia contra la hipótesis nula. Es la probabilidad de observar datos al menos tan favorables a la hipótesis alternativa como nuestros datos si la hipótesis nula fuera cierta. El p-valor, p, es el mayor nivel de significación para el que no se rechaza la Hipótesis Nula. La interpretación es la siguiente:

  • Si p<α, entonces rechazamos HO (los datos de la muestra son incompatibles con HO).
  • Si p>α entonces no hay evidencia suficiente para rechazar HO.

Para calcular el p-valor, hay que convertir la diferencia entre el valor observado y el esperado en un estadístico de contraste que se ajuste a la distribución teórica de una variable aleatoria. La probabilidad de que ocurra el valor observado o uno mayor en la distribución teórica es el p-valor.

Principales Contrastes de Hipótesis

  • Una variable
    • Medias (unilaterales y bilaterales)
    • Proporciones (unilaterales y bilaterales)
  • Varias variables
    • Medias (unilaterales y bilaterales)
    • Proporciones (unilaterales y bilaterales)

Fases en la Resolución de Contrastes de Hipótesis

Es similar al del cálculo del intervalo de confianza en la estimación. En la estimación, el IC delimita un valor probable (según el NC) del parámetro a partir del estadístico. En el contraste delimitamos un IC (según NS) del valor esperado (parámetro) y comprobamos si el valor observado (estadístico) está dentro o fuera.

Las complicaciones pueden surgir de:

  • El planteamiento de las hipótesis: distinguir si estamos ante un contraste unilateral o bilateral (en la duda, siempre bilateral).
  • Características de los datos que compliquen el cálculo del error típico: muestras pequeñas, poblaciones finitas, etc.
  • Confusiones con la doble negación: ‘no podemos decir que los nuevos datos no son muy similares a los que ya conocíamos’ ≈ ‘parece que los nuevos datos son similares a los ya conocidos’

Fases en la Resolución de un Contraste de Hipótesis

1- Plantear hipótesis (H0 y H1) 2- Fijar nivel de significación, 3- Establecer si los valores observados son compatibles (aplicar fórmulas) con la hipótesis nula, 4- Tomar una decisión sobre H0

Contrastes en Programas Estadísticos: SPSS

Normalmente, para grandes muestras, se utilizan diferentes programas estadísticos para calcular contrastes de hipótesis para muestras independientes y también para una sola muestra. Por ejemplo:

LOS CONTRASTES NO PARAMÉTRICOS SE UTILIZAN PRINCIPALMENTE PARA TRES CUESTIONES: 1- Comprobar la bondad de ajuste de una distribución desconocida a otra conocida. 2- Comprobar si dos muestras son homogéneas, en el sentido de que proceden de la misma distribución, siendo desconocida la distribución que siguen. 3- Comprobar la independencia de dos variables.

CARACTERÍSTICAS DE LOS CONTRASTES NO PARAMÉTRICOS: No imponen a la distribución de las poblaciones de las que se suponen extraídas las muestras condiciones tan restrictivas como las impuestas por la mayoría de otras técnicas. No exigen distribución poblacional específica ni que sus parámetros tengan determinadas condiciones (igualdad de varianzas, varianza conocida…) - No exigen nivel de medida tan alto como el requerido por las técnicas vistas en unidades anteriores. Así, bastará con conocer el orden de las observaciones.

Ventajas de contrastes no paramétricos: 1- Son válidas cuando las distribuciones poblacionales no verifican las condiciones exigidas por muchas de las técnicas estadísticas paramétricas. 2- Son válidas a niveles de medidas ordinal y también nominal. 3- Son válidas cuando las muestras son pequeñas, pues la distribución muestral de los estadísticos de contraste es determinable con muy pocas observaciones. 4- Los cálculos numéricos exigidos son más sencillos que los de las pruebas paramétricas, a excepción de cuando las muestras son grandes. 5- Sus estadísticos de contraste son determinables a nivel matemático más elemental, aunque hay algunos estadísticos no paramétricos más complejos.

Inconvenientes de contrastes no paramétricos: 1- Dejan de utilizar bastante información contenida en las observaciones al no operar explícitamente con las puntuaciones, sino con sus ordenaciones o con el modo en el que están agrupadas dentro de categorías no ordenadas. 2- Son menos potentes que las pruebas paramétricas, esto es, que si se verifican las condiciones para pruebas paramétricas es conveniente utilizar estas últimas. 3- No se puede extraer conclusiones de una muestra para una población, esto es, no se puede inferir los resultados de una muestra para una población

PRUEBAS NO PARAMÉTRICAS MÁS HABITUALES: 1. Prueba de Kolmogorov-Smirnov 2. Prueba U de Mann-Whitney 3. Prueba de Wilcoxon 4. Prueba de Kruskal-Wallis 5. Prueba de Friedman.

PRUEBA DE KOMOGOROV-SMIRNOV: Es una prueba sobre una sola muestra y nos da información sobre la bondad del ajuste entre la muestra y la población de la cual se supone extraída la muestra. Condiciones: sea Fs (x) una función de distribución bien definida que aceptamos provisionalmente como verdadera respecto a la variable aleatoria X sea Sn la proporción empírica de valores que, de hecho, son iguales o menores que X en la muestra considerada. Hay que establecer las máximas diferencias entre ambas distribuciones. Una vez obtenemos la máxima diferencia, contrastamos dicha diferencia para el nivel de significación requerido y la n dispuesta y contrastamos la hipótesis. Si el valor obtenido como diferencia máxima es mayor que el correspondiente nivel de significación de la tabla de valores de la prueba de Kolmogorov-Smirnov, se rechaza la hipótesis nula, por lo que la población no sigue la distribución teórica que pensábamos (normalmente la distribución teórica con la que se compara suele ser una Normal (0,1)).

PRUEBA U DE MANN-WHITNEY: Es una prueba sobre dos muestras independientes. Consiste básicamente en calcular un estadístico que se distribuye según una N (0, 1) y que nos da información sobre si las dos muestras son iguales, es decir, si tienen la misma distribución. Condiciones: Se supone una muestra aleatoria simple, de tamaño n1, extraída de una población P1 y otra muestra aleatoria simple de tamaño n2, extraída de otra población P2. Se compara cada una de las observaciones de uno de los grupos a considerar con todas las observaciones del otro grupo, asignando un 1 si la observación del primer grupo es mayor que la observación del segundo grupo, 0.5 en caso de empate entre ambas observaciones y 0 en otro caso. Se suman los valores obtenidos y se calcula dicho estadístico para poder probar la hipótesis planteada. Es equivalente a la prueba paramétrica t de Student. La hipótesis de contraste es la siguiente: H0: P1=P2 => (las dos poblaciones son iguales) H1: P1≠P2 => (las dos poblaciones NO son iguales)

En el caso de que, tras aplicar la fórmula (donde el valor más importante es T), acudimos a la tabla de valores de U-Mann-Whitney buscando los pares con un determinado nivel de significación. Así, si el valor encontrado es menor que el nivel de significación, rechazamos que ambas poblaciones son iguales (rechazamos H0).

PRUEBA DE WILCOXON Está destinada a la comparación de dos muestras dependientes o relacionadas. Condiciones: Supongamos que extraemos una muestra aleatoria simple de una población de tamaño m y con dos variables X e Y medidas para cada individuo de la muestra. En esta prueba se ordenan las diferencias de menor a mayor y se obtienen sus rangos respectivos. A continuación, se suman los rangos correspondientes a las diferencias negativas y a las diferencias positivas, es decir cuando la primera observación es mayor que la segunda, y a la inversa, cuando la segunda observación es mayor a la primera. La hipótesis de contraste son las siguientes: H0: las dos poblaciones son iguales H1: las dos poblaciones NO son iguales Su estadístico de contraste es el dispuesto a continuación: W= Σ Oi. En el caso de que, tras aplicar la fórmula en una tabla correspondiente donde mostremos los rangos y la posición que ocupan en la muestra, con un determinado nivel de significación, si el valor encontrado es menor que el nivel de significación, rechazamos que ambas poblaciones son iguales (rechazamos H0).

PRUEBA DE KRUSKAL-WALLIS: Es una prueba destinada a comparar k muestras independientes extraídas de una misma población o de k poblaciones con idénticas distribución. Sigue una distribución Chi-cuadrado. Condiciones: se suponen k muestras aleatorias simples extraídas de una misma población o de diferentes poblaciones con idéntica distribución y sean n1, n2, …, nk observaciones, atribuyendo un 1 a la mínima, un 2 a la inmediatamente superior, … y el valor n a la máxima de todas. Se ordenan todas las observaciones de mayor a menor, independientemente del grupo al que pertenezcan, y se asignan los rangos consecutivamente. Se suman los rangos asignados a cada observación, agrupándolos para cada uno de los grupos de estudio, y se comparan las sumas obtenidas en cada uno de los grupos mediante un estadístico, evaluando su valor respecto a χ² k-1, donde k indica el número de grupos que se están comparando. La hipótesis de contraste es la siguiente: H0: k poblaciones son iguales H1: k poblaciones no son iguales.

Prueba de Friedman: En esta prueba se asignan rangos a las observaciones de un mismo individuo. Por tanto, de lo que realmente se trata es de que tenemos k muestras correlacionadas. Funciona también bajo la distribución Chi-cuadrado. Condiciones: supongamos que n sujetos realizan una prueba X bajo k condiciones distintas. Por tanto, las puntuaciones de la primera persona serían bajo las condiciones k serían X1,k, las de la segunda persona X2, k. La hipótesis de contraste es la siguiente: H0: Igualdad de puntuaciones en la prueba X en todas las k condiciones H1: No Igualdad de puntuaciones en la prueba X en todas las k condiciones

Análisis de la Varianza (ANOVA)

es un procedimiento para descomponer la variabilidad de un experimento en componentes independientes que puedan asignarse a causas diferentes, viene a ser una ampliación de los test para dos muestras independientes observados en el capítulo de las Test de Hipótesis, ya que el número de muestras ha de ser mayor de 2. La prueba de hipótesis con análisis de varianza trata de probar si las medias muestrales difieren más de lo que esperaríamos si la hipótesis nula fuera verdadera. Sorprendentemente, esta cuestiónsobre medias se responde analizando varianzas (por eso el nombre análisis de varianza). De forma más sencilla, lo que queremos decir es que nos concentramos en las varianzas porque cuando estamos interesados en el grado en el que difieren varias medias entre sí, lo que estamos estudiando es la variación entre esas medias. El ANOVA utiliza hipótesis nula en un análisis de varianza establece que las diversas poblaciones que se comparan tienen la misma media. (poblaciones de personas con estudios altos, estudios medios y estudios bajos presentan todas el mismo nivel de celos, es decir, que la media en cuanto a celos es la misma en las tres poblaciones. La hipótesis de investigación establecería que el nivel de celos difiere entre las tres poblaciones, es decir, que sus medias no son todas iguales.

De esta forma, el ANOVA permite contrastar la hipótesis nula de que las medias de K poblaciones (K>2) son iguales, frente a la hipótesis alternativa de que por lo menos una de las poblaciones difiere de las demás en cuanto a su valor esperado. Este contraste es fundamental en el análisis de resultados experimentales, en los que interesa comparar los resultados de K 'tratamientos' o

'factores' con respecto a la variable dependiente o de interés. Por tanto, esta técnica divide la variación total existente en un conjunto de datos en diversas fuentes de variación, y valora mediante un contraste de hipótesis, si la aportación relativa de cada una de estas fuentes de variación a la variación total es significativa o no. Si se obtiene como resultado que el contraste es significativo, es decir que al menos una de las medias es distinta, posteriormente se utilizará el procedimiento de Comparaciones Múltiples a posteriori

SUPUESTOS PARA APLICAR ANÁLISIS ANOVA: 1- Las poblaciones son normales, 2- Las K muestras sobre las que se aplican los tratamientos son independientes, 3-Las poblaciones tienen todas igual varianza (homocedasticidad).

El ANOVA se basa en la descomposición de la variación total de los datos con respecto a la media global (SCT), que bajo el supuesto de que H0 es cierta es una estimación de varianza2 obtenida a partir de toda la información muestral, en dos partes: 1- Variación dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersión de los valores de cada muestra con respecto a sus correspondientes medias. 2- Variación entre muestras (SCE) o Inter-grupos, cuantifica la dispersión de las medias de las muestras con respecto a la media global.

ESTIMACIÓN DE LA VARIANZA POBLACIONAL A PARTIR DE VARIACIÓN DENTRO DE CADA MUESTRA

En el análisis de varianza, como en los tests para dos muestras, no  conocemos las verdaderas varianzas poblacionales, pero al igual que en los test para dos muestras, la varianza de las poblaciones puede estimarse a partir de los valores de cada muestra.

También, al igual que con la prueba para dos muestras, en el análisis de varianza suponemos que todas las poblaciones tienen la misma varianza a la hora de plantear la hipótesis nula. Como se supone que todas las poblaciones tienen la misma varianza, las estimaciones realizadas a partir de los valores de cada muestra pueden combinarse o promediarse para formar una sola y mejor estimación. La estimación combinada resultante se denomina estimación intragrupal de la varianza poblacional.

ESTIMACIÓN DE LA VARIANZA POBLACIONAL A PARTIR DE LA VARIACIÓN ENTRE LAS MUESTRAS

La media de cada muestra es un número por sí mismo. Si existen varias muestras, hay varios números, y estos números tendrán una verdadera variación entre sí. Sucede que la variación entre esas medias nos ofrece otro modo de estimar la varianza en las poblaciones de las que provienen las muestras. Se pueden dar dos casos: cuando la hipótesis nula es verdadera y cuando no lo es.

--Siendo la hipótesis nula verdadera: En primer lugar analizaremos la situación en la que la hipótesis nula es verdadera, de modo que todas las muestras provienen de poblaciones con la misma media. No debemos olvidar que estamos suponiendo que todas las poblaciones tienen la misma varianza. Por lo tanto, si la hipótesis nula es verdadera, todas las poblaciones son idénticas (tienen la misma media, varianza y curtosis). Si trabajamos con muestras de varias poblaciones idénticas, aun cuando las poblaciones sean idénticas, las muestras serán levemente diferentes entre sí, y sus medias también lo serán. ¿En qué medida pueden ser diferentes las medias? Eso depende de cuánta variación haya dentro de cada población. Si una población tiene muy poca variación entre los valores que la conforman, entonces las medias de las muestras de esa población tenderán a ser muy similares entre sí. Lo mismo ocurre con las medias de varias poblaciones idénticas; la media de la muestra de una de las poblaciones tenderá a ser similar a la media de una muestra de cualquier otra. Si varias poblaciones idénticas presentan mucha variación entre los valores que las conforman y tomamos una muestra de cada población, las medias de esas muestras podrían fácilmente ser muy diferentes entre sí y, al serlo, habrá entre ellas una gran varianza. El tema es que cuanta más varianza haya dentro de cada una de varias poblaciones idénticas, mayor varianza habrá entre las medias muestrales cuando se seleccione una muestra de cada población.

--Siendo la hipótesis nula no es verdadera: Si la hipótesis nula no es verdadera y la hipótesis de investigación sí lo es, las propias poblaciones tendrán diferentes medias. En ese caso, la variación entre las medias de muestras tomadas de esas poblaciones sigue siendo el resultado de la variación dentro de las poblaciones. La diferencia radica en que, en este caso, en el que la hipótesis de investigación es verdadera, la variación entre medias muestrales es causada además por la variación entre las medias poblacionales. Es decir, en este caso las medias muestrales se dispersan por dos razones diferentes:1- Por la variación dentro de cada una de las poblaciones, 2- Por la variación entre las poblaciones.

La estimación intergrupal de la varianza poblacional se calcula sobre la base de la variación entre las medias muestrales. Si la hipótesis nula es verdadera, esa estimación es una indicación precisa de la variación dentro de las poblaciones. Pero si la hipótesis nula es falsa, este método de estimación de la varianza poblacional se ve influenciado tanto por la variación dentro de las poblaciones como por la variación entre ellas. Por lo tanto, no proporcionará una estimación precisa de la variación dentro de las poblaciones porque también estará afectada por la variación entre las poblaciones. La diferencia que acabamos de mencionar tiene implicancias importantes: es lo que hace del análisis de varianza un método de prueba de hipótesis basado en la existencia o no de diferencias entre las medias de diferentes grupos.

ESTIMACIÓN DE PARÁMETROS EN ANOVA

La estimación intergrupal y la estimación intragrupal son conceptos utilizados en el análisis de varianza (ANOVA) para entender la variabilidad de los datos y cómo se distribuye entre los grupos y dentro de los grupos. Existe una tabla denominada ANOVA que es utilizada para facilitar los cálculos. Esta tabla es muy importante porque es en la que suelen presentarse los resultados en programas estadísticos

EJEMPLOS EN PROGRAMAS INFORMÁTICOS: Uno de ellos es el SPSS.

Entradas relacionadas: