Estadística Descriptiva: Organización y Resumen de Observaciones

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en español con un tamaño de 15,26 KB

Estadística Descriptiva: Organización y Resumen de Observaciones

ESTADÍSTICA DESCRIPTIVA: Se organizan y resumen un conjunto de observaciones procedentes de una muestra o de la población total, en forma cuantitativa.

Variables

- En el caso de una variable, obtendremos determinados estadísticos o índices que nos indicarán cuáles son los valores más habituales de esa variable (índices de tendencia central), hasta qué punto esos valores son similares o diferentes entre sí (estadísticos de variabilidad o dispersión) y en qué grado las observaciones se reparten equilibradamente por encima y por debajo de la tendencia central (estadísticos de asimetría o forma).

- En el caso de dos variables podemos utilizar estadísticos o índices que nos indiquen hasta qué punto están ambas variables relacionadas entre sí (coeficientes de asociación o correlación), así como procedimientos que nos permitirán predecir el valor de una variable en función de otra (ecuaciones de regresión).

Estadística Inferencial

La estadística inferencial o inductiva se ocupa de la realización de inferencias o inducción de propiedades de una población basándose en los datos obtenidos a partir de una muestra. Para realizar estas generalizaciones de la muestra a la población total se utiliza el cálculo de probabilidades.

Niveles de Medición

- Nivel Nominal: Consiste en la asignación puramente arbitraria de números o símbolos a cada una de las diferentes modalidades de la característica de una variable.

- Nivel Ordinal: Además de clasificar las categorías, también se les asigna un orden. Esta escala no solo permite la identificación y diferenciación de los sujetos, sino que además permite establecer relaciones del tipo 'mayor que' o 'menor que'.

- Nivel Intervalo: Son aquellas que clasifican y ordenan los objetos o eventos manteniendo intervalos iguales entre las unidades de medida. Con la escala de intervalo, los números asignados a los objetos no solo permiten decidir si un objeto es igual o diferente a otro, sino que estos números se pueden sumar y restar; y además, las diferencias entre esos números se pueden multiplicar y dividir. En la escala de intervalo, el origen es arbitrario.

- Nivel de Razón: Se caracteriza porque tiene todas las propiedades de una medida de intervalo y, además, se le puede asignar un punto de origen verdadero de valor cero, es decir, el valor cero de esta escala significa ausencia de la magnitud que estamos midiendo. Dado que el cero ya no es arbitrario, sino un valor absoluto, podemos decir que A tiene dos, tres o cuatro veces la magnitud de la propiedad presente en B. La altura y el peso son dos ejemplos típicos de escala de razón.

Variables

Variable: Es una representación numérica de una característica que presenta más de una modalidad (valor) de un conjunto determinado.

Clasificación de las Variables: Si una variable presenta solo dos categorías se dice que es una variable dicotómica (por ejemplo, el sexo); si presenta más de dos categorías se dice que es una variable politómica (por ejemplo, el lugar de residencia). Variable Dependiente: Son las variables problemas sobre las que influye el resto de las variables. Variable Independiente: Son las variables explicativas o influyentes de las variables dependientes o problema. Variables Extrañas: Son variables que influyen sobre el problema o experimento pero no las tenemos en cuenta. Variable de Control: Ejercen control sobre las variables independientes para explicar el problema o variable dependiente.

Variables Cuantitativas

Las cuantitativas se clasifican en: Variables Continuas: Son las que los individuos pueden tener valores en cualquier punto de una escala ininterrumpidamente (por ejemplo, peso, puede existir 79.4). Variables Discretas: Es aquella que adopta valores aislados. Fijados dos consecutivos, no se puede tomar ningún valor intermedio (por ejemplo, hijos, no puede haber 2.5 hijos).

Medidas de Tendencia Central

Frecuencias Absolutas: El número de veces que se repite cada uno de los valores de una variable. La suma de todas las frecuencias absolutas de la muestra representa el total de la muestra.

Frecuencia Relativa: Sería el cociente entre las frecuencias absolutas y el número de casos.

Medidas de Tendencia Central: Son los valores centrales de la variable, son las medidas o índices de tendencia central. Los índices de tendencia central permiten representar toda la distribución de frecuencias con un único valor y, además, facilitan la comparación de diferentes conjuntos de puntuaciones de una variable. Las más habituales son la media, mediana y moda.

1- Media

Es el valor central alrededor del cual están la mayoría de las observaciones e indica la tendencia general de una distribución de frecuencias de una variable (solo para variables cuantitativas). La media aprovecha toda la información disponible en los datos, ya que para su cálculo es necesario utilizar todas las puntuaciones de los sujetos.

2- Mediana

De una variable es el valor que divide la distribución de frecuencias en dos partes iguales, conteniendo cada una de ellas el 50% de las observaciones (buena para asimétricas).

3- Moda

Para variable cualitativa, la moda es la categoría con la máxima frecuencia. Para cuantitativa con los datos no agrupados en intervalos, la moda es el valor con la mayor frecuencia absoluta. Para una variable cuantitativa con los datos agrupados en intervalos, se localiza el intervalo modal que es el intervalo con la frecuencia máxima y la moda es el punto medio de dicho intervalo. Cuando en una variable existe un único valor frecuencia máxima, la distribución presenta una moda y es unimodal, pero puede haber más modas.

Índices o Medidas de Posición

Informan acerca de la posición relativa de un sujeto con respecto a su grupo de referencia dentro de la distribución de frecuencias de la variable. Pueden ser: percentiles (son los 99 valores de la variable que dividen en 100 partes iguales la distribución de frecuencias), cuartiles (son tres valores de la variable que dividen en cuatro partes de igual frecuencia a la distribución).

Índices o Medidas de Variabilidad

Muestran la dispersión de los datos de una distribución. 1- Amplitud de Intervalo: De una distribución es la distancia que hay en una escala numérica entre los valores que representan la puntuación máxima y la puntuación. 2- Varianza: De un conjunto de N puntuaciones en una variable X, se define como el promedio de los cuadrados de las desviaciones de las puntuaciones respecto a la media. 3- Desviación Típica: Es la raíz cuadrada de la varianza. 4- Coeficiente de Variabilidad: El porcentaje entre la desviación típica y la media aritmética. 5- Amplitud Semi-Intercuartílica: Es la distancia media entre el tercer cuartil y el primer cuartil. 6- Asimetría: De una distribución nos indica el grado en el que las puntuaciones de los sujetos se reparten por debajo o por encima de la medida de tendencia central. 7- Coeficiente de Asimetría de Pearson: Sería la media aritmética menos la moda dividido por la desviación típica, que daría valores positivos o negativos, nos indicaría la asimetría de una distribución, si es negativa la distribución se inclinaría hacia la derecha y en caso de ser positiva se inclinaría hacia la izquierda. 8- Las Puntuaciones Típicas: Se consiguen al restar a las puntuaciones directas a la media obteniendo una nueva escala con media 0 y con idéntica varianza a las puntuaciones directas.

Asociación de Dos Variables

Dos variables están asociadas entre sí cuando ciertos valores de una variable se relacionan con ciertos valores de la otra variable. Cuando se dispone de datos de dos variables cualitativas para todos los sujetos de una muestra se puede elaborar una tabla de contingencia (ordena y organiza todos los datos de una muestra de dos variables cualitativas que pueden contener frecuencias empíricas, teóricas y diferencias). A través de un estadístico denominado chi cuadrado podemos medir la naturaleza y el grado de asociación entre dos variables. El cálculo del chi-cuadrado sería la sumatoria de las diferencias al cuadrado dividida cada una de ellas por sus frecuencias teóricas. El coeficiente de contingencia es igual a la raíz cuadrada del chi cuadrado dividido por el chi cuadrado más el número de casos. Se puede obtener un coeficiente de contingencia máximo para conocer el grado de asociación.

Chi Cuadrado

El chi cuadrado se define como la función entre las frecuencias empíricas u observadas y las frecuencias teóricas. Se calcularía a través de la sumatoria de las diferencias al cuadrado dividida cada una de ellas por sus frecuencias teóricas. Un chi cuadrado cercano a cero nos indicaría la falta de asociación entre dos variables.

Correlación entre Variables Cuantitativas

Deberemos realizar el cálculo del coeficiente de correlación de Pearson. Si los valores de coeficiente de correlación de Pearson oscilan entre -1 a +1, si hay una correlación de 1 significa que hay la máxima correlación positiva y directa entre ambas variables, si la correlación es -1 es que la corrección es negativa y la relación es inversa entre ambas variables. Si el coeficiente de correlación es 0 es que no hay correlación entre ambas variables.

Regresión Lineal

Cuando existe una relación lineal se puede usar la recta de regresión para efectuar predicciones de los valores de una variable a partir de la otra. La ecuación general de la recta de regresión sería y = a + bx, donde 'b' es la pendiente y 'a' es el origen. El signo del coeficiente de correlación de Pearson nos dice si la relación lineal entre las variables es directa o inversa, pues el signo del coeficiente de x en la fórmula de regresión es el mismo del coeficiente de correlación de Pearson.

Frecuencias Teóricas

Se calculan asumiendo que ambas variables son independientes o no relacionadas. Las frecuencias teóricas son el producto del total de su fila por el total de su columna dividido por la frecuencia total.

Diferencias Empíricas y Teóricas Variables Cualitativas

Los valores positivos y negativos de las diferencias entre frecuencias empíricas y teóricas nos muestran el tipo de relación entre dos variables cualitativas. La suma de las diferencias es cero.

Diagrama de Dispersión

Muestra la relación gráfica entre dos variables cuantitativas X e Y.

Covarianza

El término covarianza hace referencia a la variación conjunta entre dos variables cuantitativas.

Coeficiente de Correlación de Pearson

Mide el grado y el tipo de asociación entre dos variables cuantitativas. Es el cociente entre la covarianza de X e Y y el producto de las desviaciones de X e Y.

Relación Lineal Directa

Es la que asume que a valores mayores en una de las variables, corresponden también valores mayores en la otra variable, y los valores menores de una variable se corresponden también con los valores menores de la otra variable.

Relación Lineal Inversa

Es la que asume que a los valores mayores en una de las variables corresponden valores menores en la otra variable y viceversa.

Entradas relacionadas: