Conceptos Esenciales de Estadística Descriptiva: Fórmulas y Aplicaciones
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en español con un tamaño de 14,31 KB
Fórmulas Estadísticas Fundamentales
- Frecuencia Unitaria (xi): Valor individual de la variable.
- Frecuencia No Unitaria (xi): Valores de la variable cuando se repiten.
- Frecuencia Absoluta (ni): Número de veces que se repite un valor o que una observación cae dentro de un intervalo.
- Frecuencia Absoluta Acumulada (Ni): Suma de las frecuencias absolutas hasta un determinado valor o intervalo.
- Frecuencia Relativa (fi): Proporción de la frecuencia absoluta respecto al total de observaciones (ni/N).
- Frecuencia Relativa Acumulada (Fi): Suma de las frecuencias relativas hasta un determinado valor o intervalo (Ni/N).
- Densidad de Frecuencia (hi): Para intervalos, se calcula como ni/ci, donde ci es la amplitud del intervalo. Es crucial para la moda en datos agrupados.
Representación Gráfica de Datos
La elección del gráfico depende de si los datos están agrupados en intervalos o no.
Para Datos Agrupados en Intervalos:
- Histograma: Representa la distribución de frecuencias de una variable continua.
- Eje de ordenadas (Y): Densidad de frecuencia (hi).
- Eje de abscisas (X): Valores de la variable (xi) o intervalos.
- Polígono de Frecuencias: Se construye uniendo los puntos medios de la parte superior de las barras de un histograma.
- Eje de ordenadas (Y): Frecuencia Absoluta Acumulada (Ni) o Frecuencia Absoluta (ni).
- Eje de abscisas (X): Valores de la variable (xi) o marcas de clase.
Para Datos No Agrupados en Intervalos:
- Diagrama de Barras: Utilizado para variables discretas o cualitativas.
- Eje de ordenadas (Y): Frecuencia Absoluta (ni).
- Eje de abscisas (X): Valores de la variable (xi).
- Diagrama de Escalera (o de Frecuencias Acumuladas): Muestra la frecuencia acumulada.
- Eje de ordenadas (Y): Frecuencia Absoluta Acumulada (Ni).
- Eje de abscisas (X): Valores de la variable (xi).
Medidas de Posición Central
Media Aritmética (Promedio)
Se calcula como la suma de los productos de cada valor por su frecuencia absoluta, dividida por el número total de observaciones (N).
Fórmula: Σ(xi · ni) / N
Propiedades de la Media:
- La suma de las desviaciones de los valores respecto a la media es cero: Σ((xi - Media) · ni) = 0.
- La suma de los cuadrados de las desviaciones de los valores respecto a una constante K, S(K) = Σ((xi - K)2), es mínima cuando K es igual a la media.
- Si el total de observaciones se estratifica en L grupos diferentes, la media global es una media ponderada de las medias de cada grupo: (x̄1 · N1 + x̄2 · N2 + ... + x̄L · NL) / (N1 + N2 + ... + NL).
Media Geométrica
Se utiliza para promediar tasas de crecimiento o valores que se multiplican. Se calcula como la raíz N-ésima del producto de todos los valores.
Fórmula: N√(x1 · x2 · ... · xN)
Media Armónica
Es útil para promediar tasas o velocidades. Se calcula como el número total de observaciones dividido por la suma de los inversos de cada valor.
Fórmula: N / Σ(1/xi)
Mediana
Es el valor central de un conjunto de datos ordenados. Deja el 50% de las observaciones por debajo y el 50% por encima.
Para Frecuencias Unitarias (Datos No Agrupados):
- Si N es impar: La mediana es el valor en la posición (N+1)/2.
- Si N es par: La mediana es el promedio de los valores en las posiciones N/2 y (N/2)+1.
Para Frecuencias No Unitarias (Datos No Agrupados en Intervalos):
- Calcular la posición de la mediana: N/2.
- Considerar las Frecuencias Absolutas Acumuladas (Ni).
- Buscar el primer Ni que sea mayor o igual que N/2.
- Si Ni es estrictamente mayor que N/2, la mediana es la xi correspondiente a ese Ni.
- Si Ni es igual a N/2, la mediana es el promedio de la xi correspondiente y la siguiente xi.
Para Frecuencias Agrupadas en Intervalos:
- Calcular la posición de la mediana: αN, donde α es la proporción (generalmente 0.5 para la mediana, es decir, N/2).
- Considerar las Frecuencias Absolutas Acumuladas (Ni).
- Buscar el primer Ni que sea mayor o igual que αN e identificar el intervalo mediano.
- Aplicar la fórmula de interpolación:
Mediana = Li + [(αN - Ni-1) / ni] · ci
Donde:
- Li: Límite inferior del intervalo mediano.
- Ni-1: Frecuencia absoluta acumulada del intervalo anterior al mediano.
- ni: Frecuencia absoluta del intervalo mediano.
- ci: Amplitud del intervalo mediano.
Moda
Es el valor o valores que aparecen con mayor frecuencia en un conjunto de datos.
- Moda Absoluta: El valor de la variable con la mayor frecuencia absoluta (ni).
- Moda Relativa (o Local): Valor de la variable cuya frecuencia (ni) no es superada por las de sus valores contiguos, indicando posibles picos en la distribución (útil en distribuciones multimodales).
Para Datos Agrupados en Intervalos (Clase Modal):
Se identifica el intervalo con la mayor densidad de frecuencia (hi = ni/ci). La moda se calcula mediante interpolación:
Moda = Li + [d1 / (d1 + d2)] · ci
Donde:
- Li: Límite inferior del intervalo modal.
- d1: Diferencia entre la frecuencia del intervalo modal y la frecuencia del intervalo anterior.
- d2: Diferencia entre la frecuencia del intervalo modal y la frecuencia del intervalo posterior.
- ci: Amplitud del intervalo modal.
Medidas de Posición No Central (Cuantiles)
Dividen la distribución en partes iguales, permitiendo conocer la posición relativa de un valor.
- Cuartiles (Qk): Dividen la distribución en cuatro partes iguales (Q1, Q2, Q3). La posición se calcula como k · N / 4.
- Deciles (Dk): Dividen la distribución en diez partes iguales. La posición se calcula como k · N / 10.
- Percentiles (Pk): Dividen la distribución en cien partes iguales. La posición se calcula como k · N / 100.
Cálculo de Cuantiles en Distribuciones No Agrupadas en Intervalos:
- Calcular la posición del cuantil deseado: rK/q = αN (donde α es la proporción, por ejemplo, 0.25 para Q1, 0.5 para Q2, 0.75 para Q3, etc.).
- Considerar las Frecuencias Absolutas Acumuladas (Ni).
- Buscar el primer Ni que sea mayor o igual que αN.
- Si Ni es estrictamente mayor que αN, el cuantil es directamente el valor de xi correspondiente.
- Si Ni es igual a αN, el cuantil es el promedio de la xi correspondiente y la siguiente xi.
Cálculo de Cuantiles con Intervalos:
- Calcular la posición del cuantil deseado: αN.
- Considerar las Frecuencias Absolutas Acumuladas (Ni) y buscar el primer Ni mayor o igual que αN para identificar el intervalo del cuantil.
- Aplicar la fórmula de interpolación (similar a la mediana):
Cα = Li + [(αN - Ni-1) / ni] · ci
Donde:
- Li: Límite inferior del intervalo del cuantil.
- Ni-1: Frecuencia absoluta acumulada del intervalo anterior al del cuantil.
- ni: Frecuencia absoluta del intervalo del cuantil.
- ci: Amplitud del intervalo del cuantil.
Medidas de Dispersión
Indican la variabilidad o la dispersión de los datos alrededor de una medida de posición central.
Medidas de Dispersión Absolutas:
- Rango (o Recorrido): Diferencia entre el valor máximo y el valor mínimo de la variable (xmax - xmin).
- Recorrido Intercuartílico: Diferencia entre el tercer cuartil y el primer cuartil (Q3 - Q1). Es menos sensible a valores extremos.
- Desviación Media: Promedio de las desviaciones absolutas de los valores respecto a la media.
Fórmula: Σ(ni · |xi - Media|) / N
- Desviación Mediana: Promedio de las desviaciones absolutas de los valores respecto a la mediana.
Fórmula: Σ(ni · |xi - Mediana|) / N
- Varianza (s2): Promedio de los cuadrados de las desviaciones de los valores respecto a la media.
Fórmula: Σ(xi2 · ni) / N - (Media)2
- Desviación Típica (s): Raíz cuadrada de la varianza. Es la medida de dispersión más utilizada y está en las mismas unidades que la variable original.
Fórmula: √Varianza
Nota sobre cambios de escala y origen: La varianza y la desviación típica son invariantes ante cambios de origen (suma o resta de una constante), pero no ante cambios de escala (multiplicación o división por una constante).
Medidas de Dispersión Relativas:
Permiten comparar la dispersión entre distribuciones con diferentes unidades o magnitudes.
- Coeficiente de Apertura: Relación entre el valor máximo y el valor mínimo (xmax / xmin).
- Recorrido Relativo: Rango dividido por la media (Rango / Media).
- Coeficiente de Variación de Pearson (CV): Relación entre la desviación típica y la media.
Fórmula: CV = s / Media
Se utiliza para evaluar la homogeneidad de una distribución. Cuanto más se acerca a 0, más homogénea es la distribución. Una dispersión relativa se considera alta si supera el 30%.
Momentos
Los momentos son medidas que describen la forma de una distribución de probabilidad.
Momentos Respecto al Origen (ak):
- a0 = 1
- a1 = Media
- a2 = Σ(xi2 · ni) / N
- a3 = Σ(xi3 · ni) / N
- ...y así sucesivamente para momentos de orden superior.
Momentos Respecto a la Media (mk):
- m0 = 1
- m1 = 0 (la suma de las desviaciones respecto a la media es cero)
- m2 = Σ((xi - Media)2 · ni) / N = s2 (Varianza)
- m3 = Σ((xi - Media)3 · ni) / N (relacionado con la asimetría)
- m4 = Σ((xi - Media)4 · ni) / N (relacionado con la curtosis)
Medidas de Concentración
Evalúan cómo se distribuye una variable entre los individuos o unidades de una población.
- Proporción Acumulada de Individuos (pi): Proporción de individuos o unidades hasta un determinado intervalo (Ni/N = Fi).
- Cantidad Acumulada de Recursos (xini acumulado): Suma acumulada de los valores de la variable (recursos) hasta un intervalo.
- Proporción Acumulada de Recursos (qi): Proporción de los recursos acumulados respecto al total de recursos (xini acumulado / Σ(xini)).
Curva de Lorenz
Representación gráfica de la distribución de una variable. Una línea recta diagonal indica equidistribución perfecta (cada proporción de individuos posee la misma proporción de recursos). La curva de Lorenz se desvía de esta línea cuanto mayor es la concentración.
Se utiliza para analizar la concentración o equidistribución de una variable (ej. ingresos, riqueza).
Índice de Gini
Medida numérica de la concentración, derivada de la Curva de Lorenz. Varía entre 0 (equidistribución perfecta) y 1 (máxima concentración).
Fórmula: 1 - Σ(qi / pi) (simplificada, la fórmula real es más compleja y considera el área bajo la curva).
Tipificación de Variables (Puntuación Z)
Proceso de transformar una variable a una escala estándar, con media 0 y desviación típica 1. Permite comparar valores de diferentes distribuciones.
Fórmula: Z = (X - Media) / Desviación Típica
Ejemplo:
Comparar el rendimiento académico de dos estudiantes en diferentes sistemas de calificación para una beca:
- Estudiante A: Calificación = 8, Calificación Media de su grupo = 6, Desviación Típica de su grupo = 1.
- Estudiante B: Calificación = 80, Calificación Media de su grupo = 70, Desviación Típica de su grupo = 10.
Cálculo de la Puntuación Z para el Estudiante A:
ZA = (8 - 6) / 1 = 2
Cálculo de la Puntuación Z para el Estudiante B:
ZB = (80 - 70) / 10 = 1
Conclusión: Aunque el Estudiante B tiene una calificación nominalmente más alta, el Estudiante A tiene una puntuación Z más alta (2 vs 1), lo que indica que su rendimiento es relativamente mejor dentro de su grupo, estando 2 desviaciones típicas por encima de la media, mientras que el Estudiante B está solo 1 desviación típica por encima.