Estadística descriptiva y probabilidad: conceptos, medidas y técnicas esenciales
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en
español con un tamaño de 8,29 KB
Objetivos de la estadística descriptiva
Objetivo: describir y analizar las características de un conjunto de datos, deduciendo a partir de esta descripción conclusiones sobre su estructura, composición, comportamiento y la relación con otras poblaciones.
Definiciones básicas
Experimento
Definición: cualquier proceso que permite asociar a un individuo, elemento de una población u objeto un dato numérico o no numérico, tomado entre todos los valores de un conjunto dado a priori.
Ensayo o prueba
Ensayo o prueba: realización concreta de un experimento.
Experimento aleatorio
Experimento aleatorio: es un experimento para el cual no podemos saber el dato que se obtendrá a priori.
Población
Población: conjunto de individuos sobre los que se realiza el experimento. El tamaño puede ser finito o infinito.
Muestra
Muestra: parte de la población extraída para obtener información. El número de individuos de la muestra se conoce como tamaño muestral y se denota generalmente por n.
Variable y tipos
Variable: cualquier característica que podemos medir u observar objetivamente en un individuo. De forma general, una variable se denotará como x o z.
Tipos de variables:
- Cualitativas: el resultado no es numérico (categorías, etiquetas).
- Cuantitativas: el resultado es numérico. Dentro de las cuantitativas:
- Discretas: toman valores numéricos finitos o infinitos numerables.
- Continuas: toman valores en un intervalo de la recta real.
Frecuencias
- Frecuencia absoluta (fi): número de veces que aparece un dato.
- Frecuencia relativa (hi): proporción o % de veces que aparece xi en el conjunto de datos.
- Frecuencia absoluta acumulada (Fi): total de veces que aparece dicho valor y todos los anteriores.
- Frecuencia relativa acumulada (Hi): % acumulado correspondiente al valor y los anteriores.
Medidas de localización
Sirven para identificar en qué zona de valores están concentrados los datos. Entre las principales:
- Media: valor numérico que representa el centro de las observaciones (promedio).
- Mediana (Me): valor que deja el 50% de los datos a su izquierda y el 50% a su derecha.
- Percentil (Qp): valor que deja p·100% de los datos a su izquierda y el restante (1−p)·100% a su derecha. Cuando p = 0,50 se obtiene la mediana Q50 = Me. Para p = 0,25 y p = 0,75 se obtienen, respectivamente, el cuartil inferior (Q1) y el cuartil superior (Q3).
Medidas de dispersión
Indican qué tan dispersas están las observaciones con respecto a una medida de localización:
- Rango: diferencia entre el valor máximo y el valor mínimo de la muestra.
- Varianza: promedio de las diferencias al cuadrado entre las observaciones y su valor medio.
- Desviación estándar: raíz cuadrada de la varianza (indica dispersión en las mismas unidades que los datos).
Diagrama de dispersión y relación entre variables
Diagrama de dispersión: consiste en representar pares de datos en un sistema de ejes coordenados (eje horizontal x y eje vertical y).
Interpretación:
- Si el diagrama muestra una tendencia creciente, las variables mantienen una relación positiva (a mayor x, mayor y).
- Si muestra una tendencia decreciente, la relación es negativa (a mayor x, menor y).
- Si no hay patrón sistemático, no existe una relación aparente entre las variables.
Mínimos cuadrados
Definición: el método de mínimos cuadrados determina la recta de regresión lineal de forma que la suma de los cuadrados de los residuos (diferencias verticales entre los datos observados y los predichos por la recta) sea mínima.
Covarianza y correlación
Covarianza: mide la tendencia conjunta de dos variables a desviarse de sus medias. Si la asociación es positiva (valores bajos en una variable corresponden a valores bajos en la otra, o altos con altos), la covarianza es positiva; si una variable tiende a ser alta cuando la otra es baja, la covarianza es negativa. La covarianza depende de las unidades de las variables.
Coeficiente de correlación (ρ o r): es una medida adimensional que normaliza la covarianza y toma valores en el intervalo [-1, 1]. Si r ≠ 0 hay asociación lineal; si r = 1 o r = −1 hay una relación lineal perfecta (positiva o negativa, respectivamente).
Probabilidad
Contexto frecuentista
Según la interpretación frecuentista, cuanto más veces se repita un experimento, las frecuencias relativas de los sucesos tienden a estabilizarse, aun cuando el comportamiento sea aleatorio.
Definición axiomática de probabilidad
La definición axiomática especifica las condiciones (axiomas) mínimas que debe cumplir una función definida sobre un conjunto de sucesos para que pueda interpretarse como una probabilidad (no negatividad, probabilidad del espacio total igual a 1, aditividad sobre sucesos disjuntos).
Regla de Laplace
Si los sucesos elementales observables tienen todos la misma probabilidad, la probabilidad de cualquier suceso se obtiene como el cociente entre el número de casos favorables y el número total de casos posibles.
Probabilidad condicionada e independencia
Probabilidad condicionada: la probabilidad de que ocurra un evento A dado que ha ocurrido otro evento B, se denota P(A|B).
Independencia: dos sucesos A y B son independientes si P(A|B) = P(A) (equivalentemente P(B|A) = P(B)), es decir, el conocimiento de que uno ocurre no cambia la probabilidad del otro.
Partición del espacio muestral
Una partición del espacio muestral es una colección de sucesos mutuamente excluyentes y exhaustivos cuya unión es el espacio muestral completo. Estas particiones son útiles para calcular probabilidades compuestas.
Teorema de la probabilidad total
Sea A un suceso cualquiera y B1, B2, ..., Bn una partición del espacio muestral. Entonces:
P(A) = Σi=1n P(A | Bi) · P(Bi).
Regla de Bayes
Si B1, ..., Bn es una partición del espacio muestral y A un suceso con P(A) > 0, entonces la probabilidad posterior de Bi dado A viene dada por:
P(Bi | A) = P(A | Bi) · P(Bi) / P(A),
donde P(A) se puede calcular mediante el teorema de la probabilidad total.
Referencias rápidas (términos clave)
- Población — conjunto total de interés.
- Muestra — subconjunto observado (tamaño n).
- Variable — característica medida (cualitativa o cuantitativa).
- Frecuencias — absoluta, relativa y acumuladas.
- Medidas de localización — media, mediana, percentiles.
- Medidas de dispersión — rango, varianza, desviación estándar.
- Relación entre variables — diagrama de dispersión, covarianza, correlación y regresión (mínimos cuadrados).
- Probabilidad — enfoques frecuentista y axiomático; reglas fundamentales: Laplace, probabilidad condicionada, teorema de la probabilidad total y Bayes.