Conceptos Clave de Asociación Estadística, Correlación y Descriptivos
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en español con un tamaño de 7,15 KB
Medidas Estadísticas Fundamentales
Medidas de Asociación en Test Chi-Cuadrado (Tabla 2x2)
Estas medidas sirven para cuantificar la fuerza de la relación entre un factor de riesgo (FR) y una enfermedad (E) en una tabla de contingencia 2x2.
Principales Medidas:
- Diferencia de Riesgos (o Riesgo Atribuible): Indica cómo la probabilidad de enfermar en los individuos expuestos al FR aumenta (o disminuye) en términos absolutos respecto a los no expuestos al FR. (Nota: El texto original mencionaba "Diferencia de Berson" y una interpretación específica que podría requerir contexto adicional).
- Riesgo Relativo (RR): Es el cociente entre la incidencia (o proporción) de enfermos expuestos al FR y la incidencia (o proporción) de enfermos no expuestos al FR. Mide cuántas veces es más probable enfermar si se está expuesto al factor.
- Razón de Oportunidades (Odds Ratio - OR): Es el cociente de las "odds" de enfermar en el grupo expuesto al FR y las "odds" de enfermar en el grupo no expuesto. La "odd" de enfermar es la razón entre la probabilidad de enfermar y la probabilidad de no enfermar.
Interpretación de los Valores:
- Diferencia de Riesgos (DR):
- DR < 0: Asociación negativa (Factor protector).
- DR = 0: Independencia (No hay asociación).
- DR > 0: Asociación positiva (Factor de riesgo).
- Riesgo Relativo (RR) y Odds Ratio (OR):
- RR/OR entre 0 y 1: Asociación negativa (Factor protector).
- RR/OR = 1: Independencia (No hay asociación).
- RR/OR > 1: Asociación positiva (Factor de riesgo).
Nube de Puntos (Diagrama de Dispersión)
Es una representación gráfica de pares de datos (x, y) sobre un sistema de ejes cartesianos. Se utiliza para visualizar si existe una relación entre dos variables cuantitativas y qué tipo de relación podría ser (lineal, curvilínea, ninguna).
Asociación y Causalidad
Encontrar una asociación estadística entre dos variables (X e Y) no implica necesariamente que una sea la causa de la otra. La asociación observada puede deberse a diferentes escenarios:
- El valor de X es la causa del valor de Y (o viceversa).
- Ambas variables se influyen mutuamente (relación bidireccional).
- Ambas variables dependen de una tercera variable (factor de confusión) o de un conjunto de ellas.
Establecer causalidad requiere criterios adicionales más allá de la simple asociación estadística (ej. Criterios de Bradford Hill).
Parámetros de la Regresión Lineal Simple (y = A + Bx)
- A (Intercepto u Ordenada en el Origen): Es el valor estimado de la variable dependiente Y cuando la variable independiente X es igual a cero. Puede ser positivo (+), negativo (-) o cero (0). Su interpretación debe ser cautelosa si X=0 está fuera del rango observado de datos.
- B (Pendiente de la Recta): Representa el cambio promedio (incremento o disminución) en la variable dependiente Y por cada unidad que aumenta la variable independiente X. Indica la dirección y magnitud de la relación lineal.
Varianza Residual (o Varianza de la Regresión)
Mide el grado de variabilidad de los datos alrededor de la recta de regresión estimada. Se representa como S²residual o MSE (Mean Squared Error).
- Si S²residual = 0, todos los residuos (diferencias entre valores observados y predichos) serían cero, lo que significa que todos los puntos se encuentran exactamente sobre la recta de regresión.
- Cuanto mayor sea S²residual, mayor es la dispersión de los puntos alrededor de la recta, indicando un peor ajuste del modelo lineal.
Correlación
Mide la fuerza y la dirección de la relación lineal entre dos variables cuantitativas (X e Y). El coeficiente de correlación de Pearson (r) varía entre -1 y +1.
Coeficiente de Determinación Lineal (R²)
Representa la proporción de la variabilidad total de la variable dependiente Y que queda explicada por el modelo de regresión lineal con la variable independiente X. Se calcula como el cuadrado del coeficiente de correlación (r²) en regresión lineal simple. Varía entre 0 y 1 (o 0% y 100%). Un R² más cercano a 1 indica que el modelo explica una mayor proporción de la varianza de Y.
Estadísticos Descriptivos
Media Aritmética (x̄)
Es el promedio de los datos de una muestra o población. Se calcula sumando todos los valores y dividiendo entre el número total de datos.
Importante: Si existen valores muy extremos o anómalos (outliers), estos pueden afectar significativamente el cálculo de la media. En estos casos, como medida de posición central, puede ser más representativo calcular la mediana, ya que esta no se ve tan afectada por valores extremos al considerar solo el valor central de los datos ordenados.
Percentiles (Pk)
Son 99 valores que dividen una serie de datos ordenados en 100 partes iguales. Cada parte contiene aproximadamente el 1% de los datos. El percentil k (Pk) es el valor por debajo del cual se encuentra el k% de los datos. Por ejemplo, la mediana es el percentil 50 (P50).
Rango o Amplitud Total
Es la diferencia entre el valor máximo y el valor mínimo de una serie de datos (Rango = Máximo - Mínimo).
- Ventaja: Su cálculo es muy sencillo.
- Inconveniente: Depende exclusivamente de los valores extremos, por lo que si alguno de ellos se separa mucho del resto, el rango se ve muy afectado y puede no ser una buena medida de la dispersión general.
El Rango Intercuartílico (RIC = Q3 - Q1) analiza la dispersión del 50% central de los datos (diferencia entre el percentil 75 y el percentil 25) y es menos sensible a valores extremos.
Varianza (S²)
Es una medida de dispersión absoluta que cuantifica la separación o variabilidad promedio de los datos con respecto a la media aritmética. Se calcula como la media de las desviaciones cuadráticas de cada dato respecto a la media.
- Si existe mucha dispersión (varianza alta), las medidas de posición central como la media pueden ser menos representativas del conjunto de datos.
- Propiedades:
- La varianza (S²) se expresa en las unidades de medida de la variable elevadas al cuadrado. Para tener una medida en las unidades originales, se utiliza la desviación estándar (S), que es la raíz cuadrada de la varianza.
- La varianza siempre es mayor o igual que cero (S² ≥ 0), ya que se obtiene a partir de sumas de cuadrados.
- Si S² = 0, indica que no hay dispersión, es decir, todos los datos son iguales a la media.