Fundamentos de Estadística Multivariante y Modelos de Regresión

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en español con un tamaño de 5,26 KB

Introducción a la Regresión Lineal y R²

Regresión lineal: Probabilidad de que ocurra un suceso. El R² ajustado corrige la sobreestimación.

Cuantas más variables, más valores perdidos tendré. La regresión lineal múltiple reajustada explica la varianza; se considera lineal porque difiere de 0.

Unidad de Análisis y Sobreestimación

Unidad de análisis de contenido: Unidad externa, mediante comunicación para mejorar el proceso. En la regresión, la sobreestimación de la R² es consecuencia de la inclusión de muchas variables escalares.

La diferencia entre la R² y la R² ajustada se debe al exceso de pérdida de muestra o al exceso de variables independientes.

Aplicaciones y Casos Específicos

El análisis de redes sirve para estudiar la evolución de cómics, redes terroristas (todas), entre otros. En la regresión logística (mujer = 1, hombre = 0), si la exponencial B es 1,5, se puede afirmar que las mujeres tienen mejor salud… a menos que haya una modificación significativa, sí.

La R² ajustada evita la sobreestimación. La CONSTANTE representa la recta que corta el eje. B es la cantidad que aumenta una variable dependiente por cada unidad que aumenta la variable independiente.

El coeficiente de Pearson mide la relación entre dos variables. Las tablas de contingencia se utilizan solo con variables nominales y ordinales (Chi-cuadrado y Rho de Spearman).

Técnicas de Clasificación y Dispersión

Las técnicas de dependencia e interdependencia corresponden a patrones de comportamiento de la muestra. El cluster busca una tipología. El rango diferencial es el valor máximo y mínimo. La desviación típica mide la distancia de una observación con respecto a la media.

ÍNDICE: Medida obtenida por la agrupación adecuada de diversos indicadores y que se manipulan a partir de operaciones numéricas (estrategia empírico-numérica).

Análisis de contenido: Es un proceso para identificar el sentido de datos cualitativos.

Definiciones y Parámetros Estadísticos

  • R cuadrado (coeficiente de determinación): Mide la proporción de la varianza de la variable dependiente explicada por las variables independientes en conjunto. Se calcula elevando al cuadrado la R múltiple. Su valor oscila de 0 a 1. Un valor de 1 indica que las variables independientes predicen perfectamente la VD; un valor de 0 indica que no hay relación lineal entre las VI y la VD.
  • R cuadrado ajustada: Corrige la sobreestimación de R² al tener en cuenta el número de VI y el tamaño de la muestra. Se debe considerar especialmente cuando las diferencias mostradas son grandes.
  • Error típico de la estimación: Representa la parte de la variabilidad que no es explicada por la recta de regresión.
  • B: Indica el número de unidades que aumenta la variable dependiente por cada unidad que aumenta la VI. En una regresión múltiple, representa el incremento de la VD por cada unidad de aumento de la VI, manteniendo constantes todas las demás variables independientes de la ecuación.
  • Constante: El valor en el que la recta de regresión corta el eje de ordenadas.
  • Beta: Coeficiente estandarizado que permite valorar la importancia relativa de cada VI dentro de la ecuación, teniendo en cuenta las desviaciones típicas.
  • Correlación de orden cero: Relación entre la VD y la VI correspondiente cuando no se controla por ninguna otra variable.
  • Correlación parcial: Es la correlación entre la VD y la VI cuando todos los efectos lineales de todas las variables independientes han sido eliminados de la variable dependiente y de la variable independiente que estudiamos. También se define como la relación entre dos variables tras eliminar de ambas el efecto de terceras variables.
  • Correlación semiparcial: Grado de relación entre la VD y la parte de cada VI que no está explicada por el resto de las variables independientes.

Colinealidad y Modelos Avanzados

Existe colinealidad cuando algunas variables independientes están correlacionadas entre sí. Se mide con la "Tolerancia": la proporción de varianza no explicada por otras variables. Cuanto más alta es, más independiente es la variable independiente respecto a las demás variables independientes (se establece un nivel mínimo de tolerancia de 0,8).

REGRESIÓN LOGÍSTICA: Utiliza una variable dependiente dummy. Se predice la probabilidad P(Y) de que la VD presente uno de los valores posibles (1 o 0) en función de los valores de las VI.

REGRESIÓN JERÁRQUICA: Permite generar modelos teóricos independientes (y acumulativos) y observar la mejora (o no) en la capacidad explicativa de las variables independientes añadidas al modelo.

Entradas relacionadas: