Conceptos Esenciales de Regresión: Logística y Lineal para Análisis de Datos

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en español con un tamaño de 4,88 KB

Regresión Logística

Tabla de Clasificación

La Tabla de Clasificación muestra el porcentaje global de casos predichos correctamente. Este valor, que suele estar entre el 60% y el 70%, nos informa que el modelo realiza predicciones sobre el valor de 1 (si hay evento). El modelo clasifica mejor los casos de 'sí=evento' en un porcentaje determinado.

Prueba Omnibus

La Prueba Omnibus indica si la significancia del modelo es significativa (ver tabla de resumen del modelo).

  • R-cuadrado de Nagelkerke: Indica el porcentaje de varianza explicada (ejemplo: .207 = 20.7%). Su valor oscila entre 0 y 1.
  • Cox & Snell: Alcanza un máximo de 0.7, por lo que el valor de Nagelkerke siempre será mayor.

Un coeficiente alto de Nagelkerke significa que un porcentaje importante de la varianza es explicada por las variables independientes (VI).

Tabla Paso 1 (Coeficiente B)

Se debe observar la variable con el valor más alto, ya que es la que más aporta. Un incremento de una unidad en la escala de medida de la variable (ej. 'percepción de salud') produce un aumento o disminución en las unidades logit de la Variable Dependiente (VD).

Exp(B) (Odds Ratio)

Nos indica cuál variable aumenta más la probabilidad del evento. Por cada unidad de la variable independiente (VI), la probabilidad de la VD aumenta en un valor determinado.

  • Exp(B) = 1: Indica que la variable no influye.
  • Exp(B) > 1: Aumenta la influencia.
  • Exp(B) < 1: Disminuye la influencia.

Características de la Regresión Logística

Es un contraste estadístico directo, puede incorporar efectos no lineales y es útil para realizar diagnósticos. Se aplica en:

  • Encuestas
  • Estudios Observacionales
  • Experimentos
  • Estudios Epidemiológicos

Objetivo

Evaluar la influencia de cada variable independiente sobre la Variable Dependiente (VD) o de respuesta, controlando el efecto del resto.

  • p: Probabilidad de éxito (1).
  • q: Probabilidad de fracaso (0).

Un valor de 1 en el Odds Ratio indica equiprobabilidad en ambas categorías de la variable.

Hosmer y Lemeshow

Un valor de .000 significa un mal ajuste del modelo.

Regresión Lineal

Coeficientes

  • B0 (Constante): Origen de la recta (el punto en que la recta corta el eje vertical).
  • B1: Pendiente de la recta.
  • R (Coeficiente de Correlación): Si R=0 en la población, no hay relación.
  • R2 (Coeficiente de Determinación): Valores de 0 a 1.
    • 0: Variables independientes (no hay varianza explicada).
    • 1: Relación perfecta (toda la varianza explicada).

El R2 nos indicará el mejor ajuste de la recta. P es el número de Variables Independientes (VI).

Error Típico (Desviación Típica de los Residuos)

Es la distancia entre las puntuaciones en la VD y los pronósticos de la recta de regresión.

Estadístico F

Contraste de la hipótesis nula de que R=0 en la población.

Beta (Coeficientes Estandarizados)

Convierte las puntuaciones directas en típicas. Nos permite valorar la importancia de cada VI.

ANOVA

Decide si la relación es significativa. El estadístico F contrasta la hipótesis nula.

Lectura (Coeficiente B): A un aumento de una unidad en la VI (nombre de la variable), le corresponde un incremento de (valor del coeficiente B) en la VD.

Correlaciones

  • Correlación Parcial: Grado de relación existente entre dos variables tras eliminar de ambas los efectos de terceras variables.
  • Correlación Semiparcial: Grado de relación tras eliminar los efectos de terceras variables de una de ellas.
  • Correlación de Orden Cero: No tiene en cuenta los efectos de terceras variables.

Supuestos de los Residuos

  • Independencia: Los residuos son independientes entre sí.
  • Homocedasticidad: Para cada VI, los residuos se distribuyen con media cero (los residuos son constantes).
  • Colinealidad: Se presenta cuando existe una relación lineal exacta entre las Variables Independientes (VI).
  • Normalidad: Los residuos tienen una media de 0.

Tipificación de Residuos y Pronósticos

  • ZRESID (Residuos Tipificados): Valores esperados entre -1.96 y +1.96.
  • ZPRED (Pronósticos Tipificados): Tienen una media de 0 y una desviación estándar de 1.

Entradas relacionadas: