Regresión Lineal Simple en R: Interpretación, Validación y Predicción
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en
español con un tamaño de 5,96 KB
Preparación de Datos en R
A continuación, se presentan los comandos iniciales para la carga de datos y la definición de las variables para el modelo de regresión.
miler <- read.delim("clipboard")
miler1 <- read.table(file.choose(), T)Vectores de Datos
Se definen los vectores para las variables de estudio: Sabor (variable dependiente) y AA (variable independiente, correspondiente al logaritmo de la concentración de ácido acético).
Sabor <- c(12.3, 47.9, 37.3, 21, 0.7, 40.9, 18, 15.2, 16.8, 0.7)
AA <- c(4.543, 5.759, 5.892, 5.242, 4.477, 6.365, 5.247, 5.298, 5.366, 5.328)
Análisis Exploratorio
Gráfica de Dispersión
Para visualizar la relación inicial entre las variables, se genera una gráfica de dispersión.
plot(AA, Sabor)Nota: A primera vista, no queda completamente claro si la relación sigue una forma lineal o curvilínea. Por esta razón, es fundamental realizar la prueba de significación para el coeficiente de la pendiente (β₁).
Ajuste del Modelo de Regresión Lineal Simple
Se ajusta un modelo lineal donde el Sabor es la variable dependiente y AA es la variable independiente. En regresión simple, no es necesario convertir la variable numérica a factor.
mod1 <- lm(Sabor ~ AA)Interpretación de los Coeficientes
Para observar los coeficientes del modelo ajustado:
mod1Interpretación de la pendiente (β₁ ≈ 22.244): Por cada unidad que se incrementa el logaritmo natural de la concentración de ácido acético, el puntaje subjetivo del sabor aumenta en promedio 22.244 unidades.
Validación de Supuestos del Modelo
El análisis de los supuestos es crucial para asegurar la validez del modelo, similar a la validación en un Diseño Completamente al Azar (DCA).
Supuesto de Normalidad de los Errores
Se utiliza la prueba de Shapiro-Wilk para evaluar si los residuos del modelo siguen una distribución normal.
Hipótesis:
- H₀: Los errores siguen una distribución normal.
- H₁: Los errores no siguen una distribución normal.
Prueba en R:
r <- rstandard(mod1) # Residuos estandarizados
shapiro.test(r)
r1 <- residuals(mod1) # Residuos simples
shapiro.test(r1)Conclusión:
Con un nivel de significancia (α) de 0.05, se obtiene un p-valor = 0.637. Dado que 0.637 > 0.05, no se rechaza la hipótesis nula (H₀). Por lo tanto, se concluye que los errores siguen una distribución normal, cumpliendo con este supuesto del modelo.
Supuesto de Homogeneidad de Varianzas (Homocedasticidad)
Se evalúa si la varianza de los errores es constante a través de los niveles de la variable predictora.
Hipótesis:
- H₀: La varianza del error es constante.
- H₁: La varianza del error no es constante.
Prueba en R (Breusch-Pagan):
library(car)
ncvTest(mod1)Conclusión:
Con α = 0.05, el p-valor obtenido es 0.7660346. Como 0.766 > 0.05, no se rechaza la hipótesis nula. Se concluye que la varianza del error es constante, cumpliendo así el supuesto de homocedasticidad.
Análisis de Varianza (ANOVA) para la Significancia del Modelo
Se realiza una prueba ANOVA para determinar si existe una relación lineal significativa entre las variables.
summary(aov(mod1))El p-valor es 0.00617**, que es menor que el nivel de significancia de 0.05. Esto indica que la prueba es altamente significativa.
Conclusión: Se rechaza la hipótesis nula (H₀: β₁ = 0). Por lo tanto, existe una relación lineal estadísticamente significativa entre la variable "Sabor" y la variable "logaritmo natural de la concentración de ácido acético".
Análisis mediante el Estadístico F
El estadístico de prueba calculado es F_c = 13.58.
El valor crítico de F con 1 y 8 grados de libertad y un nivel de significancia del 5% se calcula con qf(1 - 0.05, 1, 8), que es aproximadamente 5.317655.
Dado que F_c (13.58) > F_crítico (5.318), se rechaza la hipótesis nula, confirmando la significancia del modelo.
Bondad de Ajuste del Modelo
Coeficiente de Determinación (R²)
summary(mod1)El coeficiente de determinación múltiple es Multiple R-squared: 0.6293.
Esto significa que el 62.93% de la variabilidad total en el puntaje subjetivo del sabor es explicado por el modelo de regresión lineal basado en el logaritmo natural de la concentración de ácido acético.
Coeficiente de no Determinación
El coeficiente de no determinación es 1 - R² = 1 - 0.6293 = 0.3707.
Esto indica que el 37.07% de la variabilidad total en el puntaje del sabor no es explicado por el modelo y se debe a otros factores o al error aleatorio.
Predicción con el Modelo
Se utiliza la ecuación del modelo para predecir el valor del sabor cuando el logaritmo de la concentración de ácido acético es 6.4.
# Ecuación: Sabor_estimado = -99.03 + 22.44 * AAsabor.est <- -99.03 + 22.44 * 6.4sabor.estEl resultado, 44.586, es el valor predicho para el puntaje subjetivo del sabor cuando el logaritmo de la concentración de ácido acético es de 6.4.
Anexo: Datos Utilizados
Combinación de los vectores de datos originales para su visualización.
cbind(Sabor, AA)