Regresión Lineal Simple: Fundamentos, Modelos y Predicción Estadística
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en español con un tamaño de 5,37 KB
Fundamentos de la Regresión Lineal Simple (RLS)
La regresión se emplea para estudiar las relaciones entre variables medibles. Específicamente, la regresión lineal se utiliza para una clase particular de relaciones: aquellas que pueden describirse mediante líneas rectas o sus generalizaciones a múltiples dimensiones.
Regresión Lineal Simple y su Modelo
En la regresión lineal simple, se investiga la relación entre una variable predictora (X) y una variable de respuesta (Y). En este contexto, se asume que la relación puede describirse mediante una línea recta, siguiendo el modelo:
Y = Intercepción + Pendiente * X + Error
La intercepción y la pendiente son parámetros desconocidos que deben ser estimados a partir de los datos.
Componentes y Supuestos de los Errores
Las diferencias entre los valores observados de la variable de respuesta y los valores predichos por la línea de regresión se denominan errores. Estos errores pueden tener dos componentes principales:
- Componente fija: Surge si el modelo propuesto es incorrecto o inadecuado.
- Componente aleatoria: Incluye errores de medición, falta de información adicional o la necesidad de incorporar variables predictoras adicionales.
Para la inferencia estadística, se suelen asumir que los errores desconocidos tienen un promedio de cero, una varianza constante (homocedasticidad) y una covarianza de cero (es decir, no están correlacionados entre sí).
Estimación por Mínimos Cuadrados
La estimación por mínimos cuadrados es el método estándar para determinar los parámetros del modelo. Consiste en elegir las estimaciones de los parámetros de manera que se minimice la Suma de Cuadrados de los Residuos (RSS). La varianza de los errores se estima promediando el cuadrado de estos residuos.
Análisis de Varianza (ANOVA) en Regresión
El Análisis de Varianza (ANOVA) ofrece un método eficaz para comparar el ajuste de dos o más modelos sobre el mismo conjunto de datos. En el contexto de la regresión lineal simple, generalmente se comparan dos modelos:
- Modelo restringido: En este modelo, la estimación de la intercepción es el valor promedio de la respuesta Y, y la suma de cuadrados de los residuos (RSS) de ajuste es SYY (suma total de cuadrados de Y).
- Modelo completo: Este es el modelo de regresión lineal simple que incluye la variable predictora X.
Suma de Cuadrados de la Regresión (SSReg)
La diferencia entre la suma de cuadrados del modelo restringido (SYY) y la suma de cuadrados de los residuos del modelo completo (RSS) representa la reducción en la suma residual de cuadrados lograda al ampliar el modelo e incluir el término asociado a la variable predictora X. Esta diferencia se conoce como Suma de Cuadrados de la Regresión (SSReg).
Los grados de libertad asociados con SSReg son la diferencia de los grados de libertad entre ambos modelos (restringido y completo) para la regresión simple.
Prueba F
La Prueba F se utiliza para evaluar la significancia del modelo. Si la Suma de Cuadrados de la Regresión (SSReg) es considerablemente grande, esto sugiere que el modelo de regresión completo representa una mejora significativa sobre el modelo restringido.
Coeficiente de Determinación (R²)
El Coeficiente de Determinación (R²) mide la proporción de la variabilidad total de la variable de respuesta Y que es explicada por la regresión en X, o, dicho de otro modo, por la adición de X al modelo. En la regresión lineal simple, el R² es equivalente al cuadrado del coeficiente de correlación de la muestra entre X e Y.
Intervalos y Pruebas de Confianza
Cuando los errores se distribuyen normalmente con una media de cero y una varianza constante, las estimaciones de los parámetros, los valores ajustados y las predicciones también se distribuirán normalmente. Esto se debe a que todas estas son combinaciones lineales de las observaciones Yi y de los errores ei. En consecuencia, los intervalos de confianza y las pruebas de hipótesis pueden basarse en la distribución t de Student.
Predicción en Regresión Lineal
La ecuación de regresión ajustada se utiliza frecuentemente para obtener valores de la variable de respuesta (Y) para valores específicos de la variable predictora (X). Se pueden presentar dos situaciones principales:
- Predicción de un valor individual: Se tiene un nuevo caso con un valor dado de X y se desea predecir el valor correspondiente de la respuesta Y.
- Estimación del promedio: Se busca obtener una estimación del valor promedio de Y para un valor dado de X.
Es importante destacar que la variabilidad de los valores estimados es diferente en cada una de estas situaciones de predicción.