Fundamentos de la Regresión Lineal Simple y Estimación por MCO
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en español con un tamaño de 7,96 KB
El Modelo de Regresión Lineal Simple
El modelo que estudiamos es el siguiente:
Yᵢ = α + βXᵢ + Uᵢ
Donde los componentes son:
- Yᵢ: Variable dependiente (la variable que se busca explicar o predecir).
- Xᵢ: Variable independiente (la variable que se utiliza para explicar Yᵢ).
- α: Intercepto o término constante poblacional. Representa el valor esperado de Y cuando X es cero.
- β: Pendiente poblacional. Mide el cambio esperado en Y por cada unidad de cambio en X.
- Uᵢ: Término de error estocástico poblacional. Recoge todos los factores distintos de X que afectan a Y, así como errores de medida.
Es importante distinguir entre los parámetros poblacionales y los estimadores muestrales:
- α y β son los parámetros poblacionales (valores fijos pero desconocidos que queremos estimar).
- α̂ y β̂ (leídos como "alfa gorro" y "beta gorro") son los estimadores muestrales, calculados a partir de los datos de una muestra.
Un modelo de regresión lineal simple se denomina así por dos razones:
- Es lineal porque la variable independiente (Xᵢ) aparece elevada a la potencia uno y el modelo es lineal en los parámetros (α y β).
- Es simple porque solo incluye una variable independiente (Xᵢ) para explicar la variable dependiente (Yᵢ).
Ejemplos de Aplicación
Podemos modelar diversas relaciones, por ejemplo:
- Estudiar el consumo (Y) en función de la renta (X).
- Analizar cómo el gasto (Y) de una familia depende de su ingreso (X). En este caso, se diría que el gasto está en función del ingreso.
Estimación de los Parámetros α y β
Los parámetros poblacionales α y β se estiman utilizando el método de Mínimos Cuadrados Ordinarios (MCO).
¿Qué busca el método MCO?
El objetivo de MCO es encontrar los valores de los estimadores muestrales (α̂ y β̂) que minimizan la suma de los errores al cuadrado. Es decir, se busca optimizar (minimizar) la siguiente expresión:
Minimizar Σ(Eᵢ)² = Σ(Yᵢ - Ŷᵢ)² = Σ(Yᵢ - α̂ - β̂Xᵢ)²
Donde:
- Eᵢ es el residuo o error de estimación para la observación i. Es un estimador muestral del error teórico Uᵢ.
- Ŷᵢ (leído como "Y gorro sub i") es el valor estimado o predicho de Yᵢ, obtenido con la recta de regresión muestral: Ŷᵢ = α̂ + β̂Xᵢ.
- Eᵢ se calcula como la diferencia entre el valor real y el valor estimado: Eᵢ = Yᵢ - Ŷᵢ.
Además de los estimadores α̂ y β̂, el método MCO permite estimar:
- La varianza del error teórico (σ²), a través de su estimador muestral S².
- El error estándar del modelo.
Componentes Clave de la Estimación MCO
Error Estándar del Modelo (S²)
Obtenemos el estimador de la varianza del error del modelo, denotado como S² (o a veces σ̂²). Se calcula como la suma de los errores de estimación al cuadrado, dividida por los grados de libertad:
S² = Σ(Eᵢ)² / (n - 2)
Donde 'n' es el tamaño de la muestra y '2' representa el número de parámetros estimados (α y β) en el modelo simple.
Descomposición de la Variabilidad: Suma de Cuadrados
Para evaluar qué tan bien se ajusta el modelo a los datos, descomponemos la variabilidad total de Yᵢ:
SCT = SCE + SCR
Donde:
- SCT (Suma de Cuadrados Totales): Mide la variación total de la variable dependiente Yᵢ respecto a su media (Ȳ). Se calcula como Σ(Yᵢ - Ȳ)².
- SCE (Suma de Cuadrados Explicados): Mide la variación en Yᵢ que es explicada por la regresión (por la variable Xᵢ). Se calcula como Σ(Ŷᵢ - Ȳ)².
- SCR (Suma de Cuadrados Residuales): Mide la variación en Yᵢ que no es explicada por la regresión; representa el error del modelo. Se calcula como Σ(Eᵢ)² = Σ(Yᵢ - Ŷᵢ)².
La Suma de Cuadrados Residuales (SCR) representa la parte de la variabilidad de Y que el modelo (a través de X) no logra explicar.
Coeficiente de Determinación (R²)
El R cuadrado (R²) mide la proporción de la variabilidad total de Y que es explicada por la variable independiente X a través del modelo de regresión. Se calcula como:
R² = SCE / SCT = 1 - (SCR / SCT)
A esto se le llama bondad de ajuste del modelo.
- El valor de R² siempre está entre 0 y 1 (0 ≤ R² ≤ 1).
- Un R² cercano a 1 indica que el modelo explica una gran parte de la variabilidad de Y.
- Un R² cercano a 0 indica que el modelo explica muy poca de la variabilidad de Y.
- Si R² = 0, significa que la variable X no explica en nada la variabilidad de la variable Y en la muestra (SCR = SCT).
Interpretación del Error y R²: Un Ejemplo
Recordemos que el error (Eᵢ) es la diferencia entre el valor real (Yᵢ) y el valor estimado por el modelo (Ŷᵢ).
Ejemplo: Supongamos que estudiamos el gasto en vacaciones (Y) en función del ingreso (X) para 150 familias.
- Una familia específica (i) gastó realmente $500.000 (Yᵢ = 500.000).
- El modelo, basado en la información de las 150 familias y el ingreso de esta familia particular, predice que gastaría $450.000 (Ŷᵢ = 450.000).
- El error de estimación para esta familia es: Eᵢ = Yᵢ - Ŷᵢ = 500.000 - 450.000 = $50.000.
El modelo comete un error similar (positivo o negativo) para cada una de las 150 familias de la muestra. La Suma de Cuadrados Residuales (SCR) se obtiene sumando los cuadrados de estos errores individuales (ΣEᵢ²). Es una medida global del error del modelo en la muestra.
¿Qué pasa si SCR = SCT?
Si la Suma de Cuadrados Residuales (SCR) es igual a la Suma de Cuadrados Totales (SCT), significa que R² = 1 - (SCR/SCT) = 1 - 1 = 0.
La SCT mide las desviaciones totales de los valores reales (Yᵢ) respecto a su media (Ȳ). Si SCR = SCT, implica que toda la variabilidad observada en Y (respecto a su media) es atribuible al error del modelo. En otras palabras, la variable independiente X no aporta nada a la explicación de Y; el modelo no tiene poder explicativo.
¿Por qué existe el error (Uᵢ y, por ende, Eᵢ)? Porque el modelo es una simplificación. Hay otros factores (variables omitidas) que también influyen en Y y que no están incluidos en el modelo simple. En el ejemplo del gasto en vacaciones, variables como el tamaño de la familia, el destino, la época del año, etc., podrían influir en el gasto y no están siendo consideradas si solo usamos el ingreso (X).
Varianza de los Estimadores
Finalmente, con MCO también obtenemos la varianza de los estimadores α̂ y β̂ (Var(α̂) y Var(β̂)).
La varianza de un estimador (por ejemplo, Var(β̂)) mide la precisión de dicho estimador muestral. Indica cuánto esperamos que varíe el valor de β̂ de una muestra a otra, alrededor del verdadero valor poblacional β. Es una medida del error o incertidumbre asociado a nuestra estimación del parámetro poblacional.
Las fórmulas específicas para calcular Var(α̂) y Var(β̂) dependen de la varianza del error del modelo (σ², estimada por S²) y de la variabilidad de la variable independiente Xᵢ. (Nota: La fórmula exacta se mencionó como consultable en apuntes externos: "XXX en cuaderno").