Guia Completa de Regressió Lineal Múltiple (MRLM) i Anàlisi Estadística
Enviado por Chuletator online y clasificado en Griego
Escrito el en
catalán con un tamaño de 8,95 KB
Anàlisi de Models de Regressió
Classificació de la Relació
Relació Lineal (Lin)
- $\beta\mu$, $\beta/x$, $\beta X^\beta$, $\beta(X/X)$, $e^{(...)}$ (especificació)
Relació No Lineal (No lin)
- $\beta+X^\beta$, $X^\beta+\mu$, $\beta(X/\beta)$, $\beta\beta$, $\beta/\beta$, $X/\beta$, $\beta^\beta$, $\beta^{2.3}X\dots$
Definició del Sistema
Sistema: $y(n \times 1) = x(n \times k) \cdot \β(k \times 1) + \mu(n \times 1)$
Matrius clau: $X'X$ i $Var = k \cdot k$, $H = n \cdot n$
Mínims Quadrats Ordinaris (MRLS - Simple)
Estimació de $\beta_1$
$$\beta_1 = \frac{\sum x_i y_i - n \bar{x} \bar{Y}}{\sum (x_i - \bar{x})^2}$$
Alternativament:
- $$\frac{r_{xy} \cdot \sqrt{\sum(y_i - \bar{Y})^2 / (n-1)}}{\sqrt{\sum(x_i - \bar{x})^2 / (n-1)}}$$
- $$\frac{\text{cov}(x,y)}{\text{var}(x)}$$
- $$\frac{\sum(x_i - \bar{x})(y_i - \bar{Y})}{\sum(x_i - \bar{x})^2}$$
Intercept ($\beta_0$)
$$\beta_0 = \bar{Y} - \beta_1 \bar{x}$$
Mínims Quadrats Múltiples (MRLM)
Minimització de la Suma de Quadrats dels Errors
$$\text{Min } S(\boldsymbol{\beta}) = \min \sum e^2 = \min \sum (y - \hat{y})^2$$
Condició de primer ordre: $\partial S / \partial \beta_k = 0$
Estimació de $\boldsymbol{\beta}$
$$\boldsymbol{\hat{\beta}} = (X'X)^{-1} X'Y$$
Ajust restringit: $\boldsymbol{\hat{\beta}}_m = \boldsymbol{\hat{\beta}}_p + (X'X)^{-1} X'u$
Variància i Covariància
Variància de l'Error ($\sigma^2_{\mu}$)
$$\sigma^2_{\mu} = \frac{e'e}{n-k} = \frac{\sum e_i^2}{n-k} = \frac{V_{nE}}{n-k}$$
Variància dels Coeficients
$$\text{Var}(\boldsymbol{\hat{\beta}}) = \sigma^2_{\mu} (X'X)^{-1}$$
Variància de la Predicció
$$\text{Var}(\hat{Y}) = E(\mu^2) = \sigma^2_{\mu}$$
Mesures de la Variació Total
Variació Explicada (VE)
$$\text{VE} = \sum(y_i - \bar{Y})^2 \text{ o } R^2 V_T \text{ o } \boldsymbol{\hat{\beta}}'X'Y \text{ o } \sum y_i^2 - N\bar{Y}^2$$
En MRLS: $\beta_2 \sum(x_i - \bar{x})(y_i - \bar{Y})$
Variació No Explicada (VnE)
$$\text{VnE} = \sum e_i^2 = \sum(y_i - \hat{y}_i)^2 = \sum(y_i - \bar{Y})^2 (1-R^2) = e'e$$
Variació Total (VT)
$$\text{VT} = \sum(y_i - \bar{Y})^2$$
Coeficient de Determinació ($R^2$)
- $$\text{r}_{xy} = \frac{\text{Cov}(x,y)}{\sqrt{\text{Var}(x)}\sqrt{\text{Var}(y)}}$$
- $$R^2 = \frac{\text{VE}}{\text{VT}} = 1 - \frac{\text{VnE}}{\text{VT}}$$
- En MRLS: $R^2 = r_{xy}^2$
Ajustos de $R^2$
- $R^2$ sense $\beta_0$: $\sum \hat{y}^2 / \sum y^2$
- $R_c^2$ (Ajustat): $1 - \frac{n-1}{n-k} (1-R^2)$
Interpretació dels Coeficients Estandarditzats
$\boldsymbol{\beta}$ estandarditzat: $\hat{\beta}^* = \hat{\beta} \cdot (S_x/S_y)$
- Lineal: $Y$ augmenta en $\hat{\beta}_1$ per cada unitat que $X$ augmenta.
- Lineal-Log: $Y$ augmenta en $\hat{\beta}_1/100$ % per cada unitat que $X$ augmenta.
- Log-Lineal: $Y$ augmenta en $100 \cdot \hat{\beta}_1$ % per cada augment del $1\%$ en $X$.
- Log-Log (Elasticitat): $Y$ augmenta en $\hat{\beta}_1$ % per cada augment del $1\%$ en $X$.
- Quadràtic: $Y$ augmenta en $\hat{\beta}_1 + (2\hat{\beta}_2)X$.
Test d'Hipòtesis
- Error 1 ($\alpha$): $R_H0$ quan es compleix.
- Error 2 ($\beta$): $NR_H0$ quan es falsa.
Contrast Conjunt (F)
$$F_{k-1, n-k} = \frac{(\text{VE}/k-1)}{(\text{VnE}/n-k)} \text{ o } \frac{(R^2/k-1)}{(1-R^2 / n-k)}$$
Intervals de Confiança i Tests Individuals (t)
- Interval de Confiança: $\hat{\beta} \pm t_{n-k, \alpha/2} \cdot \text{er.es}(\hat{\beta})$
- Test Individual: $t_{n-k} = \frac{\hat{\beta}_j - \beta_j^0}{\text{er.es}(\hat{\beta}_j)}$
Estimació Restringida
Valor $= 1 \implies$ Consistència; $<1 \implies$ Decreix; $>1 \implies$ Creix.
Una Restricció
$$t_{n-k} = \frac{a\hat{\beta}_1 \pm b\hat{\beta}_2 - c}{\sqrt{a^2\text{Var}(\hat{\beta}_1) + b^2\text{Var}(\hat{\beta}_2) + 2ab\text{Cov}(\hat{\beta}_1, \hat{\beta}_2)}}$$
Una o Més Restriccions (Test F Generalitzat)
$$F_{q, n-k} = \frac{(\boldsymbol{\hat{\beta}}_r - \boldsymbol{\beta})' [R(X'X)^{-1} R']^{-1} (R\boldsymbol{\hat{\beta}} - \boldsymbol{r})}{q} / \frac{e'e}{(n-k)}$$
Alternativament:
- $$\frac{(\text{VnE}_r - \text{VnE})/q}{(\text{VnE}/n-k)}$$
- $$\frac{(R^2 - R^2_r)/q}{(1-R^2 / n-k)}$$
- $$\frac{((\boldsymbol{\beta}_r - \boldsymbol{\hat{\beta}})' (X'X) (\boldsymbol{\beta}_r - \boldsymbol{\hat{\beta}})/q)}{(e'e / n-k)}$$
Predicció
Punt Concret
$$\hat{y}_{n+h} = X'_{n+h} \boldsymbol{\hat{\beta}}$$
Interval de Predicció
$$\hat{y}_{n+h} \pm t_{n-k, \alpha/2} \cdot \text{er.es}(\hat{e}_{n+h})$$
$$\text{er.es}(\hat{e}_{n+h}) \rightarrow \sqrt{\sigma^2_{\mu} (1 + X'_{n+h}(X'X)^{-1}X_{n+h})}$$
Avaluació de la Qualitat de la Predicció
($j$ = nombre d'observacions predites)
- Error Quadràtic Mitjà (EQM): $ (1/j) \sum (y_i - \hat{y}_i)^2 $
- Error Absolut Mitjà (EAM): $ (1/j) \sum |y_i - \hat{y}_i| $
Coeficient de Theil
$$\sqrt{\frac{1}{j} \sum(y_i - \hat{y}_i)^2} / \left( \sqrt{\frac{1}{j} \sum y_i^2} + \sqrt{\frac{1}{j} \sum \hat{y}_i^2} \right)$$
Test de Canvi Estructural (Chow)
$$F_{k, n-2k} = \frac{(e'e - (e'_1 e'_1 + e'_2 e'_2))/k}{((e'_1 e'_1 + e'_2 e'_2) / n-2k)}$$
- Final: $F_{n_2, n_1-k}$: $\frac{(e'e - e'_1 e'_1)/n_2}{(e'_1 e'_1) / n_1-k}$
- Inici: $F_{n_1, n_2-k}$: $\frac{(e'e - e'_2 e'_2)/n_1}{(e'_2 e'_2) / n_2-k}$
- Lineal: $F_{p-1, n-(k+p-1)}$: $\frac{(\text{VnE}_r - \text{VnE}) / p-1}{(\text{VnE} / (n-(k+p-1)))}$ ($p$ = valor potencial)
Test de Normalitat dels Residus
Asimetria (g1) - Test de Fisher
$$g_1 = \frac{\sqrt{n} \sum e_i^3}{(\sum e_i^2)^{3/2}}$$
- $g_1=0$: Normalitat.
- $g_1>0$: Asimetria a la dreta.
- $g_1<0$: Asimetria a l'esquerra.
Curtosi (g2)
$$g_2 = \frac{n \sum e_i^4}{(\sum e_i^2)^2}$$
- $g_2=3$: Mesocúrtica (similar a la normal).
Jarque-Bera ($X^2_{2}$)
$$X^2_{2} = n \left( \frac{g_1^2}{6} + \frac{(g_2-3)^2}{24} \right)$$
Supòsits del Model
- $y'y = \boldsymbol{\beta}'X'Y$
- $E(X'\mu) = 0$
- $E(\mu\mu') = \sigma^2_{\mu} I_n$
- $\mu'\mu = \sum \mu_i^2$
- $\sum e_i = 0$
- $\boldsymbol{\hat{\beta}} = \boldsymbol{\beta}_{pob} + (X'X)^{-1} X'\mu$
- $\boldsymbol{\hat{\beta}} \sim N [\boldsymbol{\beta}, \sigma^2_{\mu} (X'X)^{-1}]$
Diagnòstic de Punts Influents (Leverage)
Matriu de Leverage (H)
- $H = \text{diag}((X'X)^{-1}X')$ (Incorrecte, probablement $H=X(X'X)^{-1}X'$)
- $h_{ii}^{\text{univ}} = 1/n + \frac{(x_i - \bar{x})^2}{\sum(x_j - \bar{x})^2}$
- $h_{ii}^{\text{multiv}} = 1/n \cdot (1 + (x_i - \bar{x})'S^{-1} (x_i - \bar{x}))$
Relació: $\text{Var}(\hat{y}) = \sigma^2_{\mu} h_{ii}$. $\uparrow \text{corr} \rightarrow \uparrow (X'X)^{-1} \rightarrow \boldsymbol{\hat{\beta}}$ menys precisos.
Influència Real
- Distància de Cook ($D$): $\frac{(y - y_{(i)})' (y - y_{(i)})}{k S^2_u}$
- Regla empírica: Si $n$ gran, $D > 1$ és realment influent. Si $n$ petit, $F_{k, n-k}$.
- DFFits: $\frac{\hat{y} - \hat{y}_{(i)}}{\sqrt{S^2_{(i)} u \cdot h_{ii}}}$
- Regla empírica: Si $n$ gran, $|\text{DFFits}| \pm 2\sqrt{k/n}$. Si $n$ petit, $t_{n-k}$.
- DFBETAS: $\frac{\hat{\beta}_m - \hat{\beta}_{m(i)}}{\sqrt{S^2_{(i)} u \cdot [(X'X)^{-1}]_{jj}}}$
- Regla empírica: Si $n$ gran, $|\text{DFBETAS}| \pm 2 / \sqrt{n}$. Si $n$ petit, $t_{n-k}$.
Anàlisi de Residus
- Residu MQO ($e_i$): Si $|e_i| > 2$ o $3$, és atípic.
- Residus Estandarditzats: $e_i / \sqrt{S^2_u}$
- Residus Estudiantitzats ($t$): $\frac{e_i}{S^2_u \sqrt{1-h_{ii}}}$ ($t_{n-k-1}$)
- Residus Estudiantitzats Externs: $\frac{e_i}{S^2_{(i)} u \sqrt{1-h_{ii}}}$ ($t_{n-k-1}$)
Multicol·linealitat (FIV)
- FIV: $1 / (1 - R^2_j)$. Si $\text{FIV} > 10$, hi ha problema.
- Nombre Condicional: $\sqrt{\lambda_{\text{max}} / \lambda_{\text{min}}} > 30$.
Test d'Heterocedasticitat
- GolfQ (Goldfeld-Quandt): $\text{VnE}_3 / \text{VnE}_1$. Contraste $F_{\alpha}(n_2-k, n_1-k)$.
- BP (Breusch-Pagan): $n \cdot R^2_{\text{aux}} > \chi^2_{q, 1-\alpha}$.
- W (White): $n \cdot R^2_{\text{aux}} > \chi^2_{k(k+1)/2}$. (Exclou $b_0$).
Regressió amb Mínims Quadrats Generalitzats (MQG)
$$\boldsymbol{\hat{\beta}}_{MQG} = (X'\Omega_m^{-1}X)^{-1} (X'\Omega_m^{-1}Y)$$
Transformació: $Y^* = T Y$, $X^* = T X$
$$S^2_{u, MQG} = e'\Omega_m^{-1}e / (n-k)$$
$$\text{Var}(\boldsymbol{\hat{\beta}}_{MQO}) = S^2_u (X'X)^{-1}(X'\Omega_m X)(X'X)^{-1}$$