Guia Completa de Regressió Lineal Múltiple (MRLM) i Anàlisi Estadística

Enviado por Chuletator online y clasificado en Griego

Escrito el en catalán con un tamaño de 8,95 KB

Anàlisi de Models de Regressió

Classificació de la Relació

Relació Lineal (Lin)

  • $\beta\mu$, $\beta/x$, $\beta X^\beta$, $\beta(X/X)$, $e^{(...)}$ (especificació)

Relació No Lineal (No lin)

  • $\beta+X^\beta$, $X^\beta+\mu$, $\beta(X/\beta)$, $\beta\beta$, $\beta/\beta$, $X/\beta$, $\beta^\beta$, $\beta^{2.3}X\dots$

Definició del Sistema

Sistema: $y(n \times 1) = x(n \times k) \cdot \β(k \times 1) + \mu(n \times 1)$

Matrius clau: $X'X$ i $Var = k \cdot k$, $H = n \cdot n$

Mínims Quadrats Ordinaris (MRLS - Simple)

Estimació de $\beta_1$

$$\beta_1 = \frac{\sum x_i y_i - n \bar{x} \bar{Y}}{\sum (x_i - \bar{x})^2}$$

Alternativament:

  • $$\frac{r_{xy} \cdot \sqrt{\sum(y_i - \bar{Y})^2 / (n-1)}}{\sqrt{\sum(x_i - \bar{x})^2 / (n-1)}}$$
  • $$\frac{\text{cov}(x,y)}{\text{var}(x)}$$
  • $$\frac{\sum(x_i - \bar{x})(y_i - \bar{Y})}{\sum(x_i - \bar{x})^2}$$

Intercept ($\beta_0$)

$$\beta_0 = \bar{Y} - \beta_1 \bar{x}$$

Mínims Quadrats Múltiples (MRLM)

Minimització de la Suma de Quadrats dels Errors

$$\text{Min } S(\boldsymbol{\beta}) = \min \sum e^2 = \min \sum (y - \hat{y})^2$$

Condició de primer ordre: $\partial S / \partial \beta_k = 0$

Estimació de $\boldsymbol{\beta}$

$$\boldsymbol{\hat{\beta}} = (X'X)^{-1} X'Y$$

Ajust restringit: $\boldsymbol{\hat{\beta}}_m = \boldsymbol{\hat{\beta}}_p + (X'X)^{-1} X'u$

Variància i Covariància

Variància de l'Error ($\sigma^2_{\mu}$)

$$\sigma^2_{\mu} = \frac{e'e}{n-k} = \frac{\sum e_i^2}{n-k} = \frac{V_{nE}}{n-k}$$

Variància dels Coeficients

$$\text{Var}(\boldsymbol{\hat{\beta}}) = \sigma^2_{\mu} (X'X)^{-1}$$

Variància de la Predicció

$$\text{Var}(\hat{Y}) = E(\mu^2) = \sigma^2_{\mu}$$

Mesures de la Variació Total

Variació Explicada (VE)

$$\text{VE} = \sum(y_i - \bar{Y})^2 \text{ o } R^2 V_T \text{ o } \boldsymbol{\hat{\beta}}'X'Y \text{ o } \sum y_i^2 - N\bar{Y}^2$$

En MRLS: $\beta_2 \sum(x_i - \bar{x})(y_i - \bar{Y})$

Variació No Explicada (VnE)

$$\text{VnE} = \sum e_i^2 = \sum(y_i - \hat{y}_i)^2 = \sum(y_i - \bar{Y})^2 (1-R^2) = e'e$$

Variació Total (VT)

$$\text{VT} = \sum(y_i - \bar{Y})^2$$

Coeficient de Determinació ($R^2$)

  • $$\text{r}_{xy} = \frac{\text{Cov}(x,y)}{\sqrt{\text{Var}(x)}\sqrt{\text{Var}(y)}}$$
  • $$R^2 = \frac{\text{VE}}{\text{VT}} = 1 - \frac{\text{VnE}}{\text{VT}}$$
  • En MRLS: $R^2 = r_{xy}^2$

Ajustos de $R^2$

  • $R^2$ sense $\beta_0$: $\sum \hat{y}^2 / \sum y^2$
  • $R_c^2$ (Ajustat): $1 - \frac{n-1}{n-k} (1-R^2)$

Interpretació dels Coeficients Estandarditzats

$\boldsymbol{\beta}$ estandarditzat: $\hat{\beta}^* = \hat{\beta} \cdot (S_x/S_y)$

  • Lineal: $Y$ augmenta en $\hat{\beta}_1$ per cada unitat que $X$ augmenta.
  • Lineal-Log: $Y$ augmenta en $\hat{\beta}_1/100$ % per cada unitat que $X$ augmenta.
  • Log-Lineal: $Y$ augmenta en $100 \cdot \hat{\beta}_1$ % per cada augment del $1\%$ en $X$.
  • Log-Log (Elasticitat): $Y$ augmenta en $\hat{\beta}_1$ % per cada augment del $1\%$ en $X$.
  • Quadràtic: $Y$ augmenta en $\hat{\beta}_1 + (2\hat{\beta}_2)X$.

Test d'Hipòtesis

  • Error 1 ($\alpha$): $R_H0$ quan es compleix.
  • Error 2 ($\beta$): $NR_H0$ quan es falsa.

Contrast Conjunt (F)

$$F_{k-1, n-k} = \frac{(\text{VE}/k-1)}{(\text{VnE}/n-k)} \text{ o } \frac{(R^2/k-1)}{(1-R^2 / n-k)}$$

Intervals de Confiança i Tests Individuals (t)

  • Interval de Confiança: $\hat{\beta} \pm t_{n-k, \alpha/2} \cdot \text{er.es}(\hat{\beta})$
  • Test Individual: $t_{n-k} = \frac{\hat{\beta}_j - \beta_j^0}{\text{er.es}(\hat{\beta}_j)}$

Estimació Restringida

Valor $= 1 \implies$ Consistència; $<1 \implies$ Decreix; $>1 \implies$ Creix.

Una Restricció

$$t_{n-k} = \frac{a\hat{\beta}_1 \pm b\hat{\beta}_2 - c}{\sqrt{a^2\text{Var}(\hat{\beta}_1) + b^2\text{Var}(\hat{\beta}_2) + 2ab\text{Cov}(\hat{\beta}_1, \hat{\beta}_2)}}$$

Una o Més Restriccions (Test F Generalitzat)

$$F_{q, n-k} = \frac{(\boldsymbol{\hat{\beta}}_r - \boldsymbol{\beta})' [R(X'X)^{-1} R']^{-1} (R\boldsymbol{\hat{\beta}} - \boldsymbol{r})}{q} / \frac{e'e}{(n-k)}$$

Alternativament:

  • $$\frac{(\text{VnE}_r - \text{VnE})/q}{(\text{VnE}/n-k)}$$
  • $$\frac{(R^2 - R^2_r)/q}{(1-R^2 / n-k)}$$
  • $$\frac{((\boldsymbol{\beta}_r - \boldsymbol{\hat{\beta}})' (X'X) (\boldsymbol{\beta}_r - \boldsymbol{\hat{\beta}})/q)}{(e'e / n-k)}$$

Predicció

Punt Concret

$$\hat{y}_{n+h} = X'_{n+h} \boldsymbol{\hat{\beta}}$$

Interval de Predicció

$$\hat{y}_{n+h} \pm t_{n-k, \alpha/2} \cdot \text{er.es}(\hat{e}_{n+h})$$

$$\text{er.es}(\hat{e}_{n+h}) \rightarrow \sqrt{\sigma^2_{\mu} (1 + X'_{n+h}(X'X)^{-1}X_{n+h})}$$

Avaluació de la Qualitat de la Predicció

($j$ = nombre d'observacions predites)

  • Error Quadràtic Mitjà (EQM): $ (1/j) \sum (y_i - \hat{y}_i)^2 $
  • Error Absolut Mitjà (EAM): $ (1/j) \sum |y_i - \hat{y}_i| $

Coeficient de Theil

$$\sqrt{\frac{1}{j} \sum(y_i - \hat{y}_i)^2} / \left( \sqrt{\frac{1}{j} \sum y_i^2} + \sqrt{\frac{1}{j} \sum \hat{y}_i^2} \right)$$

Test de Canvi Estructural (Chow)

$$F_{k, n-2k} = \frac{(e'e - (e'_1 e'_1 + e'_2 e'_2))/k}{((e'_1 e'_1 + e'_2 e'_2) / n-2k)}$$

  • Final: $F_{n_2, n_1-k}$: $\frac{(e'e - e'_1 e'_1)/n_2}{(e'_1 e'_1) / n_1-k}$
  • Inici: $F_{n_1, n_2-k}$: $\frac{(e'e - e'_2 e'_2)/n_1}{(e'_2 e'_2) / n_2-k}$
  • Lineal: $F_{p-1, n-(k+p-1)}$: $\frac{(\text{VnE}_r - \text{VnE}) / p-1}{(\text{VnE} / (n-(k+p-1)))}$ ($p$ = valor potencial)

Test de Normalitat dels Residus

Asimetria (g1) - Test de Fisher

$$g_1 = \frac{\sqrt{n} \sum e_i^3}{(\sum e_i^2)^{3/2}}$$

  • $g_1=0$: Normalitat.
  • $g_1>0$: Asimetria a la dreta.
  • $g_1<0$: Asimetria a l'esquerra.

Curtosi (g2)

$$g_2 = \frac{n \sum e_i^4}{(\sum e_i^2)^2}$$

  • $g_2=3$: Mesocúrtica (similar a la normal).

Jarque-Bera ($X^2_{2}$)

$$X^2_{2} = n \left( \frac{g_1^2}{6} + \frac{(g_2-3)^2}{24} \right)$$

Supòsits del Model

  • $y'y = \boldsymbol{\beta}'X'Y$
  • $E(X'\mu) = 0$
  • $E(\mu\mu') = \sigma^2_{\mu} I_n$
  • $\mu'\mu = \sum \mu_i^2$
  • $\sum e_i = 0$
  • $\boldsymbol{\hat{\beta}} = \boldsymbol{\beta}_{pob} + (X'X)^{-1} X'\mu$
  • $\boldsymbol{\hat{\beta}} \sim N [\boldsymbol{\beta}, \sigma^2_{\mu} (X'X)^{-1}]$

Diagnòstic de Punts Influents (Leverage)

Matriu de Leverage (H)

  • $H = \text{diag}((X'X)^{-1}X')$ (Incorrecte, probablement $H=X(X'X)^{-1}X'$)
  • $h_{ii}^{\text{univ}} = 1/n + \frac{(x_i - \bar{x})^2}{\sum(x_j - \bar{x})^2}$
  • $h_{ii}^{\text{multiv}} = 1/n \cdot (1 + (x_i - \bar{x})'S^{-1} (x_i - \bar{x}))$

Relació: $\text{Var}(\hat{y}) = \sigma^2_{\mu} h_{ii}$. $\uparrow \text{corr} \rightarrow \uparrow (X'X)^{-1} \rightarrow \boldsymbol{\hat{\beta}}$ menys precisos.

Influència Real

  • Distància de Cook ($D$): $\frac{(y - y_{(i)})' (y - y_{(i)})}{k S^2_u}$
  • Regla empírica: Si $n$ gran, $D > 1$ és realment influent. Si $n$ petit, $F_{k, n-k}$.
  • DFFits: $\frac{\hat{y} - \hat{y}_{(i)}}{\sqrt{S^2_{(i)} u \cdot h_{ii}}}$
  • Regla empírica: Si $n$ gran, $|\text{DFFits}| \pm 2\sqrt{k/n}$. Si $n$ petit, $t_{n-k}$.
  • DFBETAS: $\frac{\hat{\beta}_m - \hat{\beta}_{m(i)}}{\sqrt{S^2_{(i)} u \cdot [(X'X)^{-1}]_{jj}}}$
  • Regla empírica: Si $n$ gran, $|\text{DFBETAS}| \pm 2 / \sqrt{n}$. Si $n$ petit, $t_{n-k}$.

Anàlisi de Residus

  • Residu MQO ($e_i$): Si $|e_i| > 2$ o $3$, és atípic.
  • Residus Estandarditzats: $e_i / \sqrt{S^2_u}$
  • Residus Estudiantitzats ($t$): $\frac{e_i}{S^2_u \sqrt{1-h_{ii}}}$ ($t_{n-k-1}$)
  • Residus Estudiantitzats Externs: $\frac{e_i}{S^2_{(i)} u \sqrt{1-h_{ii}}}$ ($t_{n-k-1}$)

Multicol·linealitat (FIV)

  • FIV: $1 / (1 - R^2_j)$. Si $\text{FIV} > 10$, hi ha problema.
  • Nombre Condicional: $\sqrt{\lambda_{\text{max}} / \lambda_{\text{min}}} > 30$.

Test d'Heterocedasticitat

  • GolfQ (Goldfeld-Quandt): $\text{VnE}_3 / \text{VnE}_1$. Contraste $F_{\alpha}(n_2-k, n_1-k)$.
  • BP (Breusch-Pagan): $n \cdot R^2_{\text{aux}} > \chi^2_{q, 1-\alpha}$.
  • W (White): $n \cdot R^2_{\text{aux}} > \chi^2_{k(k+1)/2}$. (Exclou $b_0$).

Regressió amb Mínims Quadrats Generalitzats (MQG)

$$\boldsymbol{\hat{\beta}}_{MQG} = (X'\Omega_m^{-1}X)^{-1} (X'\Omega_m^{-1}Y)$$

Transformació: $Y^* = T Y$, $X^* = T X$

$$S^2_{u, MQG} = e'\Omega_m^{-1}e / (n-k)$$

$$\text{Var}(\boldsymbol{\hat{\beta}}_{MQO}) = S^2_u (X'X)^{-1}(X'\Omega_m X)(X'X)^{-1}$$

Entradas relacionadas: