Fundamentos de Econometría: OLS, Validez Causal e Inferencia Estadística Aplicada
Enviado por Programa Chuletas y clasificado en Matemáticas
Escrito el en
español con un tamaño de 10,57 KB
Aplicación - IN4402 - Luis Gutiérrez
Validez en Investigación y Diseño Experimental
- Validez de Constructo (Construct Validity): Se refiere a si las variables reflejan o miden con precisión el constructo de interés.
- Validez Interna (Internal Validity): ¿Qué tan seguros estamos de que A causa B? Se refiere a si se pueden extraer conclusiones sobre los efectos causales.
- ¿Cómo se consigue? Mediante la Asignación Aleatoria (Random Assignment).
- Validez Externa (External Validity): Se refiere a si los resultados son generalizables a las poblaciones y entornos de interés.
- ¿Cómo se consigue? Mediante el Muestreo Aleatorio (Random Sampling).
Fundamentos de Datos y Modelos Lineales
Exploratory Data Analysis (EDA)
Tipos de variables:
- Nominal (Ej: Género)
- Ordinal (Ej: Nivel Educacional)
- Intervalo (Ej: Ingresos)
Modelo Lineal y Mínimos Cuadrados Ordinarios (OLS)
El Modelo Lineal utiliza el método de Mínimos Cuadrados Ordinarios (OLS), el cual minimiza la suma de los residuos al cuadrado. El modelo debe ser lineal en los parámetros.
Supuestos Clave de OLS
- Muestreo Aleatorio (Random Sampling).
- No Multicolinealidad.
- Dado $X$, la esperanza del error es cero: $E(u_i|x)=0$.
- Homoscedasticidad: La varianza del error es constante: $var(u_i|X)=\sigma^2$.
El Teorema de Gauss-Markov establece que los estimadores de OLS son BLUE (Best Linear Unbiased Estimator), lo que implica:
- Mínima Varianza.
- Insesgado (Unbiased): $E(\hat{\beta})=\beta$.
- Consistente (Consistent): $\hat{\beta} \to \beta$ cuando $n \to \infty$.
Inferencia Estadística y Sesgos
El p-value es una medida de la evidencia que se tiene en contra de la hipótesis nula (basada en la muestra).
Un Estimador más Eficiente tiene menor Varianza y, por lo tanto, menor Error Estándar.
Sesgo por Variable Omitida (OVB)
El Sesgo por Variable Omitida (Omited Variable Bias) ocurre si la variable omitida está correlacionada con una variable incluida y afecta a la variable dependiente. Ejemplo: si $\text{corr}(x_1, x_2) > 0$ y $\beta_2 > 0$, el sesgo es positivo. Añadir la variable omitida es la solución, no solo añadir otra variable.
Interpretación de Resultados y Efectos de Tratamiento
Al interpretar los modelos, se debe considerar:
- El Signo del coeficiente.
- La Magnitud del efecto.
- El Estadístico (significancia).
- El Intervalo de Confianza.
Nota: Si el modelo es log-log, el coeficiente se interpreta como Elasticidad.
Se utiliza el Estimador de Máxima Verosimilitud (Maximum Likelihood Estimator) en ciertos modelos.
Efecto Promedio de Tratamiento (ATE)
La fórmula del Efecto Promedio de Tratamiento (ATE) es:
$$ATE = ATT + SS = E[Y_i(1)|D_i=1] - E[Y_i(0)|D_i=1] + E[Y_i(0)|D_i=1] - E[Y_i(0)|D_i=0]$$
Se utiliza el Estadístico T (T statistic) para pruebas de hipótesis individuales.
Cuestionario de Verdad o Falsedad
Afirmación Falsa (F)
Los experimentos de campo aumentan la validez externa comparado a estudios observacionales.
Justificación: Los experimentos de campo suelen tener mayor validez externa que los experimentos de laboratorio, pero la comparación directa con estudios observacionales depende del contexto y el diseño muestral.
Afirmación Falsa (F)
El ejemplo del Dr. John Snow y la epidemia de cólera en Londres puede ser considerado un experimento natural, pues en ese tiempo no existía un comité de ética para aprobar el experimento.
Justificación: La clasificación como experimento natural se debe a que la asignación al tratamiento (fuente de agua) fue determinada por factores externos (la naturaleza o la infraestructura existente), no por la ausencia de un comité de ética.
Afirmación Verdadera (V)
Suponga que se quiere estimar el modelo $Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + u_i$, sin embargo, usted estima $Y_i = \beta_0 + \beta_1 X_{1i} + u_i$. Si se espera que la correlación entre $X_1$ y $X_2$ sea positiva, y que $\beta_2$ sea negativo, entonces el sesgo de $\hat{\beta}_1$ es negativo.
Afirmación Verdadera (V)
El Modelo de Probabilidad Lineal (Linear Probability Model o LPM) usa Mínimos Cuadrados Ordinarios (OLS) para determinar la probabilidad de un resultado (outcome).
Afirmación Falsa (F) - Sobre Merma (Attrition)
La merma (attrition) en un experimento no afecta al estimador de efecto (ATE) siempre y cuando la merma guarde relación solo con la variable dependiente.
Justificación: ¡Falso! Para que no afecte, la merma debe ser aleatoria o ser independiente de los resultados potenciales. Si la merma está relacionada con la variable dependiente, introduce sesgo de selección.
Afirmación Falsa (F) - Sobre Merma y Grupos
En un experimento, si se sufre de merma (attrition) en el grupo de control, obligatoriamente debemos quitar la misma cantidad de personas del grupo de tratamiento.
Justificación: ¡Falso! Lo importante es chequear “cómo se comporta la merma”, cuáles son los resultados potenciales de ambos grupos al considerar la información faltante. La solución no es forzar el balance de tamaño.
Afirmación Falsa (F) - Sobre Poder y Error Tipo II
Si el poder se define como la probabilidad de no cometer el error tipo II, esto quiere decir que es la probabilidad de ver significativa una variable que en realidad no lo es.
Justificación: ¡Falso! La probabilidad de ver significativa una variable que en realidad no lo es, es el Error Tipo I ($\alpha$). El Error Tipo II ($\beta$) es no rechazar una hipótesis nula que es falsa (no ver significativa una variable que sí lo es). El Poder es $1 - \beta$.
Afirmación Falsa (F) - Sobre Ética y P-Hacking
El experimento del chocolate es anti-ético porque no utilizó un Consejo de Ética para aprobar su experimento.
Justificación: ¡Falso! Es anti-ético debido al P-Hacking, que consiste en forzar efectos que no existen mediante la manipulación de datos o pruebas estadísticas hasta obtener un resultado "significativo" por azar.
Afirmación Verdadera (V)
Cuando se dice que existe endogeneidad, implica directamente que el estimador de OLS está sesgado.
Afirmación Falsa (F) - Sobre Definición de Endogeneidad
La endogeneidad se define como una covarianza no nula entre la variable dependiente y el término de error aleatorio.
Justificación: La endogeneidad se define como una covarianza no nula entre la variable independiente (regresor) y el término de error aleatorio: $\text{Cov}(X_i, u_i) \neq 0$.
Afirmación Verdadera (V)
Las causas más comunes de endogeneidad son variable omitida, simultaneidad y variable medida con error.
Afirmación Falsa (F) - Sobre Regresión Discontinua
Suponga el diseño de Regresión Discontinua $outcome_i = \beta_0 + \beta_1 x_i + \beta_2 D_i + u_i$ con $D_i = 1$ si $x_i > 0.5$ y $0$ si no. Dado lo anterior, se tiene que $\text{Cov}(D_i, u_i) \neq 0$, por lo que $D_i$ es endógena.
Justificación: En el diseño de Regresión Discontinua (RD), si el punto de corte es exógeno, la variable $D_i$ (tratamiento) se considera exógena localmente en el umbral, ya que la asignación es determinística y conocida.
Afirmación Falsa (F) - Sobre Test de Causalidad
Para determinar causalidad se debe testear $\beta_1 = \beta_2 = \cdots = \beta_k = 0$ en $Y_{it} = \beta_0 + \beta_1 X_{it} + \beta_2 X_{it}^2 + \cdots + \beta_k X_{it}^k + \gamma_1 Z_{it} + u_{it}$.
Justificación: Este es un Test de Significancia Conjunta (Test F), no un test directo de causalidad. La causalidad requiere supuestos de exogeneidad y diseño experimental/cuasi-experimental.
Afirmación Falsa (F) - Sobre Series de Tiempo
Las series de tiempo se caracterizan por ser determinísticas.
Justificación: Las series de tiempo suelen modelarse como procesos estocásticos (aleatorios), aunque pueden contener componentes determinísticos (tendencia, estacionalidad).
Afirmación Falsa (F) - Sobre Variables en Series de Tiempo
Necesito de al menos dos variables diferentes ($Y$ e $X$) para modelar una serie de tiempo.
Justificación: Se pueden modelar series de tiempo univariadas (solo $Y_t$) utilizando modelos ARIMA o AR, donde la variable se explica por sus propios valores pasados.
Afirmación Verdadera (V)
Una característica de las Series de Tiempo (ST) que las diferencia de los datos transversales es la posibilidad de errores de correlación serial (autocorrelación).