Optimización de Modelos Predictivos: Implementación de Métodos de Selección de Variables Stepwise
Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones
Escrito el en
español con un tamaño de 4,37 KB
Métodos de Selección Paso a Paso (Stepwise)
Se han desarrollado varios métodos para evaluar solo una pequeña cantidad de modelos con subconjuntos, agregando y eliminando regresores uno por uno. A estos métodos se les llama en general selección por pasos (stepwise selection). La idea central de este método (Efromyson, 1962) es elegir el mejor modelo en forma secuencial y termina cuando una regla de parada se satisface. Hay tres algoritmos posibles, los cuales serán descritos a continuación.
Selección Hacia Adelante (Forward Selection)
Este método comienza con la regresión lineal simple, considerando como variable predictora aquella que está más altamente correlacionada (sin tomar en cuenta el signo) con la variable de respuesta. Si esta primera variable no es significativa, el proceso se detiene. De lo contrario, en el siguiente paso se añade al modelo la variable que cumpla cualquiera de estos requisitos equivalentes:
- Aquella variable que tiene el estadístico de F o de t (sin tomar en cuenta el signo) más grande entre las variables no incluidas aún en el modelo.
- Aquella variable que produce el mayor incremento en el $R^2$ al ser añadida al modelo.
- Aquella variable que tiene la correlación parcial más alta (en valor absoluto) con la variable de respuesta, tomando en cuenta las variables ya incluidas en el modelo.
Toda variable que es añadida al modelo ya no puede ser eliminada. El proceso termina cuando se cumple una de las siguientes condiciones:
- Se llega a un modelo con un número prefijado $p$ de variables predictoras.
- El valor de la prueba de F para cada una de las variables no incluidas aún en el modelo es menor que un número prefijado $F_{in}$ (por lo general, este valor es 4, o el $F_{in}$ correspondiente a un nivel de significación prefijado, digamos 15%).
O, en forma equivalente, el proceso se detiene cuando el valor absoluto del estadístico de $t$ es menor que la raíz cuadrada de $F_{in}$ (por lo general, $|t|
Eliminación Hacia Atrás (Backward Elimination)
En este caso, se comienza con el modelo completo y en cada paso se va eliminando una variable. Si resultara que todas las variables predictoras son no significativas, el proceso se detiene. En caso contrario, la variable que se elimina del modelo en cada paso es aquella que satisface cualquiera de estos requisitos equivalentes:
- Aquella variable que tiene el estadístico de F o de t (sin tomar en cuenta el signo) más pequeño entre las variables incluidas aún en el modelo.
- Aquella variable que produce la menor disminución en el $R^2$ al ser eliminada del modelo.
- Aquella variable que tiene la correlación parcial más pequeña (en valor absoluto) con la variable de respuesta, tomando en cuenta las variables que quedarían en el modelo.
Toda variable que es eliminada ya no vuelve a entrar. El proceso termina cuando se cumple una de las siguientes condiciones:
- Se llega a un modelo con un número prefijado $p$ de variables predictoras.
- El valor de la prueba de F para todas las variables incluidas en el modelo es mayor que un número prefijado $F_{out}$ (por lo general, este valor es 4, o es el que corresponde a un nivel de significación dado, digamos del 10%).
O, en forma equivalente, el proceso se detiene cuando el valor absoluto del estadístico de $t$ para cada variable es mayor que la raíz cuadrada de $F_{out}$ (por lo general, $|t| > 2$).
Selección Paso a Paso (Stepwise Selection)
Este método se puede considerar como una modificación del método Forward. Se comienza con un modelo de regresión simple y en cada paso se puede añadir una variable de forma similar al método de Selección Hacia Adelante. Sin embargo, se coteja si alguna de las variables que ya están presentes en el modelo puede ser eliminada (similar a Backward Elimination).
Para este proceso se utilizan los umbrales $F_{out}$ y $F_{in}$, con la condición de que $F_{in} > F_{out}$.
El proceso termina cuando ninguna de las variables que no han entrado aún tienen la importancia suficiente como para ingresar al modelo, y ninguna de las variables ya incluidas debe ser eliminada.