Fundamentos de Machine Learning: Selección de Atributos, Modelos Transparentes y Métodos de Validación
Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones
Escrito el en
español con un tamaño de 7,19 KB
Selección de Atributos (Feature Selection)
La selección de atributos consiste en identificar y mantener solo las variables más importantes para el modelo. Esto ofrece múltiples beneficios:
- Mejora el poder predictivo de las variables seleccionadas.
- Permite una mejor interpretación del modelo.
- Acelera la construcción y reduce los costos operativos.
- Elimina atributos que generan ruido.
- Mejora la representación y comprensión del modelo.
- Facilita un entrenamiento más rápido y una mejor clasificación.
Criterios y Métodos de Selección
Método de Filtro (Filter Method)
Método estadístico utilizado para eliminar atributos que contienen poca información. Los criterios clave son:
- Inutilidad: Variables nominales con casi el 100% de los datos en un único valor, o variables numéricas con desviación estándar cercana a cero. No aportan al modelo.
- Irrelevancia: La variable independiente (X) es estadísticamente independiente de la variable objetivo (Y).
- Redundancia: Dos o más variables (X) son muy similares y describen casi el mismo fenómeno.
- Sesgo: Atributos que, debido a su distribución, podrían alterar la muestra o introducir sesgos no deseados.
Método Envolvente (Wrapper Method)
Evalúa diferentes combinaciones de atributos, eligiendo el mejor subconjunto basado en el rendimiento del modelo.
Método Empotrado (Embedded Method)
Incorpora la selección de atributos dentro del proceso de construcción de un único modelo (ej. árboles de decisión o modelos regularizados).
Asignación de Créditos y Modelos Transparentes
La asignación de créditos busca identificar clientes que no pagarán, lo cual es crucial para el control de pérdidas financieras. La automatización de este proceso requiere el uso de modelos analíticos transparentes que eviten la inclusión de atributos discriminatorios, cumpliendo con normativas como Basilea II y III.
La automatización de la decisión de otorgar créditos ofrece ventajas significativas:
- Permite la identificación de patrones importantes gracias a la interpretabilidad.
- Facilita la definición de políticas de retención.
- Suele tener una mejor capacidad predictiva que las decisiones basadas únicamente en expertos.
Modelos Transparentes (Interpretabilidad en Machine Learning)
Los modelos transparentes son algoritmos de Machine Learning que permiten entender fácilmente cómo y por qué se generan sus predicciones. Ofrecen herramientas cuantitativas para evaluar la pertinencia de la información incluida, lo que ayuda a reducir costos.
Se consideran intuitivos y explicables, siendo esenciales en sectores donde la interpretabilidad es clave, como las finanzas, la medicina o el derecho.
Regresión Logística
Es un modelo inherentemente transparente, simple y que suele entregar buenos resultados sin necesidad de un ajuste exhaustivo de parámetros. Es una excelente primera opción.
- Funciona mejor con variables numéricas.
- Asume el supuesto de filas independientes.
- No captura relaciones complejas entre variables.
Árboles de Decisión
Modelos que dividen los datos en ramas mediante preguntas basadas en las características. Son intuitivos y visuales, facilitando la comprensión del proceso de toma de decisiones. Son simples y flexibles (permiten más ajuste de hiperparámetros).
Funcionan mejor con variables nominales y utilizan un método de selección de atributos empotrado (generando cortes horizontales y verticales).
Decisión de División y Asignación
Para determinar la división en un nodo, se selecciona:
- Un atributo que mejor clasifique los datos (la variable que proporciona la mayor ganancia de información o que reduce más la entropía).
- Un umbral para lograr la separación óptima de los datos.
El resultado de esta primera división es el nodo raíz.
Criterios de Detención (Stopping Criteria)
Para evitar el sobreajuste (overfitting) del modelo, es crucial establecer límites en la construcción del árbol. Aquí se aplica el principio de la Navaja de Occam: si dos modelos explican los datos de manera similar, el modelo más simple es preferible.
El sobreajuste se produce al tener demasiadas ramas. Esto se puede controlar mediante:
- Limitar la profundidad máxima del árbol.
- Limitar inferiormente la cantidad mínima de ejemplos requeridos en un nodo para permitir una división.
Validación de Modelos Predictivos
Según el teorema No Free Lunch (NFL), no existe un único "mejor" modelo para todos los problemas; por lo tanto, es necesario probar y comparar diferentes enfoques. Para validar un modelo, la Base de Datos (BBDD) debe particionarse en conjuntos de entrenamiento y prueba (testeo).
Tipos de Validación
Validación Simple (Holdout)
Consiste en dividir el conjunto de datos en dos o tres partes: entrenamiento, prueba y, opcionalmente, validación. El modelo se entrena con el primer conjunto y se evalúa con el de prueba.
- Proporción común: 70% entrenamiento / 30% prueba.
- El conjunto de entrenamiento debe contener la mayor cantidad de datos.
- Es fundamental que las proporciones de las clases objetivo estén balanceadas en ambas particiones.
Validación Cruzada (Cross-Validation)
Es un método más robusto. En lugar de una única división, los datos se dividen varias veces en diferentes subconjuntos (folds). Esto garantiza que cada parte del conjunto de datos se utilice tanto para entrenar como para evaluar, proporcionando una estimación más estable del rendimiento.
Validación Anidada (Nested Cross-Validation)
Combina la validación simple y la cruzada, siendo ideal para la comparación objetiva de modelos y el ajuste de hiperparámetros:
- Validación Externa (Simple): Se usa una división 70/30 para seleccionar el modelo base.
- Validación Interna (Cruzada): Se realiza Cross-Validation dentro del 70% de entrenamiento para calibrar los hiperparámetros (ej., la profundidad de un árbol de decisión).
- Evaluación Final: Una vez elegidos los parámetros óptimos, el modelo se entrena con el 70% completo y se evalúa con el 30% restante.
Este método previene que un modelo más complejo se favorezca injustamente durante el proceso de validación.