Preparación de Datos para Modelos de Riesgo de Crédito y Segmentación de Clientes
Enviado por Chuletator online y clasificado en Economía
Escrito el en español con un tamaño de 6,73 KB
Preparación de Datos para Modelos Económicos
Exploración de Datos (AED)
AED: encontrar patrones y tendencias, identificar problemas en los datos.
- Univariado: una variable
- Bivariado: relación entre variables
Variable:
- Cualitativa/Nominal: no numérica y no tienen orden/distancia entre los datos.
- Ordinal: orden claro, pero no tiene distancia lógica (bueno, malo, regular).
- Numérica/Cuantitativa: orden y distancia lógica.
Limpieza de Datos
Limpieza de Datos: corregir Valores Perdidos (VP) o Inconsistentes (I).
- NMAR/Ad-hoc: la BBDD presenta problemas y se hace una estrategia en base a eso.
- MAR: VP dependen de otras variables; solución estadística como imputación múltiple.
- MCAR: al azar y no hay pistas.
- Si el porcentaje de VP es bajo (~3%): eliminar filas o reemplazar por medida de tendencia central.
- Si el porcentaje de VP es moderado (10% - 30%): generar datos respetando la distribución (imputación múltiple).
- Si el porcentaje de VP es alto (~50%): eliminar la variable.
Transformación de Datos
Transformación de Datos: generar información más valiosa a partir de los datos (creación de nuevas variables).
- Dar sentido matemático: que el modelo pueda procesar los datos. Ejemplos: crear variables dummy (0-1) o usar escalas Likert (pasar rangos a números, ej: 1 insatisfecho, 2 satisfecho, etc.).
- Mejorar poder predictivo: crear variables que expliquen mejor la variable objetivo. Métodos: Transformación Box-Cox o logarítmica (corrige asimetría de variables numéricas, útil para datos como ingresos/dinero). Discretizar (pasar de numérica a nominal) o Categorizar (agrupar en rangos, ej: joven 18-25 años, adulto 30-50 años, adulto mayor +50 años).
- Igualar pesos relativos: asegurar que las variables tengan la misma escala.
Selección de Atributos
Selección de Atributos: identificar y conservar solo las variables más relevantes.
- Beneficios: Mejora el poder predictivo, facilita la interpretación, acelera la construcción del modelo, reduce costos. Permite eliminar variables que generan ruido, mejora la representación y comprensión del modelo, y acelera el entrenamiento y la clasificación. Taxonomía/Criterios:
- Método de Filtro: utiliza métodos estadísticos para seleccionar variables. Criterios: Inutilidad (variable nominal con un único valor predominante o numérica con desviación estándar cercana a cero, no aporta al modelo). Irrelevancia (variable X independiente de la variable objetivo Y). Redundancia (dos o más variables X son muy similares y describen casi lo mismo). Sesgo (respecto a la distribución, que altere la muestra).
- Método Envolvente: evalúa combinaciones de atributos para elegir el mejor subconjunto.
- Método Empotrado: elimina atributos durante la construcción de un único modelo.
Segmentación de Clientes para Evaluación de Riesgo de Crédito: El Caso INDAP
Razón de la Segmentación
La segmentación se realizó para construir una herramienta de apoyo al proceso de evaluación de riesgo de crédito (mejor toma de decisiones), ya que INDAP corresponde al principal servicio del Estado de Chile que apoya a la pequeña agricultura, fomentando y potenciando su desarrollo. Contar con un modelo predictivo toma vital importancia a la hora de ser mucho más eficientes respecto a la evaluación de los créditos que se otorgan, maximizando el beneficio social con una mejor asignación de recursos públicos.
Criterios y Variables de Segmentación
Respecto a los criterios utilizados, en el caso INDAP, se hizo una división entre créditos de corto y largo plazo, principalmente debido a que el objeto del financiamiento tiene naturaleza y condiciones de riesgo totalmente distintas. Sumado a esto, se hizo una diferencia al evaluar a clientes dependiendo si son nuevos o antiguos, pues de estos últimos ya se tenía información del comportamiento crediticio. Las variables utilizadas, a partir de lo mencionado, son el “plazo” del crédito (corto o largo) y la “antigüedad” del cliente (nuevo o antiguo). Sumado a esto, se separaron los créditos de largo plazo con duración mayor a 6 años, teniendo dichos créditos un tratamiento especial.
Modelos Aplicados y Variables Utilizadas
Por tal razón, para obtener mejores modelos se hizo una segmentación de cinco segmentos, para los cuales a cada uno se generó un modelo logístico. Finalmente, para el desarrollo de los modelos se utilizó información del cliente (edad, estado civil, predios, etc.), características del crédito (plazo, monto, rubro, etc.) y comportamiento de pago anterior del cliente con INDAP (moras, condonaciones, renegociaciones, etc.). Además, para el universo de créditos de corto plazo para clientes antiguos, según el texto leído, se utilizaron variables relevantes como el monto del crédito y el comportamiento de mora anterior del cliente.
Conceptos y Casos Específicos
Visualización y Transformación
Si hay un gráfico tipo histograma con sesgo hacia el lado izquierdo de la distribución, la Transformación Box-Cox o log(x+1) corrige el sesgo, mejora la varianza y ajusta la distribución hacia una normal.
Escalar: consiste en transformar los datos para que se encuentren en un rango o escala común, lo que puede mejorar la visualización o el rendimiento de ciertos modelos.
Ejemplos Prácticos
En el caso del Banco Bankloan: se eliminó la variable “educación” por estar sesgada debido a la naturaleza del proceso de obtención de datos.
Manejo de Datos Faltantes y Correlación
Si una variable continua presenta un comportamiento no lineal con la variable objetivo, una transformación útil es la Discretización.
Para una variable nominal NMAR con un 50% de VP: Crear una categoría adicional para los valores perdidos.
Si hay variables predictoras con correlación alta entre sí: se puede considerar eliminar una de ellas, quizás manteniendo la que tenga mayor relación con la variable objetivo (ej. mayor chi-cuadrado si aplica).