Reglas de Asociación y Árboles de Decisión: Predicción y Clasificación en Data Mining
Enviado por Chuletator online y clasificado en Psicología y Sociología
Escrito el en español con un tamaño de 4,26 KB
Tipos de Reglas
Existen tres tipos principales de reglas:
- Accionables: Permiten tomar decisiones de negocio, como ofrecer promociones específicas.
- Triviales: Son fortuitas y no ofrecen información útil para la toma de decisiones.
- Inexplicables: Carecen de sentido o lógica.
Reglas de Asociación
Una regla de asociación entre dos productos, A y B, indica que la presencia del producto A implica la presencia del producto B. Esto se utiliza, por ejemplo, en sistemas de recomendación.
Métricas Clave en Reglas de Asociación
Para evaluar la relevancia y utilidad de las reglas de asociación, se utilizan las siguientes métricas:
Soporte de la regla (A->B): Indica el porcentaje de transacciones en las que se cumple la regla. Se calcula como:
Soporte (A->B) = Frecuencia (A, B) / Total de transacciones
Confianza (A->B): Representa la probabilidad de que en una transacción se adquiera el producto B, dado que ya se compró el producto A. Se calcula como:
Confianza (A->B) = Frecuencia (A, B) / Frecuencia (A)
Soporte (A): Es el porcentaje de transacciones en las que aparece el producto A. Se calcula como:
Soporte (A) = Frecuencia (A) / Total de transacciones
LIFT: Combina el soporte y la confianza para medir la fortaleza de la asociación. Indica cuántas veces es más probable que se compre B dado que se compró A, en comparación con la probabilidad de comprar B de forma independiente.
LIFT = Confianza (A->B) / Soporte (B)
Un valor de LIFT mayor a 1 indica una asociación positiva; cuanto mayor sea el valor, más fuerte es la asociación.
El conocimiento del soporte y la confianza permite discriminar entre diferentes combinaciones de productos y priorizar las reglas más relevantes. Sin embargo, estas métricas deben usarse en conjunto, y aquí es donde LIFT juega un papel crucial.
Árboles de Decisión
Los árboles de decisión son métodos utilizados tanto para predecir como para clasificar. La predicción permite anticipar lo que ocurrirá en períodos futuros, mientras que la clasificación permite segmentar datos, tanto presentes como futuros, identificando la pertenencia a grupos específicos. Los árboles de decisión utilizan *regresiones* para predecir y *árboles* para clasificar.
El proceso de construcción de un árbol de decisión implica la división recursiva del conjunto de datos en subconjuntos más homogéneos, basándose en los valores de las variables predictoras. Para poder predecir, es fundamental entrenar el modelo. Esto requiere establecer *a priori* ciertas "marcas" o "etiquetas" que representen la categoría que se busca predecir o clasificar. Esta marca es esencial, ya que proporciona la información necesaria para que el modelo aprenda y realice las predicciones o clasificaciones.
Características de los Árboles de Decisión
- Permiten crear un ranking de observaciones según su grado de pertenencia a una clase (función de pertenencia).
- Asignan una probabilidad a cada observación según su intensidad de pertenencia a una clase.
- Describen el camino para la pertenencia a cada una de las clases, mostrando las relaciones históricas entre las variables y las clases de la variable objetivo.
- Permiten clasificar nuevas observaciones siguiendo las reglas históricas (predicción).
- Permiten estimar valores numéricos, no solo clases (cuando la variable dependiente es continua).
- Seleccionan automáticamente las variables que más contribuyen a la clasificación de los datos en grupos "puros".
- Ordenan las variables explicativas en orden de importancia (las variables se presentan en el árbol de forma descendente según su importancia).
- Permiten entender por qué una observación pertenece a una clase (son modelos de "caja abierta").
- Presentan reglas de decisión en lenguaje natural, facilitando la comprensión de cómo se separan los grupos.