Conceptos Fundamentales de Minería de Datos: Reglas de Asociación y Árboles de Decisión

Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones

Escrito el 9 de Diciembre de 2025 en español con un tamaño de 5,31 KB

Conceptos Clave en el Modelado de Datos

Estructura de Datos en Tablas

La data frecuentemente se encuentra estructurada en un modelo relacional. Es fundamental comprender métricas clave al trabajar con estas estructuras:

Número total de órdenes.
Número de órdenes que incluyen un producto específico.
Cantidad de órdenes realizadas por un cliente en un periodo determinado.

Tipos de Reglas Identificadas

Existen tres categorías principales al evaluar las reglas encontradas en los datos:

Accionables: Decisiones directas de negocio, como ofrecer promociones específicas.
Triviales: Aquellas que son fortuitas y no ofrecen un valor claro para la acción.
Inexplicables: Reglas que carecen de sentido lógico o estadístico.

Reglas de Asociación

Una regla de asociación entre dos productos, A y B (A $\rightarrow$ B), implica que la presencia del producto A sugiere o implica la presencia del producto B en la misma transacción.

Métricas Fundamentales de Asociación

Soporte de la Regla

Define el porcentaje de transacciones totales en las cuales ocurre la regla (ambos ítems A y B están presentes).

$$\text{Soporte (A}\rightarrow\text{B)} = \frac{\text{frecuencia(AB)}}{\text{total}}$$

Soporte de un Ítem Individual

Porcentaje de transacciones en las cuales ocurre el ítem A.

$$\text{Soporte (A)} = \frac{\text{frecuencia(A)}}{\text{total}}$$

Confianza

Mide la probabilidad de que un cliente compre el producto B, dado que ya compró el producto A.

$$\text{Confianza (A}\rightarrow\text{B)} = \frac{\text{frecuencia(AB)}}{\text{frecuencia(A)}}$$

La Necesidad de Complementar Soporte y Confianza: LIFT

El soporte y la confianza por sí solos no son suficientes para discriminar la calidad de las reglas. Es necesario utilizar la métrica LIFT para rankear mejor las combinaciones.

LIFT (Elevación)

Mide cuánto mejora la probabilidad de comprar B cuando se sabe que se compró A, en comparación con la probabilidad base de comprar B.

$$\text{LIFT} = \frac{\text{Confianza(A}\rightarrow\text{B)}}{\text{Soporte(B)}}$$

Interpretación del valor de Lift:

Lift = 1: La probabilidad de comprar Y dado X se mantiene igual que la probabilidad base de Y. No hay dependencia.
Lift > 1: La probabilidad de comprar Y dado X aumenta significativamente. Existe una asociación positiva.
Lift < 1: La probabilidad de comprar Y dado X disminuye. Existe una asociación negativa.

Árboles de Decisión

Modelo utilizado fundamentalmente para predecir y clasificar. La predicción se realiza a través de regresiones, mientras que la clasificación se efectúa mediante la estructura de árboles.

Predecir: Anticipar un valor futuro o continuo.
Clasificar: Segmentar o asignar una categoría.

Para entrenar el modelo predictivo o clasificatorio, se requiere el uso de marcas o etiquetas, que representan la categoría o valor que se busca predecir.

Tipos de Árboles

Binario: Solo tiene dos posibles respuestas (ej. Sí/No).
N-WAYS: Posee más de una respuesta posible.

Criterios de Selección del Modelo

Para Clasificar:

Se enfoca en el TIPO DE VARIABLE de salida:

Variables Categóricas.
Variables Nominales.
Variables Ordinales.

Para Predecir:

Se enfoca en el TIPO DE VARIABLE de salida:

Variable Continua (numérica).
Relaciones lineales o no lineales.

Herramientas y Preprocesamiento

Puntos de Corte (B)

La letra 'B' (posiblemente refiriéndose a librerías o funciones específicas como .cut() en Python) entrega los puntos de corte, representando las desviaciones necesarias para la segmentación.

Data Frame (Pd)

Estructura fundamental de base de datos, comúnmente manejada por la librería Pandas (Pd), que permite leer los datos en este formato tabular.

Estructuras de Datos Base

La jerarquía de estructuras de datos suele ser: NUMPY -> Arrays -> Tuplas -> Matrices.

Consideraciones en Reglas de Asociación con Variables Continuas

Las reglas de asociación buscan expresar un conjunto de sucesos que ocurren en secuencia, medidos en probabilidades. Es preferible trabajar con variables categóricas, ya que trabajar directamente con variables continuas genera reglas muy pequeñas y poco significativas.

Si se tienen variables continuas, es obligatorio establecer cortes para clasificarlas y obtener mayor representatividad. El proceso recomendado es:

A. Describir la variable.
B. Aplicar estadística descriptiva.
C. Establecer cortes (usando los puntos definidos por 'B').
D. Transformar la variable de continua a categórica (cont $\rightarrow$ cat).

Entradas relacionadas:

Etiquetas: