Conceptos Clave en Modelos de Clasificación y Clustering

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en español con un tamaño de 4,59 KB

Conceptos Fundamentales en Clasificación

Discriminante Logístico vs Lineal

El Discriminante Logístico solo se puede aplicar para dos variables (Y=0 y Y=1, q=2). Para q=3 o más, se requiere una regresión logística multinomial (multi-logit). El Discriminante Lineal asume distribuciones normales con la misma varianza. El logístico no hace hipótesis sobre la distribución, por lo que es más adecuado en muchos casos.

Random Forest

Los gráficos de Random Forest representan la evolución del error de generalización por OOB (Out-of-Bag) (eje y) (observaciones que quedan fuera como muestra de test) en función del número de árboles utilizados (eje x). Las líneas roja y verde corresponden al error de generalización por OOB de cada clase; la línea negra es el error global. Un error verde alto no sorprende porque la muestra no está balanceada y, a menudo, se prefiere cometer un error grande en la clase pequeña para asegurar la detección de la clase minoritaria. Con Random Forest, se generan B árboles y se estima por votación. Se podría calcular la proporción de árboles que han votado a cada clase. Random Forest es un buen método si el error de generalización se estabiliza en un valor bajo.

Tuning de SVM

Para cada configuración de parámetros, se estima el error de generalización para dicho SVM. Se suele usar un kernel de bases radiales. En el eje x se representa log10(gamma) y en el eje y log10(coste). Los errores aparecen coloreados. Mayor valor de gamma y coste puede llevar a mayor sobreajuste, lo que se refleja en el error de generalización estimado.

Condición y Poda de Árboles

Condición del Árbol

Si se cumple la condición del árbol, te vas a la izquierda.

Selección de Poda de Árboles

El objetivo es buscar el árbol más sencillo con un error comparable al del árbol más desarrollado.

Importancia de Variables: Mean Decrease Gini

El gráfico indica qué variables son más influyentes al clasificar. Valores altos indican que la variable aporta más información que el resto al clasificar y ayudan a disminuir la impureza (por ejemplo, Gini).

Métricas y Evaluación de Modelos

Average Accuracy vs Cutoff

Representa la precisión que se obtiene usando diferentes valores de 'a', desde 0 hasta 1. Mediante validación cruzada, creamos B conjuntos de test y representamos los estimadores de las accuracies con un boxplot, y la línea roja es su media. Suele servir para obtener el mejor valor de 'a'.

Curva ROC

La Curva ROC muestra la tasa de falsos positivos (eje x) y la tasa de verdaderos positivos (sensibilidad, eje y) en función de 'a', que es el límite tal que si P(Y=1|X=x) >= 'a', asignamos al grupo 2. Aumentando el valor de 'a', seremos más estrictos a la hora de asignar positivos, lo que hará más probable la detección de todos los negativos (aunque esto disminuya la sensibilidad).

Conceptos en Clustering

Silhouette

Los gráficos de silueta, en el eje y, aprecian los individuos (coloreados por clusters y ordenados por sus valores en el eje x) y, en el eje x, la"siluet", que mide la diferencia entre la distancia al cluster más próximo y la distancia al cluster asignado. El ASW (Average Silhouette Width) es la media de las siluetas y se usa para elegir el número de clusters; se elige el de mayor ASW, lo que indica que los clusters están más separados entre sí.

ARI (Adjusted Rand Index)

Para comparar particiones. El método k-medias no sirve para detectar grupos de forma arbitraria (no esférica), y a veces puede ser casi igual a hacerlo al azar en esos casos.

MCLUST

MCLUST escoge el número de clusters y su forma que maximice el BIC (o minimice -BIC). ClassError reordena los clusters para que se ajusten lo más posible a los que se están comparando; hay que minimizarlo. Con Mclust, se permiten clusters de muchos tamaños y formas. Ward tiende a crear grupos más esféricos y de tamaño similar. Un método más flexible como Mclust es mejor para separar grupos que no son similares en forma o tamaño.

Notación de Modelos MCLUST

La notación de modelos MCLUST utiliza 3 letras:"Volumen/Forma/Orientació". E ="equa" (igual), V ="variabl". I en segunda posición ="esféric". I en tercera posición ="ejes de coordenada".

Entradas relacionadas: