Conceptos Clave en Modelos de Clasificación y Clustering
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en español con un tamaño de 4,59 KB
Conceptos Fundamentales en Clasificación
Discriminante Logístico vs Lineal
El Discriminante Logístico solo se puede aplicar para dos variables (Y=0 y Y=1, q=2). Para q=3 o más, se requiere una regresión logística multinomial (multi-logit). El Discriminante Lineal asume distribuciones normales con la misma varianza. El logístico no hace hipótesis sobre la distribución, por lo que es más adecuado en muchos casos.
Random Forest
Los gráficos de Random Forest representan la evolución del error de generalización por OOB (Out-of-Bag) (eje y) (observaciones que quedan fuera como muestra de test) en función del número de árboles utilizados (eje x). Las líneas roja y verde corresponden al error de generalización por OOB de cada clase; la línea negra es el error global. Un error verde alto no sorprende porque la muestra no está balanceada y, a menudo, se prefiere cometer un error grande en la clase pequeña para asegurar la detección de la clase minoritaria. Con Random Forest, se generan B árboles y se estima por votación. Se podría calcular la proporción de árboles que han votado a cada clase. Random Forest es un buen método si el error de generalización se estabiliza en un valor bajo.
Tuning de SVM
Para cada configuración de parámetros, se estima el error de generalización para dicho SVM. Se suele usar un kernel de bases radiales. En el eje x se representa log10(gamma) y en el eje y log10(coste). Los errores aparecen coloreados. Mayor valor de gamma y coste puede llevar a mayor sobreajuste, lo que se refleja en el error de generalización estimado.
Condición y Poda de Árboles
Condición del Árbol
Si se cumple la condición del árbol, te vas a la izquierda.
Selección de Poda de Árboles
El objetivo es buscar el árbol más sencillo con un error comparable al del árbol más desarrollado.
Importancia de Variables: Mean Decrease Gini
El gráfico indica qué variables son más influyentes al clasificar. Valores altos indican que la variable aporta más información que el resto al clasificar y ayudan a disminuir la impureza (por ejemplo, Gini).
Métricas y Evaluación de Modelos
Average Accuracy vs Cutoff
Representa la precisión que se obtiene usando diferentes valores de 'a', desde 0 hasta 1. Mediante validación cruzada, creamos B conjuntos de test y representamos los estimadores de las accuracies con un boxplot, y la línea roja es su media. Suele servir para obtener el mejor valor de 'a'.
Curva ROC
La Curva ROC muestra la tasa de falsos positivos (eje x) y la tasa de verdaderos positivos (sensibilidad, eje y) en función de 'a', que es el límite tal que si P(Y=1|X=x) >= 'a', asignamos al grupo 2. Aumentando el valor de 'a', seremos más estrictos a la hora de asignar positivos, lo que hará más probable la detección de todos los negativos (aunque esto disminuya la sensibilidad).
Conceptos en Clustering
Silhouette
Los gráficos de silueta, en el eje y, aprecian los individuos (coloreados por clusters y ordenados por sus valores en el eje x) y, en el eje x, la"siluet", que mide la diferencia entre la distancia al cluster más próximo y la distancia al cluster asignado. El ASW (Average Silhouette Width) es la media de las siluetas y se usa para elegir el número de clusters; se elige el de mayor ASW, lo que indica que los clusters están más separados entre sí.
ARI (Adjusted Rand Index)
Para comparar particiones. El método k-medias no sirve para detectar grupos de forma arbitraria (no esférica), y a veces puede ser casi igual a hacerlo al azar en esos casos.
MCLUST
MCLUST escoge el número de clusters y su forma que maximice el BIC (o minimice -BIC). ClassError reordena los clusters para que se ajusten lo más posible a los que se están comparando; hay que minimizarlo. Con Mclust, se permiten clusters de muchos tamaños y formas. Ward tiende a crear grupos más esféricos y de tamaño similar. Un método más flexible como Mclust es mejor para separar grupos que no son similares en forma o tamaño.
Notación de Modelos MCLUST
La notación de modelos MCLUST utiliza 3 letras:"Volumen/Forma/Orientació". E ="equa" (igual), V ="variabl". I en segunda posición ="esféric". I en tercera posición ="ejes de coordenada".