Técnicas de Segmentación de Datos: Fundamentos y Algoritmos de Agrupamiento
Enviado por Chuletator online y clasificado en Francés
Escrito el en
español con un tamaño de 9,71 KB
Introducción al Agrupamiento de Datos (Clusterización)
El Análisis Cluster consiste en crear grupos, patrones o conjuntos de casos o individuos que comparten características similares. Su principal objetivo es revelar patrones ocultos en los datos.
Características Clave del Agrupamiento
- Entrada Multivariante: Los grupos se construyen utilizando múltiples variables.
- Técnica No Supervisada: No existe una variable objetivo (target) y no se conoce previamente el número de grupos a encontrar.
- Naturaleza Exploratoria: Se exploran diferentes alternativas de agrupación, ya que no existe una única solución. El resultado debe ser una solución útil e informativa, adaptada a un dominio específico.
Procedimiento General del Análisis Cluster
El proceso se estructura en las siguientes etapas:
- Selección y manipulación de las variables de clusterización.
- Selección y manipulación de los casos (observaciones).
- Aplicación del algoritmo de agrupación.
- Análisis de soluciones alternativas y elección de un óptimo.
- Refinamiento de los resultados.
1. Selección y Manipulación de Variables
El resultado del análisis cluster depende totalmente del conjunto de variables utilizadas. Por ello, antes de agrupar, es fundamental definir el objetivo del cluster; de lo contrario, los grupos pueden carecer de sentido.
- El algoritmo agrupará utilizando todas las variables proporcionadas, incluyendo aquellas que puedan ser irrelevantes.
2. Selección y Manipulación de Casos
Es crucial:
- Detectar y eliminar los valores atípicos (outliers), ya que un valor anómalo puede estropear la formación de los grupos.
- Limitar el número de observaciones a incluir. En ocasiones, es necesario realizar una segmentación previa para incluir solo aquellos casos relevantes para el objetivo del cluster.
3. Algoritmos de Agrupación Comunes
Existen diversas técnicas, entre ellas:
- Cluster Jerárquico
- K-Means
- Two-Step
- Gaussian Mixture Model (GMM)
- DBSCAN
4. Evaluación de Soluciones Alternativas
Dado que los algoritmos cluster no son supervisados, no se pueden usar medidas estándar de evaluación como el error de clasificación. La evaluación se centra en dos criterios fundamentales:
Criterios Fundamentales de Evaluación
- Alta Separación Inter-Cluster: Alta heterogeneidad entre los grupos (los clusters deben ser diferentes entre sí).
- Alta Cohesión Intra-Cluster: Baja heterogeneidad dentro de los grupos (los individuos de un mismo cluster deben ser similares).
Medidas Técnicas de Evaluación
4.1. Coeficiente de Silueta
Se calcula para cada observación i y se compone de dos distancias:
- ai: Distancia media de la observación i al centro del clúster al que pertenece.
- bi: Distancia media de la observación i al centro del clúster más cercano al que no pertenece.
El coeficiente tiene valores en el intervalo [-1, 1]:
- Valores cercanos a 1 (ai < bi): La observación está bien asignada a su clúster.
- Valores cercanos a 0: La observación se encuentra en el límite entre dos clústeres.
- Valores negativos (ai > bi): La observación no encaja bien en su grupo. Un valor medio negativo indica una mala solución de clustering.
4.2. Análisis Descriptivo Básico de los Grupos
Se evalúan aspectos como:
- Diferencias entre clusters.
- Homogeneidad interna.
- Capacidad discriminante de las variables.
- Tamaño relativo de los clusters.
Una solución de calidad debe ser interpretable, tener sentido y resultar familiar y comprensible.
5. Refinamiento de Resultados
El análisis clúster es un procedimiento exploratorio e iterativo. Se prueban distintos escenarios hasta obtener una solución útil. La variabilidad de los resultados no es un defecto, sino una característica propia de la técnica que permite adaptarla al objetivo, los datos y el contexto del análisis.
Algoritmos de Agrupación Detallados
1. Cluster Jerárquico
Agrupa los datos paso a paso, creando una estructura en forma de árbol (dendrograma).
Formas de Implementación
- Aglomerativo (el más común): Empieza con cada individuo solo y se van uniendo poco a poco hasta formar un solo grupo (De muchos → uno).
- Divisivo: Empieza con todos juntos y se van separando hasta que cada uno es su propio grupo (De uno → muchos) (se usa poco).
Cuándo Utilizarlo
- Cuando interesa el proceso, no solo el resultado final.
- Cuando quieres ver quién se une con quién y cuándo.
- Cuando hay pocos datos (no cientos o miles).
- Cuando todas las variables son del mismo tipo (todas de escala o todas categóricas). No es eficiente con muchos datos.
Métodos de Unión (Linkage)
- Vecino más Próximo: Se unen los casos más cercanos. MALO: produce efecto cadena y es muy sensible a outliers.
- Vecino más Lejano: Mira los casos más alejados. Evita el efecto cadena, pero es MALO porque genera grupos muy heterogéneos y es sensible a outliers.
- Vinculación Inter-Grupos (Promedio): Usa la media de todas las distancias. Produce grupos equilibrados y es muy usado. Busca varianzas pequeñas.
- Vinculación Intra-Grupos: Minimiza la distancia media dentro del grupo. Similar al anterior, pero más “interno”.
- Centroides: Se unen grupos según la distancia de sus centroides. Reduce la influencia de outliers, pero es MALO porque es sensible a tamaños de grupos muy distintos.
- Medianas: Parecido a centroides, no pondera por el número de individuos, evitando que un grupo grande domine.
- Método de Ward: Une los casos buscando minimizar la varianza dentro de cada grupo. Agrupa los conglomerados que generan los menores aumentos en la suma de las distancias dentro de cada conglomerado. Crea grupos homogéneos y con tamaños similares. Es sensible a la presencia de outliers.
2. Cluster K-Means
Agrupa los datos en k grupos, donde k es un valor que el usuario debe decidir.
Funcionamiento
- Eliges k.
- Colocas k centros al azar.
- Asignas cada caso al centro más cercano.
- Recalculas los centros.
- Repites hasta que no haya cambios.
Ventajas y Desventajas
- Ventajas (V): Muy rápido, popular, funciona bien si los grupos están bien separados y son similares.
- Desventajas (DV): Hay que elegir k, siempre crea k grupos, depende de los centros iniciales, sensible a outliers, no funciona bien con variables categóricas, y no detecta formas complejas.
Cuándo Usar K-Means
- Muchas observaciones.
- Variables de escala.
- Grupos compactos y similares.
3. Two-Step Clustering
Cluster que se lleva a cabo en dos etapas, pensado para muchos datos y variables mixtas (escalares y categóricas).
- Pre-cluster: Se realizan mini uniones rápidas que agrupan casos con similitudes comunes.
- Cluster Jerárquico: Agrupa esos subgrupos según sus similitudes más generales, formando clusters finales.
Criterios de Selección de K
- AIC (Criterio de Información de Akaike): Evalúa qué tan bien el modelo explica los datos y penaliza la complejidad. Menor AIC es mejor (mejor balance entre ajuste y simplicidad).
- BIC (Criterio de Información Bayesiano): Similar a AIC, pero penaliza más los modelos complejos cuando hay muchos datos. Mejor BIC indica un mejor número de clusters.
Ventajas y Desventajas
- V: Mezcla variables escala y categóricas, encuentra un número óptimo de clusters, detecta variables atípicas.
- DV: Depende de supuestos probabilísticos.
4. Gaussian Mixture Model (GMM)
Cada cluster se modela como una distribución normal gaussiana. No asigna un punto 100% a un grupo, sino que asigna probabilidades de pertenencia.
Funcionamiento
- Decidir el número de clusters.
- Calcular la probabilidad de que cada punto pertenezca a cada grupo.
- Ajustar medias y varianzas y repetir hasta estabilizar.
5. Cluster Basado en la Densidad (DBSCAN)
Los clusters son zonas con muchos puntos juntos; los puntos aislados son etiquetados como ruido.
Funcionamiento
- Definir una distancia máxima (d) y un número mínimo de vecinos.
- Se toma una semilla al azar en el espacio multivariado.
- Si hay un número mínimo de vecinos alrededor de la semilla, se forma un cluster. Si no, se etiqueta como ruido.