Vocabulario Esencial de la Conglomeración Estadística: Métodos, Distancias y Representaciones
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en
español con un tamaño de 4,72 KB
Fundamentos de la Conglomeración Estadística: Conceptos y Métodos Clave
La conglomeración, o clustering, es una técnica fundamental en la estadística multivariante y el aprendizaje no supervisado. A continuación, se presenta un glosario detallado de los términos esenciales utilizados en los procedimientos de agrupación de entidades.
I. Elementos Centrales y Representación Gráfica
Centroide
Valores medios de las entidades de un conglomerado en cada una de las variables utilizadas.
Semilla de Conglomerados
Centros iniciales o puntos de partida para los conglomerados. Son valores individuales seleccionados para iniciar los procedimientos no jerárquicos.
Dendrograma
Representación gráfica de los resultados de un procedimiento jerárquico en el que el eje vertical representa las entidades y el eje horizontal representa el número de conglomerados formados en cada etapa del procedimiento.
Diagrama de Témpanos Vertical
Representación gráfica de las entidades en las columnas y el número de conglomerados en filas, utilizada para determinar el número apropiado de conglomerados en la solución.
Diagrama de Perfiles
Representación gráfica de las puntuaciones de las entidades en las variables seleccionadas, que se usa para detectar casos extremos o “outliers” (valores atípicos).
II. Medidas de Similitud y Distancia
Similitud entre Entidades
La similitud entre dos entidades se basa en sus puntuaciones en las variables consideradas y se puede medir en términos de “proximidad” o de “distancia”.
Distancia Euclídea
Es la medida que corresponde al valor de la hipotenusa de un triángulo rectángulo entre dos puntos, o la línea recta que une a dos puntos en un espacio bidimensional.
Distancia de Mahalanobis
Medida del impacto de una entidad a partir de la diferencia entre su valor y la media del resto de entidades para todas las variables independientes.
III. Tipos de Procedimientos de Conglomeración
Procedimientos Jerárquicos
Procedimiento de conglomeración por etapas que implica una combinación (o división) de las entidades. El resultado es la construcción de una jerarquía o estructura arbórea compuesta de conglomerados separados.
- Procedimiento Aglomerativo: Procedimiento jerárquico que comienza con cada entidad como un conglomerado separado y en pasos sucesivos las entidades más próximas se combinan hasta formar un solo conglomerado con todas las entidades.
- Método Divisivo: Procedimiento que comienza con todas las entidades en un único conglomerado, que se divide en otros separados a partir de las entidades más disimilares.
Procedimientos No Jerárquicos
En lugar de usar un proceso de construcción arbórea, las semillas de conglomerado se usan para agrupar entidades en una distancia predeterminada.
- Método de Umbral Paralelo: Procedimiento de conglomeración no jerárquico que selecciona diversas semillas de conglomerado simultáneamente desde el principio.
- Método de Umbral Secuencial: Procedimiento no jerárquico que comienza seleccionando una semilla de conglomerado y después otra hasta que todas las entidades están agrupadas.
- Procedimiento de Optimización: Procedimiento no jerárquico que permite la asignación de entidades a otro conglomerado diferente al original a partir de algún criterio de optimización.
IV. Criterios de Unión y Métodos Específicos
Método de Ward
Procedimiento jerárquico en el que la similitud usada para unir conglomerados se calcula sobre la suma de cuadrados entre los dos conglomerados, sumado para todas las variables.
Método del Centroide
Procedimiento de conglomeración en el que la distancia entre dos conglomerados es la distancia entre los centroides de cada conglomerado.
Unión Simple (Distancia Mínima)
Procedimiento jerárquico basado en la distancia mínima entre entidades de un conglomerado y los de otro.
Unión Completa (Distancia Máxima)
Procedimiento de conglomeración en el que el criterio de conglomeración se basa en la distancia máxima entre las entidades en dos conglomerados.
Unión Promedio
Procedimiento que usa la distancia promedio de las entidades de un conglomerado con todas las del otro.
V. Ajuste y Validación del Modelo
Reespecificación del Modelo
Modificación de un modelo existente con parámetros estimados para corregir parámetros inapropiados o para crear un modelo rival con el que comparar.