Vocabulario Esencial de la Conglomeración Estadística: Métodos, Distancias y Representaciones

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en español con un tamaño de 4,72 KB

Fundamentos de la Conglomeración Estadística: Conceptos y Métodos Clave

La conglomeración, o clustering, es una técnica fundamental en la estadística multivariante y el aprendizaje no supervisado. A continuación, se presenta un glosario detallado de los términos esenciales utilizados en los procedimientos de agrupación de entidades.

I. Elementos Centrales y Representación Gráfica

Centroide

Valores medios de las entidades de un conglomerado en cada una de las variables utilizadas.

Semilla de Conglomerados

Centros iniciales o puntos de partida para los conglomerados. Son valores individuales seleccionados para iniciar los procedimientos no jerárquicos.

Dendrograma

Representación gráfica de los resultados de un procedimiento jerárquico en el que el eje vertical representa las entidades y el eje horizontal representa el número de conglomerados formados en cada etapa del procedimiento.

Diagrama de Témpanos Vertical

Representación gráfica de las entidades en las columnas y el número de conglomerados en filas, utilizada para determinar el número apropiado de conglomerados en la solución.

Diagrama de Perfiles

Representación gráfica de las puntuaciones de las entidades en las variables seleccionadas, que se usa para detectar casos extremos o “outliers” (valores atípicos).

II. Medidas de Similitud y Distancia

Similitud entre Entidades

La similitud entre dos entidades se basa en sus puntuaciones en las variables consideradas y se puede medir en términos de “proximidad” o de “distancia”.

Distancia Euclídea

Es la medida que corresponde al valor de la hipotenusa de un triángulo rectángulo entre dos puntos, o la línea recta que une a dos puntos en un espacio bidimensional.

Distancia de Mahalanobis

Medida del impacto de una entidad a partir de la diferencia entre su valor y la media del resto de entidades para todas las variables independientes.

III. Tipos de Procedimientos de Conglomeración

Procedimientos Jerárquicos

Procedimiento de conglomeración por etapas que implica una combinación (o división) de las entidades. El resultado es la construcción de una jerarquía o estructura arbórea compuesta de conglomerados separados.

  • Procedimiento Aglomerativo: Procedimiento jerárquico que comienza con cada entidad como un conglomerado separado y en pasos sucesivos las entidades más próximas se combinan hasta formar un solo conglomerado con todas las entidades.
  • Método Divisivo: Procedimiento que comienza con todas las entidades en un único conglomerado, que se divide en otros separados a partir de las entidades más disimilares.

Procedimientos No Jerárquicos

En lugar de usar un proceso de construcción arbórea, las semillas de conglomerado se usan para agrupar entidades en una distancia predeterminada.

  • Método de Umbral Paralelo: Procedimiento de conglomeración no jerárquico que selecciona diversas semillas de conglomerado simultáneamente desde el principio.
  • Método de Umbral Secuencial: Procedimiento no jerárquico que comienza seleccionando una semilla de conglomerado y después otra hasta que todas las entidades están agrupadas.
  • Procedimiento de Optimización: Procedimiento no jerárquico que permite la asignación de entidades a otro conglomerado diferente al original a partir de algún criterio de optimización.

IV. Criterios de Unión y Métodos Específicos

Método de Ward

Procedimiento jerárquico en el que la similitud usada para unir conglomerados se calcula sobre la suma de cuadrados entre los dos conglomerados, sumado para todas las variables.

Método del Centroide

Procedimiento de conglomeración en el que la distancia entre dos conglomerados es la distancia entre los centroides de cada conglomerado.

Unión Simple (Distancia Mínima)

Procedimiento jerárquico basado en la distancia mínima entre entidades de un conglomerado y los de otro.

Unión Completa (Distancia Máxima)

Procedimiento de conglomeración en el que el criterio de conglomeración se basa en la distancia máxima entre las entidades en dos conglomerados.

Unión Promedio

Procedimiento que usa la distancia promedio de las entidades de un conglomerado con todas las del otro.

V. Ajuste y Validación del Modelo

Reespecificación del Modelo

Modificación de un modelo existente con parámetros estimados para corregir parámetros inapropiados o para crear un modelo rival con el que comparar.

Entradas relacionadas: