Descubrimiento de Patrones: Métodos de Conglomeración y Medición de Similitud
Enviado por Chuletator online y clasificado en Francés
Escrito el en
español con un tamaño de 3,42 KB
Fundamentos y Aplicación de la Conglomeración (Clustering)
1. Definición del Análisis de Conglomerados
El análisis de conglomerados o de clusters es un nombre genérico para una amplia variedad de procedimientos que pueden usarse para crear una clasificación.
Estos procedimientos forman conglomerados. Dos entidades son altamente similares si presentan puntuaciones iguales en un conjunto de variables.
Un método de conglomeración es un procedimiento estadístico multivariante que parte de un conjunto de datos que contienen información acerca de una muestra de entidades, e intenta reorganizar esas entidades en grupos relativamente homogéneos.
Los métodos de conglomeración crean grupos homogéneos de casos o entidades.
2. Objetivos del Clustering
Los diversos usos del análisis de conglomerados se resumen en los siguientes objetivos:
- Desarrollo de una tipología o clasificación. Se pueden trazar los perfiles o clasificar a las entidades en grupos de entidades semejantes.
- Investigación de esquemas conceptuales útiles para agrupar entidades. Los esquemas de clasificación pueden generalizarse y aplicarse a una amplia variedad de estudios.
- Generar hipótesis mediante la exploración de datos. Si se generan agrupaciones inesperadas, esto sugeriría relaciones a investigar.
- Probar hipótesis, o intentar determinar si los grupos definidos mediante otros procedimientos están presentes en los datos.
- Reducir datos.
3. Procedimiento de Formación de Conglomerados
La formación de conglomerados se basa en la proximidad entre entidades; cuanto más cercanas estén dos entidades, más probable es que pertenezcan al mismo grupo.
El punto de partida del análisis de conglomerados es una tabla que contiene una medida de la similitud o disimilitud entre los casos.
Esa tabla es conocida como “matriz de similitudes” o “matriz de distancias”. La estimación de la similitud en el análisis de conglomerados es cuantitativa. El número de dimensiones de ese espacio viene determinado por el número de variables que se usen para los casos.
4. Medidas de Similitud y Distancia
Existen diversas medidas de la similitud entre puntos (la distancia euclídea, la correlación de Pearson, la de Chebychev).
Existen tres tipos de medidas de la similitud:
4.1. Medidas de Correlación
Las medidas correlacionales representan la similitud a partir de la correlación entre las entidades, es decir, la similitud entre los perfiles de las entidades. En este caso, lo que se correlacionan no son las variables a lo largo de un conjunto de entidades, sino las entidades a lo largo de un conjunto de variables. Una elevada correlación entre dos entidades indica una alta similitud, y bajas correlaciones indican una baja similitud.
4.2. Medidas de Distancia
Las medidas de distancia representan la similitud como la proximidad de las entidades entre sí a lo largo de las variables. Se clasifican como semejantes aquellos casos que están cercanos entre sí.
Las medidas de distancia son medidas de la disimilitud; cuanto más alto es el coeficiente entre dos entidades, mayor es su disimilitud.
Ejemplos comunes incluyen:
- Distancia euclídea.
- Distancia euclídea al cuadrado.