Técnicas Esenciales de Reducción y Agrupación de Datos en Estadística

Enviado por Programa Chuletas y clasificado en Matemáticas

Escrito el en español con un tamaño de 3,66 KB

Análisis Factorial

Es una técnica de reducción de datos que sirve para encontrar grupos homogéneos de variables a partir de un conjunto numeroso de variables. Todas las variables son independientes. Consta de 4 fases características:

  • El cálculo de la matriz de correlaciones o covarianzas, capaz de expresar la variabilidad conjunta de todas las variables.
  • La extracción del número óptimo de factores.
  • La rotación de la solución para facilitar su interpretación.
  • La estimación de las puntuaciones de los sujetos en las nuevas dimensiones.

Este método está basado en un modelo estadístico, donde cada uno de los factores se distribuye como una normal 0,1.

Diferencias entre Análisis Factorial y Componentes Principales

Análisis Factorial:

  • Busca factores que expliquen la mayor parte de la varianza común.
  • Se distingue entre varianza común y varianza única.
  • Pretende hallar un nuevo conjunto de variables, menor en número que las variables originales.

Análisis de Componentes Principales:

  • Trata de hallar componentes que sucesivamente expliquen la mayor parte de la varianza total.
  • Se centra en la varianza total.
  • Busca hallar combinaciones lineales de las variables originales que expliquen la mayor parte de la varianza total.

Análisis de Conglomerados (Cluster Analysis)

Es un conjunto de técnicas que se utilizan para clasificar objetos o casos en grupos relativamente homogéneos llamados conglomerados. Los objetos en cada grupo tienden a ser similares entre sí y diferentes a los objetos de los otros grupos con respecto a algún criterio de selección predeterminado. Existen dos métodos de agrupación principales:

Método de las K-medias (K-means)

  • Se seleccionan k grupos iniciales.
  • Se asigna a cada individuo al grupo cuyo centroide tiene menor distancia.
  • Se recalculan las coordenadas de los centroides.
  • Se recalcula la distancia entre cada individuo y cada centroide (matriz Dnxk).
  • Se identifica al individuo peor clasificado. En caso de que haya individuos mal clasificados, se continúa. Si no hay individuos peor clasificados, el algoritmo termina.
  • Se cambia la etiqueta del individuo obtenido en el paso anterior y se vuelve al paso 3.

Método Jerárquico

  • Se forman n grupos, de manera que cada individuo es un grupo diferente.
  • Se calcula la distancia entre cada par de grupos (matriz D).
  • Se seleccionan los dos grupos más cercanos y se unen en un nuevo grupo.
  • Se recalculan las distancias entre todos los grupos.
  • Si actualmente existe un solo grupo, se va al paso 6.
  • Se construye el dendrograma con los resultados de cada iteración de los pasos anteriores, y a partir de este se generan los grupos.

Entre los métodos para el cálculo de distancias entre grupos existen el enlace simple (mínimo), el enlace completo (máximo) y el método de la media.

Entradas relacionadas: