Técnicas de Segmentación y Modelos Predictivos en Ciencia de Datos
Enviado por Chuletator online y clasificado en Matemáticas
Escrito el en
con un tamaño de 3,71 KB
Métodos de Partición
Para utilizar estos métodos, es necesario entregar el número de grupos y las variables a utilizar. El objetivo es acortar la distancia entre los datos individuales y los posibles centros de los grupos.
- Partición rígida: Busca agrupar los datos en conjuntos únicos (cada dato solo puede pertenecer a un grupo).
- Partición difusa: Los datos pueden pertenecer a distintos grupos simultáneamente.
Algoritmos de Clustering
- K-medias (partición rígida): Consiste en asignar los datos al centroide único más cercano, definido mediante la distancia euclidiana. Es el método de clúster que intenta segmentar al máximo sus elementos.
- C-medias (difusa): Consiste en determinar la combinación óptima de grados de pertenencia de cada individuo.
- Conglomerado en dos fases: Posee gran eficiencia en bases de datos grandes, clasificando variables categóricas y continuas para determinar el número ideal de clústeres. Este método se rige por variables independientes; se puede comprobar este supuesto mediante correlaciones bivariadas (para variables continuas) o tablas de contingencia (para variables categóricas).
Modelos Predictivos y de Clasificación
- Modelos de propensión de compra: Son métodos predictivos aplicados a la decisión de compra o no compra de productos, basados en las características de los clientes (variables predictivas).
- Análisis discriminante: Método multivariante que analiza si existen diferencias significativas entre grupos de objetos respecto a variables medidas, con el fin de explicar dichas diferencias. Es un análisis de regresión donde la variable dependiente es categórica (etiqueta) y las independientes son continuas.
- Regresión logística: Método que determina la probabilidad de pertenencia de un individuo a un grupo determinado.
- Clasificadores bayesianos: Permiten agrupar conjuntos de datos de forma sencilla. Se utilizan para actualizar probabilidades previamente calculadas cuando se posee nueva información, especialmente cuando una decisión se divide en dos posibilidades relacionadas con el problema principal.
Árboles de Decisión
- Árboles de clasificación: Explican y predicen la pertenencia de los objetos a una clase, con el objetivo de asignar un objeto a una de las diversas categorías.
- Árboles de regresión: Técnica que permite predecir la asignación de muestras a grupos predefinidos en función de una serie de variables. Permite crear un modelo explicativo y predictivo para variables cuantitativas dependientes basado en variables cuantitativas y cualitativas (numéricas).
Ventajas y Desventajas de los Árboles
- Ventajas: Son simples y legibles, válidos para cada tipo de variable y representan una técnica no paramétrica que considera las interacciones entre los datos.
- Desventajas: Son inestables, presentan dificultad para elegir el árbol óptimo y los árboles de clasificación requieren una base de datos grande para ser significativos.
Algoritmos Específicos
- C5.0: Modelo en el cual se divide la muestra en submuestras hasta que no es posible realizar más divisiones. Son mucho más rápidos y se utilizan en muestras de menor tamaño.
- CHAID: Divide la población en dos y, posteriormente, estas se dividen en submuestras para que la estructura sea más legible y facilite la toma de decisiones.