Modelos de Clasificación y Técnicas de Reducción de Dimensionalidad en Machine Learning
Enviado por Chuletator online y clasificado en Tecnología Industrial
Escrito el en
español con un tamaño de 3,73 KB
Algoritmos de Clasificación en Machine Learning
Naive Bayes Gaussiano
- Ventajas: Muy rápido y simple. Funciona bien con pocos datos. Es robusto al ruido y ofrece un buen rendimiento en alta dimensión.
- Inconvenientes: Supone independencia condicional entre variables y una distribución gaussiana. Su rendimiento empeora si las variables están correlacionadas y genera fronteras de decisión simples.
Regresión Logística
- Ventajas: Es un modelo simple e interpretable, de naturaleza probabilística. No necesita supuestos de distribución y constituye un buen baseline para la clasificación binaria.
- Inconvenientes: Posee fronteras lineales y no captura relaciones no lineales sin ingeniería de variables. Es sensible a los outliers y puede fallar con clases que no son separables linealmente.
Técnicas de Reducción de Dimensionalidad
PCA (Análisis de Componentes Principales)
Tipo: No supervisado.
- Ventajas: Reduce la dimensión conservando la máxima varianza. Elimina la correlación entre variables, reduce el ruido y mejora la eficiencia computacional.
- Inconvenientes: No utiliza la variable objetivo. Los componentes resultantes son difíciles de interpretar y puede eliminar variables que resulten relevantes para la clasificación.
LDA (Linear Discriminant Analysis)
Tipo: Supervisado.
- Ventajas: Maximiza la separación entre clases. Permite reducir la dimensión y clasificar simultáneamente. Sus componentes son interpretables por clases.
- Inconvenientes: Supone distribuciones gaussianas con covarianzas iguales. Posee fronteras lineales y es sensible a los outliers.
t-Student (Test t de Student)
Tipo: Supervisado.
- Ventajas: Muy simple y útil para la clasificación binaria. Permite detectar diferencias significativas entre clases.
- Inconvenientes: Solo compara medias. No detecta la redundancia entre variables y supone normalidad aproximada.
Información Mutua
Tipo: Supervisado.
- Ventajas: Detecta relaciones no lineales. No asume una distribución específica y mide la dependencia real con la salida.
- Inconvenientes: Es costosa computacionalmente. Su estimación es inestable con pocos datos y no considera la redundancia entre variables.
Selección por Correlación con la Variable Objetivo
Tipo: Supervisado.
- Ventajas: Muy rápida, fácil de implementar y constituye una buena primera aproximación.
- Inconvenientes: Solo mide la dependencia lineal. Ignora la interacción entre variables y puede elegir variables redundantes.
Correlación de Pearson
Qué mide: Dependencia lineal entre dos variables.
- Ventajas: Simple, rápida y de fácil interpretación.
- Inconvenientes: No detecta relaciones no lineales. Es sensible a los outliers y su presencia no implica causalidad.
Conclusiones Comparativas
El PCA es un método no supervisado que maximiza la varianza, mientras que el LDA es supervisado y maximiza la separación entre clases. Los métodos basados en correlación o tests estadísticos son simples, pero no consideran la redundancia ni las relaciones no lineales entre las variables del conjunto de datos.