Modelos de Clasificación y Técnicas de Reducción de Dimensionalidad en Machine Learning

Enviado por Chuletator online y clasificado en Tecnología Industrial

Escrito el en español con un tamaño de 3,73 KB

Algoritmos de Clasificación en Machine Learning

Naive Bayes Gaussiano

  • Ventajas: Muy rápido y simple. Funciona bien con pocos datos. Es robusto al ruido y ofrece un buen rendimiento en alta dimensión.
  • Inconvenientes: Supone independencia condicional entre variables y una distribución gaussiana. Su rendimiento empeora si las variables están correlacionadas y genera fronteras de decisión simples.

Regresión Logística

  • Ventajas: Es un modelo simple e interpretable, de naturaleza probabilística. No necesita supuestos de distribución y constituye un buen baseline para la clasificación binaria.
  • Inconvenientes: Posee fronteras lineales y no captura relaciones no lineales sin ingeniería de variables. Es sensible a los outliers y puede fallar con clases que no son separables linealmente.

Técnicas de Reducción de Dimensionalidad

PCA (Análisis de Componentes Principales)

Tipo: No supervisado.

  • Ventajas: Reduce la dimensión conservando la máxima varianza. Elimina la correlación entre variables, reduce el ruido y mejora la eficiencia computacional.
  • Inconvenientes: No utiliza la variable objetivo. Los componentes resultantes son difíciles de interpretar y puede eliminar variables que resulten relevantes para la clasificación.

LDA (Linear Discriminant Analysis)

Tipo: Supervisado.

  • Ventajas: Maximiza la separación entre clases. Permite reducir la dimensión y clasificar simultáneamente. Sus componentes son interpretables por clases.
  • Inconvenientes: Supone distribuciones gaussianas con covarianzas iguales. Posee fronteras lineales y es sensible a los outliers.

t-Student (Test t de Student)

Tipo: Supervisado.

  • Ventajas: Muy simple y útil para la clasificación binaria. Permite detectar diferencias significativas entre clases.
  • Inconvenientes: Solo compara medias. No detecta la redundancia entre variables y supone normalidad aproximada.

Información Mutua

Tipo: Supervisado.

  • Ventajas: Detecta relaciones no lineales. No asume una distribución específica y mide la dependencia real con la salida.
  • Inconvenientes: Es costosa computacionalmente. Su estimación es inestable con pocos datos y no considera la redundancia entre variables.

Selección por Correlación con la Variable Objetivo

Tipo: Supervisado.

  • Ventajas: Muy rápida, fácil de implementar y constituye una buena primera aproximación.
  • Inconvenientes: Solo mide la dependencia lineal. Ignora la interacción entre variables y puede elegir variables redundantes.

Correlación de Pearson

Qué mide: Dependencia lineal entre dos variables.

  • Ventajas: Simple, rápida y de fácil interpretación.
  • Inconvenientes: No detecta relaciones no lineales. Es sensible a los outliers y su presencia no implica causalidad.

Conclusiones Comparativas

El PCA es un método no supervisado que maximiza la varianza, mientras que el LDA es supervisado y maximiza la separación entre clases. Los métodos basados en correlación o tests estadísticos son simples, pero no consideran la redundancia ni las relaciones no lineales entre las variables del conjunto de datos.

Entradas relacionadas: