Algoritmos de Machine Learning: Árboles de Decisión, Random Forest y Clustering

Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones

Escrito el en español con un tamaño de 3,08 KB

Árboles de Decisión

Fortalezas

  • Clasificador de propósito general (regresión y clasificación) que se comporta bien en la mayoría de los problemas.
  • Utiliza solo las variables más importantes.
  • Se puede utilizar con pocos o muchos datos de entrenamiento.
  • Da como resultado un modelo que se puede interpretar sin conocimiento matemático avanzado.

Debilidades

  • Suelen estar sesgados a splits en variables que tienen muchos niveles.
  • Pueden tener problemas al modelar ciertas relaciones.
  • Pequeños cambios en los datos de entrenamiento dan lugar a grandes cambios en la lógica de decisión.
  • Los árboles grandes son difíciles de interpretar.
  • Propensos al overfitting o underfitting.

Ventajas

  • Computación eficiente.
  • Invariantes a las transformaciones de las variables.
  • No requieren escalado de datos.
  • Robustos frente a outliers.
  • Resistentes a variables irrelevantes.
  • Requieren un solo parámetro (tree size).
  • Modelo interpretable.
  • Capaces de trabajar con datos inexistentes (missing values).
  • Fáciles de extender a variables categóricas.

Desventajas y Limitaciones

  • Precisión: F(x) no tiene por qué ser continua (es una aproximación).
  • Fragmentación de datos: A medida que el árbol crece, los datos se dividen en subconjuntos más pequeños.
  • Interacciones: F(x) puede necesitar interacciones de mayor orden.
  • Varianza: Cada split consecutivo depende del anterior, por lo que los errores se propagan.
  • Inestabilidad: Un pequeño cambio en un dataset puede producir un gran cambio en la estructura del árbol.

Random Forest

Fortalezas

  • Modelo de propósito general que funciona bien en la mayoría de los problemas.
  • Puede gestionar datos con ruido (noisy), valores faltantes (missing) y variables categóricas o continuas.
  • Se puede utilizar con datos que tienen un número grande de características (features) o instancias.

Debilidades

  • A diferencia de un árbol de decisión simple, el modelo no es fácilmente interpretable (caja negra).
  • Puede ser necesario realizar un trabajo de ajuste (tuning) para optimizar el modelo.

Clustering

Ventajas

  • Utiliza principios lógicos para identificar grupos (clusters), con explicaciones en términos no estadísticos.
  • Es muy flexible y se puede adaptar para mitigar muchas de sus limitaciones.
  • Es eficiente y se comporta bien al dividir los datos en grupos útiles.

Debilidades

  • Debido al componente aleatorio, es posible que no encuentre el conjunto óptimo de clusters.
  • Requiere intuición y conocimiento del dominio para determinar el número de clusters óptimo.

Entradas relacionadas: