Algoritmos de Machine Learning: Árboles de Decisión, Random Forest y Clustering
Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones
Escrito el en
español con un tamaño de 3,08 KB
Árboles de Decisión
Fortalezas
- Clasificador de propósito general (regresión y clasificación) que se comporta bien en la mayoría de los problemas.
- Utiliza solo las variables más importantes.
- Se puede utilizar con pocos o muchos datos de entrenamiento.
- Da como resultado un modelo que se puede interpretar sin conocimiento matemático avanzado.
Debilidades
- Suelen estar sesgados a splits en variables que tienen muchos niveles.
- Pueden tener problemas al modelar ciertas relaciones.
- Pequeños cambios en los datos de entrenamiento dan lugar a grandes cambios en la lógica de decisión.
- Los árboles grandes son difíciles de interpretar.
- Propensos al overfitting o underfitting.
Ventajas
- Computación eficiente.
- Invariantes a las transformaciones de las variables.
- No requieren escalado de datos.
- Robustos frente a outliers.
- Resistentes a variables irrelevantes.
- Requieren un solo parámetro (tree size).
- Modelo interpretable.
- Capaces de trabajar con datos inexistentes (missing values).
- Fáciles de extender a variables categóricas.
Desventajas y Limitaciones
- Precisión: F(x) no tiene por qué ser continua (es una aproximación).
- Fragmentación de datos: A medida que el árbol crece, los datos se dividen en subconjuntos más pequeños.
- Interacciones: F(x) puede necesitar interacciones de mayor orden.
- Varianza: Cada split consecutivo depende del anterior, por lo que los errores se propagan.
- Inestabilidad: Un pequeño cambio en un dataset puede producir un gran cambio en la estructura del árbol.
Random Forest
Fortalezas
- Modelo de propósito general que funciona bien en la mayoría de los problemas.
- Puede gestionar datos con ruido (noisy), valores faltantes (missing) y variables categóricas o continuas.
- Se puede utilizar con datos que tienen un número grande de características (features) o instancias.
Debilidades
- A diferencia de un árbol de decisión simple, el modelo no es fácilmente interpretable (caja negra).
- Puede ser necesario realizar un trabajo de ajuste (tuning) para optimizar el modelo.
Clustering
Ventajas
- Utiliza principios lógicos para identificar grupos (clusters), con explicaciones en términos no estadísticos.
- Es muy flexible y se puede adaptar para mitigar muchas de sus limitaciones.
- Es eficiente y se comporta bien al dividir los datos en grupos útiles.
Debilidades
- Debido al componente aleatorio, es posible que no encuentre el conjunto óptimo de clusters.
- Requiere intuición y conocimiento del dominio para determinar el número de clusters óptimo.