Algoritmos de Machine Learning: Árboles de Decisión, Random Forest y Clustering

Escrito el 14 de Marzo de 2026 en español con un tamaño de 3,08 KB

Árboles de Decisión

Clasificador de propósito general (regresión y clasificación) que se comporta bien en la mayoría de los problemas.
Utiliza solo las variables más importantes.
Se puede utilizar con pocos o muchos datos de entrenamiento.
Da como resultado un modelo que se puede interpretar sin conocimiento matemático avanzado.

Suelen estar sesgados a splits en variables que tienen muchos niveles.
Pueden tener problemas al modelar ciertas relaciones.
Pequeños cambios en los datos de entrenamiento dan lugar a grandes cambios en la lógica de decisión.
Los árboles grandes son difíciles de interpretar.
Propensos al overfitting o underfitting.

Precisión: F(x) no tiene por qué ser continua (es una aproximación).
Fragmentación de datos: A medida que el árbol crece, los datos se dividen en subconjuntos más pequeños.
Interacciones: F(x) puede necesitar interacciones de mayor orden.
Varianza: Cada split consecutivo depende del anterior, por lo que los errores se propagan.
Inestabilidad: Un pequeño cambio en un dataset puede producir un gran cambio en la estructura del árbol.

Modelo de propósito general que funciona bien en la mayoría de los problemas.
Puede gestionar datos con ruido (noisy), valores faltantes (missing) y variables categóricas o continuas.
Se puede utilizar con datos que tienen un número grande de características (features) o instancias.

A diferencia de un árbol de decisión simple, el modelo no es fácilmente interpretable (caja negra).
Puede ser necesario realizar un trabajo de ajuste (tuning) para optimizar el modelo.

Utiliza principios lógicos para identificar grupos (clusters), con explicaciones en términos no estadísticos.
Es muy flexible y se puede adaptar para mitigar muchas de sus limitaciones.
Es eficiente y se comporta bien al dividir los datos en grupos útiles.

Debido al componente aleatorio, es posible que no encuentre el conjunto óptimo de clusters.
Requiere intuición y conocimiento del dominio para determinar el número de clusters óptimo.

Etiquetas: