Fundamentos de Machine Learning: Árboles de Decisión, Redes Neuronales y Algoritmos Genéticos

Enviado por Programa Chuletas y clasificado en Informática y Telecomunicaciones

Escrito el 16 de Septiembre de 2025 en español con un tamaño de 6,81 KB

Árboles de Decisión

Ventajas

Fácil de aplicar e interpretar.
Permiten extraer reglas de decisión claras.
El proceso de construcción no es incremental (el modelo se construye de una vez, lo que puede ser eficiente, pero no permite ajustes incrementales sin reconstrucción).

Desventajas

La función objetivo debe ser discreta (principalmente para clasificación).
Pueden ser propensos a problemas de clasificación si los datos son complejos o ruidosos.

Criterios de Parada

Todos los ejemplos pertenecen a la misma clase.
Todas las muestras tienen el mismo valor para los atributos.
La ganancia de información de cada división es insignificante.
El número de muestras en un nodo ha alcanzado un límite predefinido.

Problemas de Overfitting

Si el número de nodos es demasiado grande, las decisiones se toman basándose en particiones muy pequeñas de las muestras, lo que reduce la capacidad de generalización del modelo.

Fórmulas Clave

Entropía (Ent(S)): Mide la impureza de un conjunto de datos S.
```
Ent(S) = -p⁺ log₂(p⁺) - p^- log₂(p^-)
```
Donde S es el conjunto de ejemplos para un nodo, p⁺ es la probabilidad de un resultado positivo y p^- es la probabilidad de un resultado negativo.
Información Esperada (Rem(A)): Mide la entropía promedio después de dividir por el atributo A.
```
Rem(A) = ∑_{v∈Valores(A)} (P(v) * Ent(S_v))
```
Donde P(v) es la probabilidad de que el atributo A tome el valor v (número de ejemplos con valor v / número total de ejemplos), y S_v es el subconjunto de S donde A=v.
Ganancia de Información (Gain(S, A)): Mide la reducción de entropía al dividir por el atributo A.
```
Gain(S, A) = Ent(S) - Rem(A)
```

Algoritmo de Construcción del Árbol

Elegir el mejor atributo para separar los ejemplos (aquel con la mayor ganancia de información).
Expandir el árbol creando una nueva rama para cada valor del atributo elegido.
Asignar los ejemplos a cada nodo en función del valor del atributo.
Repetir para cada hoja hasta alcanzar los criterios de parada:
1. Si todos los ejemplos pertenecen a la misma clase, asignar el nodo a esa clase.
2. Si no, repetir los pasos 1 a 4.

Función Recursiva `GeraArvore(Ejemplos)`

Si Ejemplos cumple algún criterio de parada, devolver una hoja.
Si no, elegir el mejor atributo para dividir Ejemplos y crear un nodo asociado a ese atributo.
Para cada valor v_i del atributo elegido:
- Crear un subconjunto de ejemplos Ejemplos_{v_i} donde el atributo toma el valor v_i.
- Llamar recursivamente subarbol_i = GeraArvore(Ejemplos_{v_i}).
Devolver el subárbol generado, que tiene subarbol_i como descendientes.
Fin.

Redes Neuronales

Principales Características (Ventajas)

Capacidad para adaptarse y aprender de los datos.
Capacidad de generalización a datos no vistos.
Capacidad de clasificar y categorizar patrones complejos.
Se utilizan principalmente en problemas de clasificación, categorización y optimización.
Despliegue rápido y sencillo en ciertos escenarios.

Perceptrón

Fórmulas

Error para una salida:

Error = (Salida Deseada - Salida de la Red)

Actualización del Peso (ΔW):
```
ΔW_i = c * Error * x_i
```
Donde c es la tasa de aprendizaje, Error es el error de la salida, y x_i es la entrada correspondiente al peso W_i.
Nuevo Peso:
```
W_ij(t+1) = W_ij(t) + ΔW_ij
```

Redes Multicapa (MLP)

Fórmulas

Función de Error (Error Cuadrático Medio):
```
Error = 1/2 ∑ (Salida Deseada - Salida de la Red)²
```
Esta es una función de coste común para el entrenamiento.
Actualización del Peso (ΔW_ij) (mediante Backpropagation):
```
ΔW_ij = η * δ_j * x_i
```
Donde η es la tasa de aprendizaje, δ_j es el término de error para la neurona j, y x_i es la entrada de la neurona j desde la neurona i.
- Para un nodo de salida:
```
δ_j = (Salida Deseada_j - Salida de la Red_j) * f'(net_j)
```
  Donde f' es la derivada de la función de activación.
- Para un nodo de capa oculta:
```
δ_j = (∑_k δ_k * W_jk) * f'(net_j)
```
  Donde k son los nodos en la capa siguiente.

Criterios de Parada

El número máximo de iteraciones (épocas) ha sido alcanzado.
El error en la formación es menor que un mínimo fijado.
El error de validación aumenta por k veces consecutivas.

Algoritmos Genéticos

Normalización del Vector de Entrada

Para decodificar un valor binario a un rango real:

X = min + (max - min) * (valor_decimal / (2^{número_de_bits} - 1))

Criterios de Parada

No hubo mejoría en la aptitud (fitness) de la población durante un número determinado de generaciones.
La mejor solución conocida fue encontrada (si aplica).
Pérdida de diversidad en la población.
El número máximo de generaciones ha sido alcanzado.

Entradas relacionadas:

Etiquetas:

Árboles de Decisión

Ventajas

Desventajas

Criterios de Parada

Problemas de Overfitting

Fórmulas Clave

Algoritmo de Construcción del Árbol

Función Recursiva GeraArvore(Ejemplos)

Redes Neuronales

Principales Características (Ventajas)

Perceptrón

Fórmulas

Redes Multicapa (MLP)

Fórmulas

Criterios de Parada

Algoritmos Genéticos

Normalización del Vector de Entrada

Criterios de Parada

Entradas relacionadas:

Función Recursiva `GeraArvore(Ejemplos)`