Algoritmos de Clasificación en Machine Learning: Conceptos y Pasos Esenciales
Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones
Escrito el en español con un tamaño de 4,06 KB
Algoritmos de Clasificación en Machine Learning: Conceptos y Pasos Esenciales
Este documento describe los pasos fundamentales para la implementación y comprensión de diversos algoritmos de clasificación utilizados en el aprendizaje automático. Se detallan los requisitos de entrada, el proceso interno y las consideraciones clave para cada método.
ID3 (Iterative Dichotomiser 3)
Entrada esperada: Atributos categóricos o discretos.
- Verifica que todos los atributos sean categóricos. Si no lo son: Discretiza los atributos numéricos (usando intervalos fijos o binning).
- Para cada atributo, calcula su ganancia de información respecto a la clase.
- Construye el árbol: elige el atributo con mayor ganancia en cada paso.
- Repite recursivamente hasta alcanzar nodos puros o sin atributos.
- Para clasificar una nueva instancia, recorre el árbol según los valores de sus atributos.
J48 (Implementación de C4.5)
Entrada esperada: Atributos categóricos o numéricos.
- No es necesario discretizar atributos numéricos: J48 lo hace automáticamente.
- Asegúrate de que no haya valores perdidos o, si los hay, que se gestionen correctamente.
- El algoritmo calcula la ganancia de información con divisiones del tipo x ≤ θ para atributos numéricos.
- Genera el árbol y aplica poda para reducir el sobreajuste.
- Clasifica nuevas instancias recorriendo el árbol.
Naive Bayes
Entrada esperada: Atributos categóricos (multinomial) o numéricos (gaussiano).
- Elige la variante adecuada:
- Multinomial: Discretiza los atributos numéricos.
- Gaussiano: Utiliza los atributos numéricos tal como están.
- Calcula la probabilidad a priori de cada clase.
- Calcula P(xi|Ck) para cada atributo y clase.
- Aplica el teorema de Bayes para predecir P(Ck|x).
- Devuelve la clase con mayor probabilidad.
Naive Bayes Aplicado a Texto
Este es un caso específico de Naive Bayes optimizado para el procesamiento de lenguaje natural.
- Atributos: Frecuencia normalizada (entre 0 y 1) de un conjunto fijo de palabras.
- Clase: Opinión (favorable, neutra, desfavorable).
- Requisitos: Datos etiquetados y un vocabulario controlado.
- Preprocesamiento: Construcción de la matriz documento-palabra + codificación de clase.
- Funcionamiento: Se calcula P(clase) y P(palabrai|clase) para clasificar nuevos textos.
k-NN (k-Nearest Neighbors)
Entrada esperada: Atributos numéricos normalizados, sin etiquetas hasta el final.
- Asegúrate de que todos los atributos sean numéricos.
- Aplica normalización (*min-max* o *z-score*).
- Si hay atributos categóricos, conviértelos con *one-hot encoding*.
- Guarda el conjunto de entrenamiento.
- Para clasificar una instancia nueva:
- Calcula la distancia (normalmente euclídea) entre la instancia y todos los ejemplos.
- Selecciona los k vecinos más cercanos.
- Devuelve la clase más común entre ellos (modo).
MLP (Multi-Layer Perceptron)
Entrada esperada: Vectores numéricos normalizados; salida codificada como clases *one-hot* si hay varias.
- Codifica todos los atributos categóricos como vectores binarios (*one-hot encoding*).
- Normaliza los atributos numéricos para evitar saturación (*z-score*).
- Define la arquitectura de la red: número de capas ocultas y neuronas.
- Escoge una función de activación (*sigmoide* o *ReLU*).
- Entrena el modelo con *backpropagation* usando un conjunto de entrenamiento etiquetado.
- Clasifica nuevas instancias pasando la entrada por la red y tomando la neurona de salida con mayor valor.