Fundamentos de Machine Learning: Regresión, Gradiente Descendente y Optimización de Modelos Predictivos

Enviado por Chuletator online y clasificado en Matemáticas

Escrito el en español con un tamaño de 11,25 KB

Conceptos Fundamentales en Machine Learning y Modelado Predictivo

Regresión Lineal Múltiple

Ecuación y Parámetros

La ecuación de regresión lineal múltiple con tres variables se expresa como:

ŷ = β₀ + β₁x₁ + β₂x₂ + β₃x₃

Donde:

  • es el valor predicho de la variable dependiente.
  • β₀ es el intercepto (o término constante).
  • β₁, β₂, β₃ son los coeficientes de las variables independientes x₁, x₂, x₃, respectivamente. Estos coeficientes representan el cambio promedio en por cada unidad de cambio en la variable independiente correspondiente, manteniendo las otras variables constantes.

Gradiente Descendente: Optimización de Modelos

El Parámetro α (Tasa de Aprendizaje)

El parámetro α, conocido como la tasa de aprendizaje, es un hiperparámetro crucial en el algoritmo de Gradiente Descendente. Controla el tamaño de los pasos que se dan durante la actualización de los parámetros del modelo en cada iteración.

  • Un valor de α muy pequeño puede ralentizar significativamente el proceso de entrenamiento, requiriendo muchas iteraciones para converger.
  • Un valor de α excesivamente grande puede provocar inestabilidad en el algoritmo, causando que diverja (no converja al mínimo global) o que oscile indefinidamente alrededor de la solución óptima sin alcanzarla.

Algoritmo Básico de Aprendizaje para Regresión

El proceso iterativo del Gradiente Descendente para la regresión sigue estos pasos fundamentales:

  1. Inicializar parámetros (β): Se asignan valores iniciales a los coeficientes del modelo.
  2. Calcular predicciones y error: Se generan las predicciones () utilizando los parámetros actuales y se calcula el error (y - ŷ) con respecto a los valores reales (y).
  3. Actualizar parámetros: Los parámetros β se ajustan utilizando el gradiente de la función de pérdida (o costo) con respecto a β, multiplicado por la tasa de aprendizaje α. Este paso busca minimizar la función de pérdida.
  4. Repetir: Los pasos 2 y 3 se repiten hasta que el algoritmo converge, es decir, hasta que los cambios en los parámetros son mínimos o se alcanza un número predefinido de iteraciones.

Diferencias en Gradiente Descendente para Regresión Lineal y Logística

Aunque ambos tipos de regresión utilizan el Gradiente Descendente, existen diferencias clave:

  • Similitud: Ambas implementaciones emplean la misma regla de actualización de parámetros basada en el gradiente de la función de pérdida.
  • Diferencia Fundamental: La función de pérdida utilizada es distinta.
    • Para la regresión lineal, comúnmente se utiliza el Error Cuadrático Medio (MSE) como función de pérdida.
    • Para la regresión logística (utilizada en clasificación), se emplea la Pérdida Logística (también conocida como entropía cruzada binaria), que es más adecuada para problemas de clasificación binaria.

Regularización: Prevención del Sobreajuste

Propósito de la Regularización

El propósito principal de la regularización es prevenir el sobreajuste (overfitting) en los modelos de aprendizaje automático. Esto se logra penalizando la complejidad del modelo, lo que favorece la selección de soluciones más simples que tienen una mejor capacidad de generalización a datos no vistos.

Técnicas de Regularización en Regresión Lineal: Ridge (L2) y Lasso (L1)

Dos de las técnicas de regularización más comunes aplicadas a la regresión lineal son Ridge y Lasso:

  • Ridge (Regularización L2):
    • Penaliza la suma de los cuadrados de los coeficientes del modelo.
    • Tiende a reducir el tamaño de los coeficientes, pero no los reduce a cero. Esto significa que todos los coeficientes se mantienen en el modelo, aunque con valores más pequeños.
    • Es útil cuando se tienen muchas variables predictoras y se desea reducir su impacto sin eliminarlas por completo.
  • Lasso (Regularización L1):
    • Penaliza la suma de los valores absolutos de los coeficientes.
    • Tiene la capacidad de reducir algunos coeficientes a cero, lo que efectivamente elimina las variables correspondientes del modelo.
    • Es particularmente útil para la selección de características (feature selection), ya que puede identificar y descartar automáticamente las variables menos relevantes.

Tipos de Aprendizaje Automático

Aprendizaje Supervisado

En el Aprendizaje Supervisado, el modelo aprende a partir de un conjunto de datos que ya están etiquetados, es decir, cada ejemplo de entrada (xᵢ) tiene una salida correspondiente (yᵢ) conocida ({(xᵢ, yᵢ)}). El objetivo es que el modelo aprenda a mapear las entradas a las salidas para poder predecir las etiquetas de nuevos datos no vistos.

Ejemplo: Predecir el precio de una casa basándose en sus características (número de habitaciones, tamaño, ubicación, etc.), donde ya se conocen los precios de casas similares.

Aprendizaje No Supervisado

En el Aprendizaje No Supervisado, el modelo trabaja con datos que no tienen etiquetas. El objetivo principal es descubrir patrones ocultos, estructuras o relaciones dentro de los datos por sí mismo, sin una variable de salida predefinida.

Objetivos Comunes:

  • Agrupamiento (Clustering): Identificar grupos naturales de datos similares.
  • Reducción de Dimensionalidad: Simplificar los datos reduciendo el número de variables, manteniendo la mayor cantidad de información posible.

Ejemplo: Segmentación de clientes de una empresa basándose en su comportamiento de compra, sin tener categorías de clientes predefinidas.

Clasificación vs. Regresión

Estos son dos tipos fundamentales de problemas en el aprendizaje supervisado, diferenciados por el tipo de salida que predicen:

  • Clasificación: Predice etiquetas discretas o categorías. La salida es un valor de un conjunto finito de clases.
    • Ejemplo: Determinar si un correo electrónico es "spam" o "no spam", o clasificar una imagen como "perro", "gato" o "pájaro".
  • Regresión: Predice valores continuos. La salida es un número dentro de un rango.
    • Ejemplo: Predecir la temperatura del día siguiente, el precio de una acción o la cantidad de lluvia.

Parámetro vs. Hiperparámetro

Es crucial distinguir entre estos dos tipos de configuraciones en un modelo de aprendizaje automático:

  • Parámetro del Modelo: Son los valores internos del modelo que se ajustan y aprenden automáticamente a partir de los datos durante el proceso de entrenamiento.
    • Ejemplo: Los coeficientes (β) en un modelo de regresión lineal, los pesos en una red neuronal.
  • Hiperparámetro del Modelo: Son configuraciones externas que se definen y establecen antes de que comience el proceso de entrenamiento del modelo. No se aprenden directamente de los datos.
    • Ejemplo: La tasa de aprendizaje (α) en Gradiente Descendente, el número de árboles en un Random Forest, el número de capas en una red neuronal.

Overfitting (Sobreajuste) y Underfitting (Subajuste)

Estos dos fenómenos representan problemas comunes en el rendimiento de los modelos de aprendizaje automático:

  • Overfitting (Sobreajuste):
    • Ocurre cuando el modelo se ajusta demasiado a los datos de entrenamiento, capturando incluso el ruido y las particularidades específicas de ese conjunto.
    • Resulta en un bajo error en los datos de entrenamiento, pero un alto error en los datos de prueba (o nuevos datos), lo que indica una pobre capacidad de generalización.
    • El modelo es excesivamente complejo para la tarea.
  • Underfitting (Subajuste):
    • Ocurre cuando el modelo es demasiado simple para capturar la relación subyacente en los datos.
    • Resulta en un alto error tanto en los datos de entrenamiento como en los de prueba.
    • El modelo no ha aprendido lo suficiente de los datos.

Ambos, el sobreajuste y el subajuste, afectan negativamente el error de generalización, que es el rendimiento del modelo en datos nuevos y no vistos.

Métodos de Validación Cruzada

La validación cruzada es una técnica esencial para evaluar el rendimiento de un modelo y su capacidad de generalización, ayudando a detectar el sobreajuste y a seleccionar los mejores hiperparámetros.

  • Validación Hold-out:
    • Divide los datos disponibles en dos conjuntos principales: un conjunto de entrenamiento y un conjunto de prueba (o validación), una sola vez.
    • El modelo se entrena exclusivamente con el conjunto de entrenamiento y se evalúa su rendimiento con el conjunto de prueba.
    • Ventaja: Es simple y rápido de implementar.
    • Desventaja: La estimación del rendimiento puede ser muy sensible a la forma en que se realiza la división, y no utiliza todos los datos para el entrenamiento.
  • Validación k-fold:
    • Divide el conjunto de datos completo en k subconjuntos (o "folds") de tamaño aproximadamente igual.
    • El proceso se repite k veces: en cada iteración, uno de los k subconjuntos se utiliza como conjunto de prueba, y los k-1 subconjuntos restantes se utilizan para el entrenamiento.
    • El rendimiento final del modelo se calcula como el promedio de los k resultados de evaluación.
    • Ventaja: Proporciona una estimación más robusta y menos sesgada del rendimiento del modelo, ya que cada punto de datos se utiliza tanto para entrenamiento como para prueba (en diferentes iteraciones). Hace un mejor uso de los datos disponibles, resultando en una menor varianza en la estimación del error.
    • Desventaja: Es computacionalmente más intensivo que el método Hold-out, especialmente para valores grandes de k.

Entradas relacionadas: