Glosario Esencial de Conceptos en Aprendizaje por Refuerzo y Redes Neuronales
Enviado por Chuletator online y clasificado en Informática y Telecomunicaciones
Escrito el en español con un tamaño de 9,35 KB
Conceptos Fundamentales del Aprendizaje por Refuerzo
Estado (s)
Es la representación de la situación actual del agente dentro del entorno. En entornos completamente observables, este estado contiene toda la información relevante que el agente necesita para tomar decisiones.
Acción (a)
Es la decisión que el agente puede tomar desde un estado dado. Las acciones pueden ser discretas (selección entre opciones finitas) o continuas (valores numéricos dentro de un rango).
Política (pi)
Es la estrategia que sigue el agente para seleccionar acciones. Puede ser determinista si siempre devuelve una acción concreta para un estado dado, o estocástica si devuelve una probabilidad para cada posible acción en ese estado.
Función de valor V(s)
Indica cuánto retorno (recompensa acumulada futura) espera obtener el agente si se encuentra en un estado concreto y sigue una política determinada a partir de ahí.
Función Q o valor de acción Q(s, a)
Refleja el valor esperado que tiene ejecutar una acción concreta en un estado determinado y continuar con la política después de esa acción.
Factor de descuento (gamma)
Es un número entre cero y uno, que se utiliza para dar más o menos peso a las recompensas futuras. Un valor cercano a cero hace que el agente valore más las recompensas inmediatas, mientras que un valor cercano a uno prioriza los beneficios a largo plazo.
Ecuación de Bellman
Es una relación que permite expresar el valor de un estado o una acción en función de las recompensas inmediatas y del valor esperado de los estados siguientes. Se utiliza en la mayoría de los algoritmos de aprendizaje por refuerzo.
Policy Gradient
Es una técnica que ajusta directamente los parámetros de la política del agente mediante un gradiente de rendimiento esperado. Se utiliza en algoritmos que aprenden directamente la política sin usar funciones de valor.
Función Advantage
Mide cuánto mejor es una acción respecto al valor medio esperado de un estado. Ayuda a reducir la varianza en los algoritmos basados en políticas, haciendo que se mejore solo si la acción fue realmente mejor de lo que se esperaba.
Exploración vs. Explotación
El dilema entre explorar nuevas acciones para descubrir opciones potencialmente mejores (exploración), y aprovechar el conocimiento actual para obtener recompensas conocidas (explotación). Un equilibrio entre ambos es necesario para un aprendizaje efectivo.
Replay Buffer (memoria de experiencia)
Es una estructura que almacena las experiencias del agente (transiciones de estado, acción, recompensa, siguiente estado) para reutilizarlas más adelante. Se usa para entrenar redes neuronales en aprendizaje por refuerzo de forma más estable y con datos desordenados.
Trazas de elegibilidad
Son un mecanismo que permite repartir el crédito o la culpa de una recompensa entre los pasos anteriores a ella. Se usan en métodos temporales como SARSA con lambda, para facilitar el aprendizaje a lo largo del tiempo.
Redes Neuronales y Métricas de Evaluación
Redes MLP (Multilayer Perceptron)
Son redes neuronales compuestas por capas completamente conectadas. Cada neurona en una capa está conectada a todas las neuronas de la siguiente. Se usan en problemas donde no hay estructura espacial en los datos.
Redes convolucionales (CNN)
Son redes diseñadas para tratar datos con estructura espacial, como imágenes. Extraen características locales mediante filtros y aprenden jerarquías de patrones, desde rasgos simples hasta composiciones complejas.
Funciones de pérdida
Miden el error entre la salida de la red y la salida esperada. Algunas funciones comunes son el error cuadrático medio, la entropía cruzada binaria (para clasificación binaria) y la entropía cruzada categórica (para clasificación multiclase).
Accuracy, Precision y Recall
Accuracy es la proporción total de aciertos. Precision mide cuántas predicciones positivas fueron correctas. Recall mide cuántos casos positivos reales fueron correctamente detectados.
On-policy vs. Off-policy
Los algoritmos on-policy aprenden sobre la misma política que están ejecutando, mientras que los off-policy aprenden sobre una política distinta a la que ejecutan. Por ejemplo, SARSA es on-policy y Q-learning es off-policy.
Conceptos Avanzados y Algoritmos Específicos de RL
Propiedad de Markov
Es una característica fundamental de los entornos utilizados en aprendizaje por refuerzo. Establece que el estado actual contiene toda la información necesaria para predecir el futuro, es decir, que el siguiente estado depende únicamente del estado presente y de la acción actual, y no de la secuencia de estados y acciones anteriores. Si esta propiedad se cumple, se dice que el entorno es un Proceso de Decisión de Markov (MDP), y permite aplicar algoritmos eficientes de RL.
TD (Temporal-Difference)
Un entorno TD es aquel donde se usan técnicas que combinan el aprendizaje por refuerzo basado en muestras (como Monte Carlo) con la actualización paso a paso (online) como en programación dinámica. Los algoritmos TD, como SARSA y Q-learning, actualizan sus estimaciones a medida que se obtienen nuevas observaciones, sin necesidad de esperar a que termine un episodio. Esto permite un aprendizaje más rápido y eficiente.
Método Monte Carlo
Es un enfoque de aprendizaje por refuerzo basado en la experiencia completa del agente al final de cada episodio. No requiere conocimiento del modelo del entorno (modelo-free) y actualiza los valores de estado o acción basándose en el retorno total observado tras cada episodio. Se puede usar en dos variantes principales: "first-visit" (solo se actualiza en la primera aparición del estado) o "every-visit" (se actualiza en todas las apariciones). Es menos eficiente que los métodos TD porque necesita episodios completos.
DQN
Es un algoritmo que combina Q-learning con redes neuronales profundas. En lugar de usar tablas para almacenar los valores Q, utiliza una red neuronal que estima el valor de cada acción dada una observación del estado. DQN introdujo dos mejoras clave para estabilizar el entrenamiento: el uso de un buffer de experiencias (Experience Replay) y de una red objetivo separada (Target Network), que se actualiza de forma más lenta. Es especialmente útil en entornos con espacios de estado grandes o complejos, como videojuegos o robótica visual.
DDPG
Es un algoritmo de aprendizaje por refuerzo continuo basado en la arquitectura Actor-Critic. El actor aprende una política determinista que devuelve una acción continua para cada estado, mientras que el crítico estima el valor Q de esa acción. DDPG es off-policy y utiliza técnicas como replay buffer y redes objetivo para mejorar la estabilidad del aprendizaje. Está especialmente diseñado para entornos con espacio de acciones continuas, como brazos robóticos o simuladores físicos.
Experience Replay
Es una técnica usada en algoritmos como DQN y DDPG que almacena las experiencias pasadas del agente (transiciones estado-acción-recompensa-siguiente estado) en una memoria. Luego, durante el entrenamiento, se seleccionan muestras aleatorias de esa memoria para entrenar la red. Esto rompe la correlación temporal y permite un aprendizaje más eficiente y estable.
Target Network (Red Objetivo)
En DQN y DDPG, es una copia de la red principal que se mantiene fija durante varias actualizaciones y se sincroniza periódicamente. Se utiliza para calcular los valores de referencia durante el aprendizaje, evitando que la red se actualice con objetivos que también están cambiando constantemente, lo cual estabiliza el proceso.
Red Actor y Red Critic
Son dos redes neuronales que colaboran en algoritmos como Actor-Critic, DDPG y A2C. El Actor es responsable de seleccionar acciones, y se entrena para maximizar la recompensa esperada. El Critic estima el valor de esas acciones o estados, y guía al Actor indicando si las decisiones que tomó fueron buenas. Cada red tiene un objetivo distinto, pero se entrenan juntas en cada ciclo de aprendizaje.
REINFORCE
Es un algoritmo básico de Policy Gradient que ajusta directamente los parámetros de una política estocástica basándose en la recompensa total recibida al final de cada episodio. Es simple pero sufre de alta varianza, por lo que suele combinarse con técnicas como baselines (como V(s)) para mejorar la estabilidad del aprendizaje.