Conceptos Esenciales del Aprendizaje por Refuerzo: Fundamentos y Algoritmos Clave
Enviado por Chuletator online y clasificado en Francés
Escrito el en español con un tamaño de 4,06 KB
Dilema Exploración-Explotación en Aprendizaje por Refuerzo
Si el agente explora demasiado, nunca termina de aprovechar lo que ya ha aprendido, lo que puede provocar un rendimiento bajo o que nunca llegue a una política estable. Por el contrario, si explota demasiado, se arriesga a quedarse con una solución subóptima sin descubrir opciones mejores. El término exploración en el contexto del dilema se refiere a probar acciones nuevas, mientras que explorar el entorno implica conocer nuevos estados. Aunque relacionados, no son conceptos idénticos.
Políticas Deterministas vs. Estocásticas
La política π(s) se refiere a una estrategia determinista, que devuelve directamente la acción que se debe tomar en un estado. En cambio, π(s, a) representa una política estocástica, que indica la probabilidad de realizar una acción específica en un estado dado.
Entornos Observables y la Propiedad de Markov
En los entornos totalmente observables, el agente percibe toda la información relevante, por lo que el estado y la observación son equivalentes. Sin embargo, en entornos parcialmente observables, lo que el agente percibe no es suficiente para conocer completamente el estado del sistema. Esto tiene relación directa con la propiedad de Markov, que solo se cumple cuando el estado actual incluye toda la información necesaria para predecir el futuro.
Estrategias On-policy y Off-policy
Una estrategia on-policy implica que el agente aprende sobre la misma política que ejecuta, como ocurre en SARSA. En cambio, en los métodos off-policy, como Q-learning, se aprende sobre una política diferente a la que se está ejecutando. Esto influye en las trazas de elegibilidad, que se ajustan naturalmente a las decisiones tomadas en on-policy, y también hace que SARSA sea más sensible a cambios en el parámetro de exploración ε.
Comparativa de Algoritmos Actor-Critic: DDPG y A2C
En el algoritmo DDPG, la red Actor aprende una política determinista para producir acciones continuas, mientras que en A2C el Actor aprende una política estocástica que da probabilidades para distintas acciones. Por otro lado, el Critic de DDPG estima el valor de cada acción específica, y en A2C estima el valor general del estado. El Actor toma decisiones y el Critic las evalúa para guiar el aprendizaje.
Relación entre V(s) y Q(s,a) y la Ecuación de Bellman
El valor V(s) coincide con Q(s,a) cuando la política siempre elige la misma acción en ese estado, es decir, cuando es determinista. La ecuación de Bellman explica cómo el valor de un estado se relaciona con las recompensas esperadas en el futuro, guiadas por una política. Esta ecuación es fundamental en el aprendizaje por refuerzo porque permite actualizar los valores de forma progresiva.
Estabilidad en DQN: Buffer de Experiencias y Trazas de Elegibilidad
La red DQN aprende a predecir el valor de cada acción en un estado determinado, permitiendo al agente elegir la mejor. Para que el entrenamiento sea estable, es necesario que los datos de entrenamiento sean independientes e idénticamente distribuidos (i.i.d.). Esto se logra mediante el uso de un buffer de experiencias que almacena transiciones y selecciona ejemplos aleatorios, lo cual es incompatible con el uso de trazas de elegibilidad.
REINFORCE, Función de Rendimiento y Advantage en Actor-Critic
REINFORCE ajusta la política del agente reforzando las acciones que han dado buen resultado, usando la recompensa total como referencia. La función de rendimiento J mide el rendimiento general de la política, mientras que el advantage (o ventaja) indica si una acción fue mejor o peor de lo esperado en un estado concreto. Las redes Actor-Critic utilizan este advantage para hacer actualizaciones más precisas y reducir la varianza.