Conceptos Esenciales del Aprendizaje por Refuerzo: Fundamentos y Algoritmos Clave
Enviado por Chuletator online y clasificado en Francés
Escrito el en
español con un tamaño de 4,06 KB
Dilema Exploración-Explotación en Aprendizaje por Refuerzo
Si el agente explora demasiado, nunca termina de aprovechar lo que ya ha aprendido, lo que puede provocar un rendimiento bajo o que nunca llegue a una política estable. Por el contrario, si explota demasiado, se arriesga a quedarse con una solución subóptima sin descubrir opciones mejores. El término exploración en el contexto del dilema se refiere a probar acciones nuevas, mientras que explorar el entorno implica conocer nuevos estados. Aunque relacionados, no son conceptos idénticos.
Políticas Deterministas vs. Estocásticas
La política π(s) se refiere a una estrategia determinista, que devuelve directamente la acción que se debe tomar en un estado. En cambio, π(s, a) representa... Continuar leyendo "Conceptos Esenciales del Aprendizaje por Refuerzo: Fundamentos y Algoritmos Clave" »