Releases: manjavacas/rl-temario
Releases · manjavacas/rl-temario
v1.1.0
v1.0.0
Esta primera versión del temario incluye:
- La teoría correspondiente a métodos tabulares (
I Tabular Solution Methods
enSutton & Barto (2018)
).- Bandits, programación dinámica, métodos basados en muestreo, y planificación / model-based RL.
- Código referenciado en el texto, con ejemplos representativos de los métodos de RL vistos en la parte teórica:
- Iteración de la política en
Gridworld
, Monte Carlo en el entorno de GymnasiumFrozen Lake
, comparativa entre SARSA, Q-learning y Expected SARSA enCliffwalk
, e implementación de Dyna-Q enGridMaze
.
- Iteración de la política en