main.py

import time

from frozenlake import FrozenLake
from linearQlearning import linear_q_learning
from linearSarsa import linear_sarsa
from policyIteration import policy_iteration
from qLearning import q_learning
from sarsa import sarsa
from valueIteration import value_iteration
from LinearWrapper import LinearWrapper
def main():
    seed = 0

    # Small lake
    lake =   [['&', '.', '.', '.'],
              ['.', '#', '.', '#'],
              ['.', '.', '.', '#'],
              ['#', '.', '.', '$']]
    
    
    # big_lake = [['&', '.', '.', '.', '.', '.', '.', '.'],
    #         ['.', '.', '.', '.', '.', '.', '.', '.'],
    #         ['.', '.', '.', '#', '.', '.', '.', '.'],
    #         ['.', '.', '.', '.', '.', '#', '.', '.'],
    #         ['.', '.', '.', '#', '.', '.', '.', '.'],
    #         ['.', '#', '#', '.', '.', '.', '#', '.'],
    #         ['.', '#', '.', '.', '#', '.', '#', '.'],
    #         ['.', '.', '.', '#', '.', '.', '.', '$']]

    env = FrozenLake(lake, slip=0.1, max_steps=16, seed=seed)

    print('# Model-based algorithms')
    gamma = 0.9
    theta = 0.001
    max_iterations = 100

    print('')

    #start = time.time()
    print('## Policy iteration')
    policy, value = policy_iteration(env, gamma, theta, max_iterations)
    #end = time.time()
    env.render(policy, value)
    #print("TIme taken by policy iteration is:- ,",end-start)

    print('')

    #start = time.time()
    print('## Value iteration')
    policy, value = value_iteration(env, gamma, theta, max_iterations)
    #end = time.time()
    env.render(policy, value)
    #print("TIme taken by value iteration is:- ,",end-start)

    print('')

    print('# Model-free algorithms')
    max_episodes = 2000
    eta = 0.5
    epsilon = 0.5

    print('')

    print('## Sarsa')
    policy, value = sarsa(env, max_episodes, eta, gamma, epsilon, seed=seed)
    env.render(policy, value)

    print('')

    print('## Q-learning')
    policy, value = q_learning(env, max_episodes, eta, gamma, epsilon, seed=seed)
    env.render(policy, value)

    print('')

    linear_env = LinearWrapper(env)

    print('## Linear Sarsa')

    parameters = linear_sarsa(linear_env, max_episodes, eta,
                              gamma, epsilon, seed=seed)
    policy, value = linear_env.decode_policy(parameters)
    linear_env.render(policy, value)

    print('')

    print('## Linear Q-learning')

    parameters = linear_q_learning(linear_env, max_episodes, eta,
                                   gamma, epsilon, seed=seed)
    policy, value = linear_env.decode_policy(parameters)
    linear_env.render(policy, value)
if __name__ == '__main__':
    main()