davidADSP · January 23, 2021 20:07
diff --git a/train.py b/train.py
 import gym

 from stable_baselines import PPO1
 from stable_baselines.common.policies import MlpPolicy
 from stable_baselines.common.callbacks import EvalCallback

 env = gym.make('Pendulum-v0')
 model = PPO1(MlpPolicy, env)

 # Separate evaluation env
 eval_env = gym.make('Pendulum-v0')
 eval_callback = EvalCallback(eval_env, best_model_save_path='./logs/',
                             log_path='./logs/', eval_freq=500,
                             deterministic=True, render=False)

 model.learn(5000, callback=eval_callback)
	import gym

	from stable_baselines import PPO1
	from stable_baselines.common.policies import MlpPolicy
	from stable_baselines.common.callbacks import EvalCallback

	env = gym.make('Pendulum-v0')
	model = PPO1(MlpPolicy, env)

	# Separate evaluation env
	eval_env = gym.make('Pendulum-v0')
	eval_callback = EvalCallback(eval_env, best_model_save_path='./logs/',
	log_path='./logs/', eval_freq=500,
	deterministic=True, render=False)

	model.learn(5000, callback=eval_callback)