Implementation of PPO (Proximal Policy Optimization)

This is a tensorflow implementation of proximal policy optimization (PPO) algorithm for continuous action

Original Paper

here

Demo

Results

Total Scores Vs Number of iteration (Pendulum-v0)

Losses (Pendulum-v0)

Dependencies

python 3.5
tensorflow 1.1.0
openAI

Usage

For Training Run:

$ python3 trainer.py

For Demo Run:

$ python3 play.py

Credit

Reference Project

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.idea		.idea
__pycache__		__pycache__
save_model/Pendulum-v0/MlpPolicy		save_model/Pendulum-v0/MlpPolicy
src/Pendulum-v0		src/Pendulum-v0
summary_log/Pendulum-v0/MlpPolicy		summary_log/Pendulum-v0/MlpPolicy
README.md		README.md
config.py		config.py
play.py		play.py
ppo.py		ppo.py
trainer.py		trainer.py
worker.py		worker.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Implementation of PPO (Proximal Policy Optimization)

Original Paper

Demo

Results

Total Scores Vs Number of iteration (Pendulum-v0)

Losses (Pendulum-v0)

Dependencies

Usage

Credit

PPO

About

Releases

Packages

Languages

shareeff/PPO

Folders and files

Latest commit

History

Repository files navigation

Implementation of PPO (Proximal Policy Optimization)

Original Paper

Demo

Results

Total Scores Vs Number of iteration (Pendulum-v0)

Losses (Pendulum-v0)

Dependencies

Usage

Credit

PPO

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages