반응형
OpenAI Gym에는 때때로 동일한 환경의 다른 버전이 있습니다. 다른 버전은 일반적으로 기본 환경 논리를 공유하지만 일부 매개변수는 다른 값으로 구성됩니다. 이러한 버전은 레지스트리 라는 기능을 사용하여 관리됩니다 .
CartPole 환경의 경우 이 소스 코드 에서 두 개의 등록된 버전을 찾을 수 있습니다 . 50~65행에서 볼 수 있듯이 v0과 v1로 태그가 지정된 두 개의 CartPole 버전이 있으며 차이점은 매개변수 max_episode_steps와 reward_threshold다음 과 같습니다.
register(
id='CartPole-v0',
entry_point='gym.envs.classic_control:CartPoleEnv',
max_episode_steps=200,
reward_threshold=195.0,
)
register(
id='CartPole-v1',
entry_point='gym.envs.classic_control:CartPoleEnv',
max_episode_steps=500,
reward_threshold=475.0,
)
두 매개변수 모두 CartPole-v0과 CartPole-v1의 차이점에 대한 추측을 확인합니다.
'AI 학습 > 강화학습' 카테고리의 다른 글
open AI GYM 소스 (0) | 2021.07.28 |
---|---|
코렙에서 env.render() 오류방지 (0) | 2021.07.28 |
Open AI Gym 클래식 예제 사이트 (0) | 2021.07.27 |
cartpole 강화학습 (0) | 2021.07.13 |
강화학습 frozen lake 문제 Key 입력받기 (0) | 2021.07.12 |
댓글