본문 바로가기
AI 학습/강화학습

강화학습 Carpole V0, V1 차이점

by 오징어땅콩2 2021. 7. 20.
반응형

OpenAI Gym에는 때때로 동일한 환경의 다른 버전이 있습니다. 다른 버전은 일반적으로 기본 환경 논리를 공유하지만 일부 매개변수는 다른 값으로 구성됩니다. 이러한 버전은 레지스트리 라는 기능을 사용하여 관리됩니다 .

CartPole 환경의 경우 이 소스 코드 에서 두 개의 등록된 버전을 찾을 수 있습니다 . 50~65행에서 볼 수 있듯이 v0과 v1로 태그가 지정된 두 개의 CartPole 버전이 있으며 차이점은 매개변수 max_episode_steps와 reward_threshold다음 과 같습니다.

register(
    id='CartPole-v0',
    entry_point='gym.envs.classic_control:CartPoleEnv',
    max_episode_steps=200,
    reward_threshold=195.0,
)

register(
    id='CartPole-v1',
    entry_point='gym.envs.classic_control:CartPoleEnv',
    max_episode_steps=500,
    reward_threshold=475.0,
)
두 매개변수 모두 CartPole-v0과 CartPole-v1의 차이점에 대한 추측을 확인합니다.

'AI 학습 > 강화학습' 카테고리의 다른 글

open AI GYM 소스  (0) 2021.07.28
코렙에서 env.render() 오류방지  (0) 2021.07.28
Open AI Gym 클래식 예제 사이트  (0) 2021.07.27
cartpole 강화학습  (0) 2021.07.13
강화학습 frozen lake 문제 Key 입력받기  (0) 2021.07.12

댓글