18.97.9.175
18.97.9.175
close menu
목표상태 값 전파를 이용한 강화 학습
Reinforcement Learning using Propagation of Goal-State-Value
김병천(Kim Byung Cheon),윤병주(Yoon Byung Joo)
UCI I410-ECN-0102-2009-000-007535220

동적 환경에서 학습을 수행하기 위해 Q-학습, TD(0), TD(λ)-학습 등과 같은 강화학습 알고리즘들이 제안되었다. 그러나 대부부의 강화학습 알고리즘들은 목표상태에 도달하였을 때 강화값이 주어지기 때문에 학습 속도가 매우 느린 단점이 있다. 본 논문에서는 미로 환경에서 목표상태에 빠르게 수렴할 수 있는 강화학습 방법을 제안하였다. 제안된 강화학습 방법은 전역학습(global learning)과 지역학습(local learning)으로 분리하여 학습을 수행한다. 전역학습은 replacing eligibility trace 방법을 이용하여 목표상태를 탐색하기 위한 학습이다. 지역학습은 전역학습을 통해 탐색된 목표상태 값을 인접 상태에 전파시킨 후 인접 상태에서 목표상태를 탐색하기 위한 학습이다. 제안한 강화학습 방법은 Q-학습, TD(0), TD(λ)-학습등과 같은 강화학습 방법보다 최적 해에 더 빠르게 수렴할 수 있음을 실험을 통해 알 수 있었다.

In order to learn in dynamic environments, reinforcement learning algorithms like Q-learning, TD(0)-learning, TD(%u03BB)-learning have been proposed, However, most of them have a drawback of very slow learning because the reinforcement value is given when they reach their goal state. In this thesis, we have proposed a reinforcement learning method that can approximate fast to the goal state in maze environments. The proposed reinforcement learning method is separated into global learning and local learning, and then it executes learning. Global learning is a learning that uses the replacing eligibility trace method to search the goal state. In local learning, it propoagates the goal state value that has been searched through global learning to neighboring state, and then searches goal state in neighboring states. We can show through experiments that the reinforcement learning method proposed in this thesis can find out an optimal solution faster than other reinforcement learning methods like Q-learning, TD(0)-learning, TD(%u03BB)-learning.

[자료제공 : 네이버학술정보]
×