[RL] DQN의 Action Space 한계

로봇이 잘 걸어가도록 하기 위해 DQN모델을 사용한다 해보자.

총 4개의 관절이 있고 각 관절은 (-90, 0, 90) 3개의 값 중 하나를 가질 수 있다.

이 경우 각 관절 당 3가지의 값을 가질 수 있으니 관절이 4개 임으로 3x3x3x3 = 81개의 조합이 만들어진다.

넘어지기 직전상태인 St에 대하여 입력을 넣었다고 가정해보자.

그러면 신경망은 총 81개의 갚을 쭉 출력한다. 넘어지면 마이너스 넘어지지 않으면 플러스 점수가 나오도록 학습되었다)

DQN은 저중에 최대값을 선택한다. 즉 a42행동이 선택되어진다. 그러면 위 표를 바탕으로 a42번인

[0, 90, -90, 0] 의 조합이 된다. 이처럼 DQN은 복수의 관절 값을 결정할 때 각 관절을 따로따로 계산하는 것이 아니라, '모든 경우의 수가 다 묶여있는 81개의 선택지' 중 가장 점수가 높은 1개의 선택지를 고르고, 그 선택지 안에 묶여있던 4개의 값을 풀어서 사용하는 방식으로 작동한다.

[RL] DQN의 Action Space 한계

Comment