TRPO - Trust Region Policy Optimizer

서론

기존 DDPG는 성능의 단조개선(Monotonic Improvement)가 이론적으로 보장되지 않았다.(목적함수 $J(\theta)$)가 매 iteration마다 증가한다는 보장이 없다.)

왜냐하면 Actor( $\mu$ )가 Ciritic(Q 함수)의 gradient를 따라가도록 학습하는데 critic 자체도 학습중이라 부정확하다.

또한 Gradient는 현재 시점에 대한 선형근사 정보(한 점에서의 방향정보)뿐이여서 그 정보가 어디까지 유요할지 알 수 없다.(Step size를 모름)

이러한 문제를 해결하기위해 MM(Minimization - Maximization)알고리즘과 Trust Region Concept을 도입한다.

Trust Region 내부에서 정책파라미터 $\theta$를 업데이트하면 목적함수 $J(\theta)$의 단조개선이 이론적으로 보장된다.

이 Trust Region은 KL Divergence 제약조건으로 신뢰 영억을 정의한다.

그 영역 안에서는 Gradient 방향으로 이동해도 항상 성능이 개선된다는 것을 보장한다.

따라서 step-size를 고려하지 않고 Trust region영역안에서 가장 좋은 점으로 이동하면 된다.

\eta(\pi) = \mathbb{E}_{s_0, a_0, \ldots} \left[\sum_{t=0}^{\infty} \gamma^{t} r(s_t)\right] \tag{1}

\eta(\pi)-\eta(\pi_{\text{old}})=\mathbb{E}_{\tau\sim\pi}\left[\sum_{t=0}^{\infty}\gamma^tA_{\pi_{\text{old}}}(s_t,a_t)\right]\tag{2}

[증명]

\eta(\pi)=\eta(\pi_{\text{old}})+\mathbb{E}_{\tau\sim\pi}\left[\sum_{t=0}^{\infty}\gamma^tA_{\pi_{\text{old}}}(s_t,a_t)\right]\\\quad=\eta(\pi_{\text{old}})+\sum_s\rho_\pi(s)\sum_a\pi(a|s)A_{\pi_{\text{old}}}(s,a) \tag{3}

\text{State visiting frequency: }\rho_\pi(s)=\sum_{t=0}^{\infty}\gamma^tP(s_t=s \mid \pi)

[증명]

\eta(\pi) - \eta(\pi_{\text{old}}) = \sum_s \rho_\pi(s) \left[ \sum_a \pi(a|s) Q_{\pi_{\text{old}}}(s,a) - V_{\pi_{\text{old}}}(s) \right]

$\mathbb{E}_{\tau \sim \pi}\left[\sum_{t=0}^{\infty}\gamma^tA_{\pi_{\text{old}}}(s_t,a_t)\right]=\sum_s \rho_\pi(s) \left[ \sum_a \pi(a|s) Q_{\pi_{\text{old}}}(s,a) - V_{\pi_{\text{old}}}(s) \right]$
$\eta(\pi_{\text{old}})$: 상태 s에서 어떤 행동 a를 한 번 시도해보고 그 이후에는 옛 정책($\pi_{old}$)를 따랐을 때의 가치
$\pi(a|s) Q_{\pi_{\text{old}}}(s,a)$: 상태 s에서 새 정책 $\pi$를 따라 한 번 행동을 고르고 그 이후에는 옛 정책($\pi_{old}$)를 따라 간다. 이렇게 했을 때 첫 스탭에서 새 정책 $\pi$에 의해 결정되는 모든 행동 에 대한 기대값

\mathbb{E}_{\tau\sim\pi}\left[\mathbb{E}_{S_{t+1}\sim p(\,\cdot\,|S_t,a_t)}[V_{\pi_{old}}(S_{t+1})]\right] = \mathbb{E}_{\tau\sim\pi}\left[V_{\pi_{old}}(S_{t+1})\right]

(because $\mathbb{E}[X]=\mathbb{E}[\mathbb{E}[X|Y]]$)

먼저 첫 항은

\sum_{t=0}^{\infty}\gamma^t \mathbb{E}_{\tau\sim\pi}[r(S_t)] = \eta(\pi)

이고, 나머지 두 항은

\begin{aligned} \sum_{t=0}^{\infty}\gamma^t \mathbb{E}_{\tau\sim\pi}\left[\gamma V_{\pi_{old}}(S_{t+1}) - V_{\pi_{old}}(S_t)\right] &= \mathbb{E}_{\tau\sim\pi}\left[\sum_{t=0}^{\infty}\left(\gamma^{t+1}V_{\pi_{old}}(S_{t+1}) - \gamma^t V_{\pi_{old}}(S_t)\right)\right] \\ &= -\mathbb{E}_{S_0\sim\rho_0}\left[V_{\pi_{old}}(S_0)\right] \end{aligned}

(모든 항이 소거되고 $t=0$의 항만 남음)

따라서

\mathbb{E}_{\tau\sim\pi}\left[\sum_{t=0}^{\infty}\gamma^t A_{\pi_{old}}(S_t,a_t)\right] = \eta(\pi) - \mathbb{E}_{S_0\sim\rho_0}\left[V_{\pi_{old}}(S_0)\right]

또한 $\mathbb{E}_{S_0\sim\rho_0}[V_{\pi_{old}}(S_0)] = \eta(\pi_{old})$ 이므로

\eta(\pi)-\eta(\pi_{old}) =\mathbb{E}_{\tau\sim\pi}\left[\sum_{t=0}^{\infty}\gamma^t A_{\pi_{old}}(S_t,a_t)\right].