Reinforcement Learning 1차시

Random Variable

표본 공간을 어떤 목적에 따른 실수에 대응 시켜주는 함수를 확률 변수라고 한다.

그리고 이 실수들을 맞는 확률값에 대응시켜준 것을 확률 분포라고 한다.

Conditional Probability

P(\text{A}|\text{B}) = \frac{P(\text{A} \cap \text{B})}{P(B)}

Partion theorem

P(\text{B}) = \Sigma_{i}P(\text{B|A}_i) \times P(\text{A}_i)

Probability Density Function

한국남자의 키

P(\text{a}\le \text{x}\le \text{b}) = \int_{a}^{b}{f(x)dx}

\frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}

Probability Mass Function

주사위 눈의 수

P(a \le X \le b) = \sum_{x=a}^{b} p(x)

Expectation of Discrete Random Variable

\mathbb{E}[X] = \sum_x x \, P(X=x)

Expectation of conditional probability

Y조건이 무었이냐에 따라 기댓값이 달라진다.

\mathbb{E}[\text{X}|\text{Y}=y] = \Sigma_x \text{x}\cdot P(\text{X}=x|\text{Y}=y)

Law of total Expectation

\mathbb{E}[\mathbb{E}[\text{X}|\text{Y}] = \mathbb{E}[\text{X}]

CTL: Central Limit Theorem

표본의 크기가 커지면 커질 수록 표본평균의 분포는 모평균을 중심으로 하는 정규분포를 따른다.
단, 이러한 데이터들은 independent identical distribution을 만족해야 한다.

\frac{\sqrt{n}(\bar{X}_n - \mu)}{\sigma}\;\xrightarrow{d}\;\mathcal{N}(0,1)\quad (n \to \infty)

Random Walk

\text{Set } X_0 = 0 \\ W_t =\begin{cases}\ \ \ 1, & \text{(go forward)} \\-1, & \text{(go backward)}\end{cases}

X_n = \text{position after } n \text{ steps} \\ X_n= X_0 + \sum_{i=1}^{n} W_i= X_{n-1} + W_n \begin{cases}P(X_n = j \mid X_{n-1} = j-1) = p, \\P(X_n = j \mid X_{n-1} = j+1) = q.\end{cases}

Stochastic Process

확률과정 X(t)는 시간 t에 따라 변하는 확률변수들의 집합, 이때의 다 다른 확률변수에 대응하는 분포는 다 다를 수도, 같을 수도 있다.

X(t) = \{ X(t) \mid{t}\in T \}

Discrete Time & State

T = \{t_0,\ t_1,\ t_2,\ \ ... \}\\X(t) \rarr S = \{S_1,\ S_2 , ... \ S_n \}

Markov Chain(Markov Process)

Markov Property: 지금 상태(\(S_t\))는 이전상태(\(S_{t-1}\))만 영향을 미친다.

P(x_{n + 1} | x_{n}, x_{n-1}, \ldots , x _ { 0 } ) = P( x _ { n + 1 } | x _ { n } )

Markov Process

시간에 따라 상태가 변화는 확률과정 중에서, Markov Property를 만족하는 확률변수의 열을 말한다.

S = \{S_1,\ S_2,\ S_3 \ ...\ ,\ S_n\}

Transition Matrix

P =\begin{pmatrix}p_{11} & p_{12} & \cdots & p_{1m} \\p_{21} & p_{22} & \cdots & p_{2m} \\\vdots & \vdots & \ddots & \vdots \\p_{m1} & p_{m2} & \cdots & p_{mm}\end{pmatrix}\\p_{ij} \ge 0, \qquad \sum_{j=1}^{m} p_{ij} = 1

p^{(0)} =\begin{pmatrix}p_1^{(0)} & p_2^{(0)} & \cdots & p_m^{(0)}\end{pmatrix}, \ p^{0}_j=p(X_0 = j)\\ p^{(1)} =\begin{pmatrix}p_1^{(1)} & p_2^{(1)} & \cdots & p_m^{(1)}\end{pmatrix}, \ p^{1}_j=p(X_1 = j)\\ p^{(2)} =\begin{pmatrix}p_1^{(2)} & p_2^{(2)} & \cdots & p_m^{(2)}\end{pmatrix},\ p^{2}_j=p(X_2 = j)\\ \cdot \\ \cdot \\ \cdot \\ p^{(n)} =\begin{pmatrix}p_1^{(n)} & p_2^{(n)} & \cdots & p_m^{(n)}\end{pmatrix}, \ p^{n}_j=p(X_n = j)

\(X_1\)이 \(j\)일 확률을 구해보자

p^{1}_{j} = p_1^{(0)}\, p_{1j}+ p_2^{(0)}\, p_{2j}+ \cdots+ p_m^{(0)}\, p_{mj}

Chapman-Kolmogorov Equation

미래시점(n+m)의 확률을 구할 때 처음(0)에서 부터 한 스탭씩 전이확률을 반복해서 계산할 수도 있지만, 처프만-콜모그로프 방정식을 이용하면 중간지점 n까지의 전이확률과 이후 m스텝 동안의 전이확률을 곱해서 n+m시점의 확률을 계산할 수 있다.

P^{(n)}= P^{(0)}P^{n} = P^{n-1}P

Limiting Distribution

처음 어떤 상태( \(P^{(0)}\))로 시작했는지와 상관없이 시간이(\(\text{step n} \rarr \infin\)) 무한히 흐르면 도달하게 되는 확률분포
\(n \rarr \infin\)갔을 때 값이 존재해야 한다.

P^{\infin}=P^{(0)}\lim_{n \rarr \infin}P^{(n)}

Example: Weather

S = \{ 1 = \text{Sunny},\; 2 = \text{Cloudy} \}, \ \ P =\begin{pmatrix}\frac{2}{3} & \frac{1}{3} \\\frac{1}{2} & \frac{1}{2}\end{pmatrix}

p_{11} = P(\text{Sunny} \to \text{Sunny}) = \frac{2}{3}, \quad p_{12} = P(\text{Sunny} \to \text{Cloudy}) = \frac{1}{3}

p_{21} = P(\text{Cloudy} \to \text{Sunny}) = \frac{1}{2}, \quad p_{22} = P(\text{Cloudy} \to \text{Cloudy}) = \frac{1}{2}

Stationary Distribution

기존 상태분포는 초기상태분포와 Transition Matrix의 영향을 받았다. 원래는 시간이 흐를수록(n-step) 상태분포가 계속 변해야 정상이지만 T.M.(Transition Matrix)의 특성과 맞아 떨어지는 어떤 상태분포로 시작했다면 시간이 흘러도 상태분포가 변하지 않는다.
이 특성과 맞아 떨어지는 확률상태 분포를 정상분포라고 한다.

\pi_{1}+\pi_{2}+\pi_{3}+ \cdot\cdot\cdot \ + \pi_{n} = 1

\pi p = \pi

Reducible & Irreducible

Reducible: 상태가 분리되어 오갈 수 없는 경우가 존재
Irreducible: 모든 상태가 서로 오갈 수 있음

Recurrent & Transient

서로 Communicate(i↔j)하는 상태들은 같은 Communication class에 잇고, 그 class에 속한 상태들은 전부 recurrent하거나 transient하다.

f_{ij}^{(n)}=P\bigl(X_n = j,\;X_r \neq j \ (r=1,\ 2,\ 3,\ n-1)\mid X_0 = i\bigr)

\sum_{n=1}^{\infty} f_{ij}^{(n)}=P\bigl(\text{X}_0 = i \text{에서 출발해 언젠가 상태 } j \text{에 도달할 확률}\bigr)=f_{ij}

\sum_{n=1}^{\infty} f_{ii}^{(n)}=f_{ii} \ \begin{cases}f_{ii} = 1, & \text{상태 } i \text{는 recurrent 상태} \\[6pt]f_{ii} < 1, & \text{상태 } i \text{는 transient 상태}\end{cases}

Markov Chain의 Ergodic Theorem(에르고딕 정리)

충분히 시간이 지나면 초기 상태와 무관하게 상태분포는 하나의 고정된 분포로 수렴한다.
이 결과가 성립하려면 아래 3가지 조건을 만족해야한다.

irredicible: 모든 상태가 연결되어 있다.
Recurrent: 모든 상태에 언젠가 다시 되돌아온다.(1조건이 만족하면 2조건도 자동으로 만족)
Aperiodic(비주기성): 주기(1 → 2 → 1 → 2)가 없어야 한다.

Reinforcement Learning 1차시

Random Variable

Conditional Probability

Partion theorem

Probability Density Function

Probability Mass Function

Expectation of Discrete Random Variable

Expectation of conditional probability

Law of total Expectation

CTL: Central Limit Theorem

Random Walk

Stochastic Process

Discrete Time & State

Markov Chain(Markov Process)

Markov Process

Transition Matrix

Chapman-Kolmogorov Equation

Limiting Distribution

Example: Weather

Stationary Distribution

Reducible & Irreducible

Recurrent & Transient

Markov Chain의 Ergodic Theorem(에르고딕 정리)

Comment