Random Variable
표본 공간을 어떤 목적에 따른 실수에 대응 시켜주는 함수를 확률 변수라고 한다.
그리고 이 실수들을 맞는 확률값에 대응시켜준 것을 확률 분포라고 한다.
Conditional Probability
\[P(\text{A}|\text{B}) = \frac{P(\text{A} \cap \text{B})}{P(B)}\]
Partion theorem
\[P(\text{B}) = \Sigma_{i}P(\text{B|A}_i) \times P(\text{A}_i)\]
Probability Density Function
- 한국남자의 키
\[P(\text{a}\le \text{x}\le \text{b}) = \int_{a}^{b}{f(x)dx}\]
\[\frac{1}{\sigma\sqrt{2\pi}}
e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\]
Probability Mass Function
- 주사위 눈의 수
\[P(a \le X \le b)
= \sum_{x=a}^{b} p(x)\]
Expectation of Discrete Random Variable
\[\mathbb{E}[X] = \sum_x x \, P(X=x)\]
Expectation of conditional probability
- Y조건이 무었이냐에 따라 기댓값이 달라진다.
\[\mathbb{E}[\text{X}|\text{Y}=y] = \Sigma_x \text{x}\cdot P(\text{X}=x|\text{Y}=y)\]
Law of total Expectation
\[\mathbb{E}[\mathbb{E}[\text{X}|\text{Y}] = \mathbb{E}[\text{X}]\]
CTL: Central Limit Theorem
- 표본의 크기가 커지면 커질 수록 표본평균의 분포는 모평균을 중심으로 하는 정규분포를 따른다.
- 단, 이러한 데이터들은 independent identical distribution을 만족해야 한다.
\[\frac{\sqrt{n}(\bar{X}_n - \mu)}{\sigma}\;\xrightarrow{d}\;\mathcal{N}(0,1)\quad (n \to \infty)\]
Random Walk
\[\text{Set } X_0 = 0 \\ W_t =\begin{cases}\ \ \ 1, & \text{(go forward)} \\-1, & \text{(go backward)}\end{cases}\]
\[X_n = \text{position after } n \text{ steps} \\
X_n= X_0 + \sum_{i=1}^{n} W_i= X_{n-1} + W_n
\begin{cases}P(X_n = j \mid X_{n-1} = j-1) = p, \\P(X_n = j \mid X_{n-1} = j+1) = q.\end{cases}\]
Stochastic Process
확률과정 X(t)는 시간 t에 따라 변하는 확률변수들의 집합, 이때의 다 다른 확률변수에 대응하는 분포는 다 다를 수도, 같을 수도 있다.
\[X(t) = \{ X(t) \mid{t}\in T \}\]
Discrete Time & State
\[T = \{t_0,\ t_1,\ t_2,\ \ ... \}\\X(t) \rarr S = \{S_1,\ S_2 , ... \ S_n \} \]
Markov Chain(Markov Process)
- Markov Property: 지금 상태(\(S_t\))는 이전상태(\(S_{t-1}\))만 영향을 미친다.
\[P(x_{n + 1} | x_{n}, x_{n-1}, \ldots , x _ { 0 } ) = P( x _ { n + 1 } | x _ { n } )\]
Markov Process
- 시간에 따라 상태가 변화는 확률과정 중에서, Markov Property를 만족하는 확률변수의 열을 말한다.
\[S = \{S_1,\ S_2,\ S_3 \ ...\ ,\ S_n\}\]
Transition Matrix
\[P =\begin{pmatrix}p_{11} & p_{12} & \cdots & p_{1m} \\p_{21} & p_{22} & \cdots & p_{2m} \\\vdots & \vdots & \ddots & \vdots \\p_{m1} & p_{m2} & \cdots & p_{mm}\end{pmatrix}\\p_{ij} \ge 0, \qquad \sum_{j=1}^{m} p_{ij} = 1
\]
\[p^{(0)} =\begin{pmatrix}p_1^{(0)} & p_2^{(0)} & \cdots & p_m^{(0)}\end{pmatrix}, \ p^{0}_j=p(X_0 = j)\\ p^{(1)} =\begin{pmatrix}p_1^{(1)} & p_2^{(1)} & \cdots & p_m^{(1)}\end{pmatrix}, \ p^{1}_j=p(X_1 = j)\\ p^{(2)} =\begin{pmatrix}p_1^{(2)} & p_2^{(2)} & \cdots & p_m^{(2)}\end{pmatrix},\ p^{2}_j=p(X_2 = j)\\ \cdot \\ \cdot \\ \cdot \\ p^{(n)} =\begin{pmatrix}p_1^{(n)} & p_2^{(n)} & \cdots & p_m^{(n)}\end{pmatrix}, \ p^{n}_j=p(X_n = j)\]
- \(X_1\)이 \(j\)일 확률을 구해보자
\[p^{1}_{j} = p_1^{(0)}\, p_{1j}+ p_2^{(0)}\, p_{2j}+ \cdots+ p_m^{(0)}\, p_{mj}\]
Chapman-Kolmogorov Equation
- 미래시점(n+m)의 확률을 구할 때 처음(0)에서 부터 한 스탭씩 전이확률을 반복해서 계산할 수도 있지만, 처프만-콜모그로프 방정식을 이용하면 중간지점 n까지의 전이확률과 이후 m스텝 동안의 전이확률을 곱해서 n+m시점의 확률을 계산할 수 있다.
\[P^{(n)}= P^{(0)}P^{n} = P^{n-1}P\]
Limiting Distribution
- 처음 어떤 상태( \(P^{(0)}\))로 시작했는지와 상관없이 시간이(\(\text{step n} \rarr \infin\)) 무한히 흐르면 도달하게 되는 확률분포
- \(n \rarr \infin\)갔을 때 값이 존재해야 한다.
\[P^{\infin}=P^{(0)}\lim_{n \rarr \infin}P^{(n)}\]
Example: Weather
\[S = \{ 1 = \text{Sunny},\; 2 = \text{Cloudy} \}, \ \
P =\begin{pmatrix}\frac{2}{3} & \frac{1}{3} \\\frac{1}{2} & \frac{1}{2}\end{pmatrix}\]
\[p_{11} = P(\text{Sunny} \to \text{Sunny}) = \frac{2}{3}, \quad p_{12} = P(\text{Sunny} \to \text{Cloudy}) = \frac{1}{3}\]
\[p_{21} = P(\text{Cloudy} \to \text{Sunny}) = \frac{1}{2}, \quad p_{22} = P(\text{Cloudy} \to \text{Cloudy}) = \frac{1}{2}\]
Stationary Distribution
- 기존 상태분포는 초기상태분포와 Transition Matrix의 영향을 받았다. 원래는 시간이 흐를수록(n-step) 상태분포가 계속 변해야 정상이지만 T.M.(Transition Matrix)의 특성과 맞아 떨어지는 어떤 상태분포로 시작했다면 시간이 흘러도 상태분포가 변하지 않는다.
- 이 특성과 맞아 떨어지는 확률상태 분포를 정상분포라고 한다.
\[\pi_{1}+\pi_{2}+\pi_{3}+ \cdot\cdot\cdot \ + \pi_{n} = 1\]
\[\pi p = \pi\]
Reducible & Irreducible
- Reducible: 상태가 분리되어 오갈 수 없는 경우가 존재
- Irreducible: 모든 상태가 서로 오갈 수 있음
Recurrent & Transient
- 서로 Communicate(i↔j)하는 상태들은 같은 Communication class에 잇고, 그 class에 속한 상태들은 전부
recurrent하거나transient하다.
\[f_{ij}^{(n)}=P\bigl(X_n = j,\;X_r \neq j \ (r=1,\ 2,\ 3,\ n-1)\mid X_0 = i\bigr)\]
\[\sum_{n=1}^{\infty} f_{ij}^{(n)}=P\bigl(\text{X}_0 = i \text{에서 출발해 언젠가 상태 } j \text{에 도달할 확률}\bigr)=f_{ij} \]
\[\sum_{n=1}^{\infty} f_{ii}^{(n)}=f_{ii} \ \begin{cases}f_{ii} = 1, & \text{상태 } i \text{는 recurrent 상태} \\[6pt]f_{ii} < 1, & \text{상태 } i \text{는 transient 상태}\end{cases}\]
Markov Chain의 Ergodic Theorem(에르고딕 정리)
- 충분히 시간이 지나면 초기 상태와 무관하게 상태분포는 하나의 고정된 분포로 수렴한다.
- 이 결과가 성립하려면 아래 3가지 조건을 만족해야한다.
- irredicible: 모든 상태가 연결되어 있다.
- Recurrent: 모든 상태에 언젠가 다시 되돌아온다.(1조건이 만족하면 2조건도 자동으로 만족)
- Aperiodic(비주기성): 주기(1 → 2 → 1 → 2)가 없어야 한다.
Comment