W2.L6-9. Simple Example Model
Problem Definition
Evidence $x_i$ 라는 것이 관측되어있을 때 Latent $\mu, \tau $ 는 어떻게 될 것인가? 추론해보는 과정
Mean Field V.I.
잘 모르는 Hidden에 대해서 곱셈이라 가정 - Dependency 다 제거하고 모든 Latent가 Independent 가정
곱셉으로 Joint 만들어서 모델을 결정
개별 $\lambda$ 를 잘 잡아서! "곱셈 형태의 Joint" 가 "원래의 Distribution" 과 최대한 유사하게 만들어보겠다!
$ \text{ln} \ q_{i}^{*} (H_{i} \mid E, \lambda_{i} ) = \text{ln} \ \tilde{P}(H, E \mid \theta) = E_{q_{i\neq j}} \left [ \text{ln} \ P(H, E \mid \theta) \right ] + C $
$Q$ 의 각 Element 가 되었던 하나하나의 Random Var.에 대응되는 V. Distribution '$q_{i}$' 의 Log Likelihood 는
그 특정 V. Distribution 이외의 변수에 대해서 H 그리고 E Joint 의 Expectation 한 것과 같다
그러면 Expectation과 Joint의 Log Likelihood를 알아야 한다!
$ Q(H \mid E, \lambda) = Q(\mu, \tau \mid X, \mu^{*}, \tau^{*}) = q(\mu \mid X, \mu^{*})\cdot q(\tau \mid X, \tau^{*}) $
$Q$ 는 이제 Evidence가 Given인 상황
Evidence가 주어지고, Variational Param. $\mu^{*}, \tau^{*}$ 주어졌을 때 $\mu$ 그리고 $\tau$ 의 분포
1. Hidden $\mu$, $\tau$ 를 Estimation 하고
2. 원래 모델에 맞도록 Parameter 업데이트 하고
3. 업데이트 된 것을 가지고 또 다시 Variational Distribution을 업데이트 하고 ...
Optimization of $q$
하고자 하는 것은 Variational Distribution을 최대한 $P$에 근사하는 것!
Log Likelihood Var. Dist.은 특정한 Var. Param 이외의 다른 Var. Dist.의 Random Var.에 대해서 Marginalized Expectation!
현재 문제에서 Latent는 $\mu, \tau$ 오직 2 가지니까 ... $\mu$ 하나 잡으면 나머지는 $\tau$
$q_{\mu}$ 에 대해서 variational parameter optimization 과정
... $\tau$ 는 $\mu$ 에 대해 constant term
... $\mu$ 관점으로 정리하면 Quadratic Form!
... Log Likelihood에서 Quadratic Form ... Normal Distribution 형태!
$q$ 확률 밀도함수의 모양에 대해서 결정한 것이 없기 때문에 ... normal distribution 형태로 가정!
참고로 ... $P(\mu \mid \tau)$ 의 경우 $\tau$ 의 영향 ... $q_{\mu}$ 의 경우 $\tau$ 가 아닌 Evidence $x_{i}$ 정보를 받는 형태
Normal distribution을 구성하는 두 파라미터 Mean, Variance 정리
Mean, Variance 를 이루는 것들 중 ...
$\lambda_{0}, \mu_{0}, N, \sum x_{i}$ 모두 알 수 있지만 ... $E_{\tau}\left [ \tau \right ]$ 는 모르네 ...
그럼 $\tau$ 에 대해서도 한 번 정리해봐야겠다!
$\tau$ 이외의 것들은 constant term으로 정리
정리해보니 ... $q_{\tau}^{*} (\tau)$ 가 Gamma Distribution 형태!
Gamma Dist. 의 두 파라미터 $k$ 와 $\theta$ 정리
나머지 변수들은 다 아는데 ... $E(\mu)$ 와 $E(\mu^{2})$ 알아야 함
Hidden Variables 끼리 Coordinated 관계 ... 하나씩 최적화하는 것을 반복하는 형태
Gamma Dist. → $E\left [ \tau \right ]$ 계산
Normal Dist. → $E\left [ \mu \right ]$, $E\left [ \mu^{2} \right ]$ 계산
$\lambda^{*}$ 초기값 랜덤하게 선택하고 ... 수렴할 때까지 iterations
7. $q$ Variational Dist.이 최적화되었다. 그 말은 $P$ 를 가장 잘 설명할 수 있는 $q$ 를 구했다는 말
Reference
문일철 교수님 강의
https://www.youtube.com/watch?v=Fz5_YmQS_6c&list=PLzZ7PPT4KK5qpd-1VF4qmFMlpnr1is7Pu&index=43
https://www.youtube.com/watch?v=Fz5_YmQS_6c&list=PLzZ7PPT4KK5qpd-1VF4qmFMlpnr1is7Pu&index=44
https://www.youtube.com/watch?v=Fz5_YmQS_6c&list=PLzZ7PPT4KK5qpd-1VF4qmFMlpnr1is7Pu&index=45
https://www.youtube.com/watch?v=Fz5_YmQS_6c&list=PLzZ7PPT4KK5qpd-1VF4qmFMlpnr1is7Pu&index=46