Study/Lecture - Advance 1

W1.L3. VI - ln P(E) formulation

공부해라이 2023. 6. 30. 16:22

| Variables of Evidence and Hypothesis

$S_1, S_3$ : Latent variable (Hypothesis)

$S_2, S_4$ : Observed (Evidence)

 

우리는 Latent variable 의 분포를 알고 싶은 것

즉 Evidence 를 기반으로 어떠한 Hidden 혹은 Hypothesis 를 Estimate 하는 과정

 

Hidden 에 대해서 Marginalization 시켜서 Evidence 에 대한 확률을 계산

$$P(E) = \sum_{H} P(H, E) = \sum_{H} P(S) $$

 

Joint probability $P(S)$ 는 $i$ 라고 하는 전체 모델의 요소

$$P(S) = P(S_1) \cdot P(S_2 \mid S1, S3) \cdot P(S_3) \cdot P(S_4 \mid S_3)$$

 

 

우리가 알아내고 싶은 확률:

Evidence 가 Given 일 때 아직 알려지지 않은 Hidden 에 대한 확률

$$P(H \mid E) = \frac{P(H, E)}{P(E)} $$

 

계산하기 위해서는 $P(H,E)$ 그리고 $P(E)$ 필요

 

그런데 Evidence 에 대한 확률 계산이 쉽지 않겠죠

왜냐하면 위 수식에서 Hidden 에 대한 전체적인 marginalization 필요하니까

 

그래서 우리는 $P(E)$ 라는 것을 Approximation 해볼 생각 

어떻게 Approximation 하는지 살펴보자.

 

 

 

| Setting the Minimum Criteria

$Q(H \mid E)$ 를 introduce 해서 Jenson's Inequality 적용

$P(H, E) = P(E \mid H) \cdot P(H)$ ... 전개

 

EM 알고리즘 할 때 

KL divergence 줄여주는 방향으로 타이트하게 붙여버려서 $\textup{ln} P(E)$ 와 같아지게 유도

(Minimizing KL divergence → Finding the true $\textup{ln} P(E)$

 

즉 $Q(H \mid E)$ 와 $P(H)$ 가 같은 Distribution 이 되도록 만들어주는 것

 

 

| Detour: Probability Decomposition

 

$$Q(\theta, q) = E_{q(Z)} \textup{ln} P(X, Z \mid \theta) + H(q)$$

$\theta$ optimization / 그리고 $Z$ assignment ... 반복

 

 

 


Reference
문일철 교수님 강의 
https://www.youtube.com/watch?v=T6hq5yIonqs&list=PLbhbGI_ppZIRPeAjprW9u9A46IJlGFdLn&index=3