본문 바로가기

전체 글

(53)
Variational Inference - Summary L01 | Variational Transform 복잡한 함수 → 단순한 형태 Approximation Variational parameter $\lambda$ introduce 하고 이를 잘 조절하여 simplification $$f(x) = min_{\lambda} \left\{ \lambda^{T} x - f^{*}(\lambda) \right\}$$ L02 | Applying to Probability Function 확률도 함수의 형태. Probability distribution function! 복잡한 확률 모델을 우리가 잘 알고 있는 단순한 확률 모델로 Transform! $$ P(S) = \prod_{i} P(S_{i} \mid S_{\pi(i)}) \leq \prod_{i} P^{U} ..
W3.L19-20. LDA Implementation | E step Local Information $\gamma, \phi$ 는 document 마다 Learning 필요 | M step Global Information $\alpha, \beta$ 는 전체 Loop 정보 | LDA Evaluation 잘 만들어졌는지 잘 안만들어졌는지 확인하는 방법 어떤 단어가 어떤 주제에 대해서 얼마만큼 나타났는지 확인 ... Topic 1 ... Word1 이 가장 잘 설명 Topic 2 ... Topic 3 ... Word3 과 Word4 가 가장 잘 설명 $\textup{P}(w_{d, n} \mid \alpha, \beta)$ ... 확률은 매우 작은 값일 것이기 때문에 log likelihood 로 표현 Unsupervised Learning 그러나 supe..
W3.L18. Parameter Optimization of ELBO ELBO 최대화 함으로서 $\alpha$ 와 $\beta$ 를 이용해서 $w$ 를 설명하는 확률을 높이는 것 각각 계산에 필요한 Parameter 관계를 도식해보면 ... Coordinated 관계가 여러 가지 ... (Inner, Outer)
W3.L16-17. Optimization of ELBO ELBO 유도 목적 $\alpha, \beta$ 알아내기 위함 ... 이를 위해서는 $\gamma, \phi$ 도 알아내야 함 유도한 ELBO 최적화를 미분 0 으로 풀어보자 | L16. Derivative $\phi$ 먼저 $\phi$ 미분 $d\phi_{d, n, i}$ ... $d$ (문서 개수), $n$ (등장 단어 개수), $i$ (topic dimension) $\lambda$ 는 무엇인가? $\phi$ 라는 것은 $z$ 를 선택하기 위한 parameter "어떠한 확률" ... Probability simplex 제약조건 더하면 1 제약 조건을 Lagrange Multiplier 형태로 추가 수식 전개 과정에서 $\sum \sum \sum$ ... 각 index 맞는 것만 살아남아서 다 날아..
W3.L14-15. Derivation of the other terms | Derivation of 2nd and 3rd terms 나머지 두 번째, 세 번째 Expectation 유도 | Derivation of the last term 마지막 Entropy $H(q)$ 유도 Mean Field 적용하면 각각 분리 가능 → 앞에서 봤던 1st, 2nd terms 유사한 모양 | ELBO Optimization 가능한 수식으로 유도 완료! Reference 문일철 교수님 강의 https://www.youtube.com/watch?v=X7CAmGbUU9A&list=PLzZ7PPT4KK5qpd-1VF4qmFMlpnr1is7Pu&index=51 https://www.youtube.com/watch?v=X7CAmGbUU9A&list=PLzZ7PPT4KK5qpd-1VF4qmFMlpn..
W3.L12-13. Dirichlet Distribution L12 | Exponential Family ELBO 더 하기 전에 Dirichlet 분포의 특성에 대해 조금 더 알아보자. Dirichlet ... Beta distribution 의 연장선 $ \theta_{i} \sim \textup{Dir}(\alpha) $: $ \theta_{i} $ 라는 것이 이 분포에서 하나 sampling 되어 하나의 경우가 발생 이러한 경우라는 것이 얼마나 자주? 혹은 적게? 발생할 것이냐에 대한 설명이 필요 ... PDF ... $ \textup{P}(\theta_{i} \mid \alpha) $ Dirichlet Dist. 라는 것은 위 조건들을 만족하는 상황에서 정의 Probability Simplex를 잘 만족 ... 이 말은 여기 분포에서 나온 $X$ 는 확률로..
W3.L10-11. Latent Dirichlet Allocation (LDA) L10 | LDA ReviewTopic modeling - Sampling 도 가능, Variational Inference 도 가능 Corpus: document 집합Plate notation - $\alpha, \beta$ : Prior knowledge (Dirichlet Distribution Prior) - $w$ : Observed word - $z$ : 단어들에 대한 topic cluster assignment (TA, 상당히 중요한 역할) - $\theta$ : 문서에 대한 topic assignment (TA, topic distribution in a document) - $N$ : 한 문서에 있는 단어들의 개수 (Ex. 한 문서에 100개 단어, Iterations) - $M$ : 문..
W2.L6-9. 중간 Summary ln P(E) formulation $Q(H \mid E, \lambda) = P(H, E \mid \theta)$ 일 때 $\text{ln} P (E \mid \theta) $ 와 같아진다. 그러니 $Q(H \mid E, \lambda) = P(H, E \mid \theta)$ 를 만족시키는 $ Q(H \mid E, \lambda) $ 를 찾아보자. Q 잡아보기 Example Model 개별 $q_{\mu}$, $q_{\tau}$ 각각 최적화해보면 $q_{\mu}$ ~ Normal Distribution $q_{\tau}$ ~ Gamma Distribution Since the two terms are interlocked, we need a coordinated optimization. (1) $a^..