본문 바로가기

Study/Lecture - Basic

W4.StatQuest. MLE, Gaussian Naive Bayes

| MLE

 

Mouse 몸무게를 측정한 데이터가 존재

 

Mouse 몸무게 데이터를 가장 잘 표현할 수 있는 Distribution 찾는 방법

만약, Gaussian Distribution 으로 가정한다면, 평균과 분산을 찾는 과정

(평균 1 일 때 Likelihood, 평균 2 일 때 Likelihood, .... 옮겨가며 Likelihood 가 최대값이 되는 지점을 찾음)

(분산도 마찬가지로 찾음)

 

이를 통해 데이터를 가장 잘 설명하는 Parameters 를 찾음으로써 Distribution 을 찾을 수 있음

 

Reference. StatQuest. https://www.youtube.com/watch?v=XepXtl9YKwc

 

 

 

| Naive Bayes

 

메일함 속 Normal, Spam 메일들이 존재

Normal 메일들 중 Dear, Friend, Lunch, Money 가 포함된 메일의 확률 계산

Spam 메일들 중 Dear, Friend, Lunch, Money 가 포함된 메일의 확률 계산

 

만약 어떤 메일에서 "Dear Friend" 가 포함되었을 때 이 메일이 Normal 인지 Spam 인지 구분

 

 

Reference. StatQuest. https://www.youtube.com/watch?v=O2L2Uv9pdDA&t=553s

 

 

| Gaussian Naive Bayes

 

"영화를 좋아하는 사람들" 에 대한 팝콘, 소다, 캔디 섭취량의 가우시안 분포

"영화를 좋아하지 않는 사람들" 에 대한 팝콘, 소다, 캔디 섭취량의 가우시안 분포

 

어떤 새로운 사람 등장: 팝콘 20 / 소다 500 / 캔디 25

 

영화를 좋아하는 사람들의 분포에 대한 Likelihood 계산 x Prior 정보 ... Log sum: -124

영화를 좋아하지 않는 사람들의 분포에 대한 Likelihood 계산 x Prior 정보 ... Log sum: -48

(Log sum: 너무 작은 계산값에 대한 보상방법)

 

계산 결과 -124 < -48 로 이 사람은 "영화를 좋아하지 않는 사람" 일 것이다. 

 

Candy 섭취량이 Dominant 하게 작용한 결과 (Candy 가 Popcorn, Soda 보다 Dominant 하게 작용)

 

 

 

 

Reference. StatQuest.&nbsp;https://www.youtube.com/watch?v=H3EjCKtlVog&t=160s