내 머릿속 데이터베이스

베이지안 이론 (Bayesian Theroy) 이란? 본문

Programming/Bigdata / DataMining

베이지안 이론 (Bayesian Theroy) 이란?

파도소리 2016. 1. 8. 13:38

출처 : http://ddiri01.tistory.com/234

너무 쉽게 정리 요약된 글이 있어 퍼옴.




말도 많고 탈도 많은 베이지안. 

머신러닝 이니 인공지능이니 이런것들이 뜰수록 덩달아 자주 사람들입에 오르 내리는게 베이지안(bayesian) 이다.


수식을 가지고 어렵게 이야기하지만, 기초적인 개념을 소홀히 하고 있는 것 같아, 정리차 포스팅 한다. 


1. 베이지안 확률 (Bayesian Probability)

베이지안 확률이란 무엇인가? 기존에 우리가 알고 있는 확률과는 다른것인가? 

동전을 1000회 던졌을 때, 앞면이 나오는 횟수는 대략  500회 로 기대할수있다. 전통적인 확률 계산은


  


 이렇게 표현한다. 

 일어난 횟수

 전체 시도 횟수


이런 확률론을 frequentist probability, 경험 확률 라고 한다. 일정한 확률로 반복시행이 충분히 가능한 많은 경우가 이에 해당된다.


그러면, A라는 도시에서 철수라는 아이가 태어났는데 이 아이가 노벨상을 받을 확률은 얼마나 될까? 이 확률을 빈도확률로 이야기 하기 위해서는 이 아이를 여러번 살게 시키고 그중에 몇 번 노벨상을 받았는가를 평가 해야 한다. 또는 이와 동일한 아이가 전세계에 몇명이 있는지 파악하고, 몇명이 커서 노벨상을 받았는가를 평가해야 하는데, 동일한 유전자, 동일한 환경에서 자란 아이란 있을 수 없음으로 불가능 하다 하겠다. 

이런경우, 베이지안 확률론으로 이야기 해야 되는데, 이것은 일어나지 않은 일에 대한 확률을 불확실성(uncertainty)의 개념으로 이야기 해야 한다. 


즉, 이 사건과 관련있는 어려가지 확률을 이용하여 새롭게 일어날수있는 사건에 대한 추정 을 하는것이라 하겠다. 

따라서 이러한 일들을 베이즈 이론, Bayesian theory, 베이즈 추론 Bayesian inference 등으로 말하는 것이다. 



2. 베이지안 이론(Bayesian Theory)

베이즈 법칙(Bayesian Law)  또는 베이즈 이론(Bayesian Theory) 를 간단히 말하자면 사전확률 p(A)우도확률 p(B|A)를 안다면 사후확률 p(A|B)를 알 수 있다는 것이다. 


이해 하기 쉽게 한가지 예를 들자면, 

어떤 청바지가 적재되는 청바지 창고가 있다. 사장이 와서 이 창고의 청바지 하나를 골라서 살펴보았는데 이 청바지 불량이었다. 

그런데 이 창고의 청바지는 구미 , 청주, 대구 3군데 공장에서 생산되어서 운송되어져 온다. 그렇다면 이 불량 청바지는 어떤 공장에서 생산된 것일까? 

이미 사건이 일어났고(창고의 불량 청바지), 사건발생의 원인에 대한 확률(사후확률, 이 창고의 불량 청바지는 어떤 공장에서 불량생산되어 온것일까?) 을 사건발생전에 이미 알고 있는 정보(사전확률, 구미, 청주, 대구 공장의 불량률)을 이용하여 구하는 것이라 하겠다. 


* 정리 *

- 사후확률 분포 : 사건 발생후 그 사건의 원인이 발생 할 수 있는 사건이 무엇인지 추정하여 그 가능성을 나타내는 변수의 붆포를 의미

- 사전확률 분포 : 사건발생 전 사건의 원인이 될 수있는 사건들에 대한 분포


수식을 통해 보면, 



결과 B (창고에서 불량 청바지가 발견) 을 발생시키는 원인들이 A1(구미공장 불량), A2(청주공장불량), A3(대구공장불량)라 한다. 

사전확률 P(A1), P(A2) , P(A3)와 우도확률 (Likelihood) P(B|A1) , P(B|A2), P(B|A3) 는 이미 알려져 있다고 하자. 


위 수식은 결과 B가 발생했는 조건 하에서 원인 Ai가 발생하였을 확률을 구하는 것이다. 




위 와 같이 P(A|B) = p(A & B) / P(B) 가 P(A|B) = P(A)P(B|A)/P(B) 로 정의 되어 질 수 있는데,

이는 아래와 같이 순서를 바꿔서 적을 수 있다. 



P(A)가 구미공장에서 생산되는 청바지의 불량률이라고 하고, 

P(B)가 물류 창고에서 불량 청바지가 발생하하는 확률이라고 하자. 


특정사건에 대한 기존의 불확실성인 P(A),(구미공장에서 생산되는 청바지의 불량률) 에 추가적인 단서 B가 발생함에 따라, P(B| A)/P(B) 라는 수치가 P(A)에 곱해진다. 그 결과 P(A|B)라는 조건부 확률의 모양으로 업데이트 되는 것이다. 


여기서 P(A|B)는 사후확률 Posterior 또는 Posterior belief

P(A)는 Prior, 또는 prior belief

P(B)는 Evidence

P(B|A)는 Likelihood라고 한다. 


P(B)는 단순히 상수개념이기 때문에 전체식에서 무시해도 이해하는데 무방하다.. 


다시 해석해 보면,, 

특정사건A의 확률에 대해서 기존에 가지고 있던 확률값은 Likelihood인데, 해당사건이 일어난 상황에서 (B), 주어진 데이터가 관찰될 확률 P(B|A) 가 높을 수록 더 높은 posterior로 업데이트 된다고 말 할 수 있다.

Comments