정보

    • 업무명     : 베이지안 통계학:  사전 분포

    • 작성자     : 박진만

    • 작성일     : 2020-04-18

    • 설   명      :

    • 수정이력 :

     

     내용

    [개요]

     

    [특징]

    • 통계이론 설명

     

    [활용 자료]

    • 없음

     

    [자료 처리 방안 및 활용 분석 기법]

    • 없음

     

    [사용법]

    • 내용 참조

     

     

     상세 내용

    [사전 분포]

    • 베이즈 추론에서는 사전 분포를 결정하는 것으로부터 시작된다. 

    • 사전 분포는 과거의 문헌, 여분 데이터와 경험에서 대략적인 분포를 알고있는 경우, 그러한 분포를 이번 사전 분포로 사용할 수있다.

    • 그러나 수집하고자 하는 선행 연구에서 데이터 수집 방법과 분석 목적이 이번이 실험 데이터 수집 방법 및 분석 목적과 일치하는지 여부를 확인할 필요가있다.

    • 한편, 사전 분포에 대해 전혀 정보가 없는 경우는, 무 정보 사전 분포가 사용된다. 

    • 다만,이 무 정보 사전 분포의 무 정보에 대한 정의가 어렵  때문에 현재는 균일 분포 어원 사전 분포, Jeffreys 사전 분포 등의 일부 무정보 사전 분포가 제창되고있다. 

    • 어떤 무정보 사전 분포가 최적인지는 알려져 있지 않다.

    • 실용상 몇 가지 사전 분포를 시도하고 추정 결과가별로 변하지 않으면 좋은 것으로 알려져 있다.

     

    [무정보 사전 분포]

    • 무정보 사전 분포는 사전 정보가없는 경우나 사전 분포를 설정함에  있어서 근거가없는 경우 등에 사용된다. 

    • 무정보 사전 분포로 균일한 분산 사전 분포와 Jeffreys 사전 분포 등이 사용된다.

     

    [균일한 분포]

    • 베이 즈 추론은 다음 식에 따라 진행된다.

     

     

    • 이 표현식에서 분모는 매개 변수 θ를 포함하지 않는 상수이다. 

    • 또한 사전 분포로 균일 한 분포를 이용한 경우 베이지안 추정 식에 나타나있는 w (θ)의 값을 일정으로 간주 될 수있다. 

    • 예를 들면, 주사위를 굴리는 시도에서 무정보 사전 분포로 각 눈이 나올 확률을 일정한 값으로 가정 할 수 있다.

    •  즉, w (1) = w (2) = ... = w (6) = 1/6이 된다. 

    • 이때, 베이 즈 추론은 다음과 같은 간단한 식으로 추정 할 수 있게 된다.

     

     

    • 이 때, 베이지안 추정에 의해 추정 된 사후 분포의 최빈값 (MAP 추정치)는 최대 가능성 추정치와 같은 값이다.

    • 그러나 무정보 사전 분포로 균일 한 분포를 사용하면 두 가지 문제가 있다. 

    • 첫 번째 문제점은 매개 변수의 정의역에 관한 문제이다. 주사위를 굴려 시도의 경우 확률 변수의 가능한 값은 1에서 6까지의 변수에 해당 균일 한 분포는 1/6이 될 수 쉽게 계산할 수있다. 

    • 그러나 연속 형 확률 변수 θ가 정의역 -∞ <θ <∞ 일 때,이 확률 변수 θ에 대해 균일 한 분포를 정의 할 수 없게 된다.

    • 또 다른 문제는 매개 변수 변환에 대한 불변성에 관한 문제이다. 

    • θ에 대해 사전 정보가없는 경우, θ^2 관해서도 사전 정보가 없다. 즉, θ에 관해서 무 정보 사전 분포를 채용했다면, θ^2 역시 무정보 사전 분포이어야 한다. 

    • 그러나 실제로는 무 정보 사전 분포로 균일 한 분포를 선택할 때, 이것이 이루어지지 않게된다.

    • 예를 들어, 이항 분포를 따르는 확률 변수 X를 생각할 때, X 값은 확률 θ (0 <θ <1)에 따라 다르다. 이 때, θ의 사전 분포로, 0 <θ <1의 범위에서 균일 한 분포를 선택할 수 있다. 

    • 여기서, φ = θ^2 에 착안하면 φ의 누적 분포 함수 F φ (t)는 다음과 같이 계산할 수있다.

     

     

    • 누적 분포 함수를 미분하면 확률 밀도 함수 (분포)를 얻을 수 있으므로, φ의 분포는 다음과 같이 계산된다.

     

     

    • 이렇게 φ의 분포는 균일하지 않게된다. 무정보를 종전과 같이 정의하여 θ의 사전 분포로 균일 한 분포를 채택하였으나, θ^2 의 분포가 균일하지 않으며 어떠한 주관적인 사전 분포가 되게 된다.

    • 즉, θ에 대해 아무것도 모르지만, θ^2 에 대해 뭔가를 알고 있다는 모순적인 상황이 된다.

    • 실용적인 예를 들면, 확률 데이터 또는 비율 데이터 베이 즈 추론 할 때 이런 상황이 일어난다. 확률 p (0 ≤ p ≤ 1)에서 관측되는 변수 X에 대해 생각했을 때, 확률 p에 대한 베이지안 추정 식은 다음과 같이 쓸 수 있다.

     

     

    • p는 확률이므로 일반적으로 확률을 추정 할 때 p를 그대로 이용하는 것이 아니라,\(\frac{p}{1-p}\) 모양 (오즈 비)로 사용된다. 즉, 베이지안 추정 식에서 우도 함수 f (x | p) 내에서 p는 \(\frac{p}{1-p}\)의 형태로 사용되고있다. 

    • 여기서 p 사전 분포 w (p)로 무 정보 사전 분포의 균일 한 분포를 채용하면 우도 함수 f (x | p)에서 사용되고 있는\(\frac{p}{1-p}\) 균일 분포이다. 

    • 따라서 베이지안 추정 된 사후 분포 w '(p | x)는 주관적인 정보가 들어가 버리는 결과가 된다.

    • 이러한 문제점을 피하기 위해 매개 변수 θ의 사전 분포 w (θ)을 균일하게 분산하는 것이 아니라, 가능도에서 사용되는 매개 변수의 형태 φ = g (θ)를 일정 분포가되도록 사전 분포를 결정하는 방식을 취할 수있다. 

    • 즉, w (θ)을 균일하게 분산하는 것이 아니라, w (g (θ))를 균일하게 분포 시킨다. 

    • 이러한 접근 방식으로 여러 가지 방법이 제창되고 있으며, Jeffreys 사전 분포 등이 있다.

     

    [공액 사전 분포]

    • 베이 즈 추론은 다음 식으로 나타낼 수있다. 이 식의 형태에서 사전 분포가 복잡하면 사후 분포의 계산도 복잡해지기 알 수있다. 

    • 그래서 우도 함수 f (z | θ)의 형태를보고, f (z | θ)의 사전 분포 함수 w (θ)를 걸면 사후 분포 w '(θ | z)의 형태가 쉽게 되도록하면 베이지안 추정의 사후 분포의 계산이 간단하게 된다.

     

     

    • 그 방법의 하나로서 사전 분포로있는 확률 분포 g를 선택하고 우도 함수 f에 걸린 경우 그 사후 분포도 g의 형태로 나타낼 수 있도록 하여 확률 분포 g를 선택하기위한 것이다. 실제로 이러한 확률 분포 g가 일부 존재하는 것으로 알려져 있다.

     

     

     참고 문헌

    [논문]

    • 없음

    [보고서]

    • 없음

    [URL]

    • 없음

     

     문의사항

    [기상학/프로그래밍 언어]

    • sangho.lee.1990@gmail.com

    [해양학/천문학/빅데이터]

    • saimang0804@gmail.com

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    본 블로그는 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음
    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기