정보

    • 업무명     : 확률분포 : 정규분포

    • 작성자     : 박진만

    • 작성일     : 2020-04-09

    • 설   명      :

    • 수정이력 :

     

     내용

    [개요]

    • 가설 검정 또는 수리 모델링 등으로 사용되는 확률 변수는 뭔가의 확률 분포에 따르는 것으로 가정되어 있다.

    • 대표적인 확률 분포는 정규 분포, 이항 분포와 포아송 분포 등이 있다.

     

     

    [특징]

    • 통계이론 설명

     

    [활용 자료]

    • 없음

     

    [자료 처리 방안 및 활용 분석 기법]

    • 없음

     

    [사용법]

    • 내용 참조

     

     

     상세 내용

    [정규분포]

    • 확률 함수 X가 평균 μ, 분산 σ ^2 인 정규 분포를 따를 때 그 확률 밀도 함수는 아래와 같이 나타낼 수 있다.

    \[f\left(X ; \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left(-\frac{(X-\mu)^{2}}{2 \sigma^{2}}\right)\]

     

    [정규 분포와 평균]

    • 쥐의 체중과 식물의 길이 등을 측정하여 얻은 데이터에서 어떤 특징을 발견하려면, 그 데이터의 분포의 중심을 찾게 된다.

    • 분포의 중심으로 평균 중앙값, 최빈값 등 다양한 지표를 구할 수 있다.

    • 특히 이 중에서도 평균이 가장 자주 ​​이용된다. 

    • 평균치를 잘 이용하는 것은 평균값이 (정규 분포를 따른다고 가정할 때) 데이터의 분포의 중심을 나타내는 지표로서 기능하기 때문이다.

    • 예를 들어, n 개의 관측 값 \(x_{1}, x_{2}, \ldots, x_{n}\) 이 있다고 가정하자.

    • 이 때 n 개의 데이터가 같은 정규 분포 N (μ, σ)를 따르는 경우 \(x_{1})\이 관측 될 확률은 정규 분포의 밀도 함수 \(\phi\left(x_{i}\right)\)에 의해 쓰여질 수 있다.

    \[\varphi\left(x_{i}\right)=\frac{1}{\sqrt{2} \pi \sigma} \exp \left(-\frac{1}{2}\left(\frac{x_{i}-\mu}{\sigma}\right)^{2}\right)\]

    • 여기서 \(x_{1}, x_{2}, \ldots, x_{n}\)이 동시에 관측 될 확률을 L 로 두는 경우 L은 다음과 같이 쓰여질 수 있다.

    \[L=\prod_{i=1}^{n} \varphi\left(x_{i}\right)=\prod_{i=1}^{n} \frac{1}{\sqrt{2} \pi} \exp \left(-\frac{1}{2}\left(\frac{x_{i}-\mu}{\sigma}\right)^{2}\right)\]

    • 실제로 L을 실제로 계산하려는 경우 매우 시간이 걸리기 때문에, 이를 대수화 시킨다. (로그화 수행)

    \[\begin{aligned}
    \ln (L) &=\sum_{i=1}^{n} \log \left(\frac{1}{\sqrt{2} \pi} \exp \left(-\frac{1}{2}\left(\frac{x_{i}-\mu}{\sigma}\right)^{2}\right)\right) \\
    &=n \ln \left(\frac{1}{\sqrt{2} \pi}\right)-\frac{1}{2} \sum_{i=1}^{n}\left(\frac{x-\mu}{\sigma}\right)^{2}
    \end{aligned}\]

    • 그리고 로그 우도에 해당하는 ln(L)을 확대하는 파라미터 μ를 구한다. 즉 ln (L)을 μ 대해 미분한다.

    \[\frac{d \ln (L)}{d \mu}=0 \Longleftrightarrow \sum_{i=1}^{n} \frac{\left(x_{i}-\mu\right)}{\sigma^{2}}=0\]

    • 따라서 ln (L)를 확대하는 μ는,

    \[\sum_{i=1}^{n} \frac{\left(x_{i}-\mu\right)}{\sigma^{2}}=0 \Longleftrightarrow \mu=\frac{1}{n} \sum_{i=1}^{n} x_{i}\]

    • 여기서 최대 가능성은 데이터가 정규 분포를 따를 때, 데이터의 중심을 나타내는 지표로서 평균이 가장 어울리는 것으로 증명된다. 

    • 따라서 쥐의 체중 등 데이터의 특징을 계산할 때, 평균 등을 사용하기도한다. 이로부터 알 수 있듯이 데이터가 정규 분포가 아닌 경우, 평균값이 어울리지 않을 수 있다.

     

     

     

     

     

     

     

     

     

     

     참고 문헌

    [논문]

    • 없음

    [보고서]

    • 없음

    [URL]

    • 없음

     

     문의사항

    [기상학/프로그래밍 언어]

    • sangho.lee.1990@gmail.com

    [해양학/천문학/빅데이터]

    • saimang0804@gmail.com

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    본 블로그는 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음
    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기