[통계이론] 확률분포 : 정규분포

 정보

  • 업무명     : 확률분포 : 정규분포

  • 작성자     : 박진만

  • 작성일     : 2020-04-09

  • 설   명      :

  • 수정이력 :

 

 내용

[개요]

  • 가설 검정 또는 수리 모델링 등으로 사용되는 확률 변수는 뭔가의 확률 분포에 따르는 것으로 가정되어 있다.

  • 대표적인 확률 분포는 정규 분포, 이항 분포와 포아송 분포 등이 있다.

 

digital-marketing-1433427_1280 (1).jpg

 

[특징]

  • 통계이론 설명

 

[활용 자료]

  • 없음

 

[자료 처리 방안 및 활용 분석 기법]

  • 없음

 

[사용법]

  • 내용 참조

 

 

 상세 내용

[정규분포]

  • 확률 함수 X가 평균 μ, 분산 σ ^2 인 정규 분포를 따를 때 그 확률 밀도 함수는 아래와 같이 나타낼 수 있다.

\[f\left(X ; \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left(-\frac{(X-\mu)^{2}}{2 \sigma^{2}}\right)\]

 

[정규 분포와 평균]

  • 쥐의 체중과 식물의 길이 등을 측정하여 얻은 데이터에서 어떤 특징을 발견하려면, 그 데이터의 분포의 중심을 찾게 된다.

  • 분포의 중심으로 평균 중앙값, 최빈값 등 다양한 지표를 구할 수 있다.

  • 특히 이 중에서도 평균이 가장 자주 ​​이용된다. 

  • 평균치를 잘 이용하는 것은 평균값이 (정규 분포를 따른다고 가정할 때) 데이터의 분포의 중심을 나타내는 지표로서 기능하기 때문이다.

  • 예를 들어, n 개의 관측 값 \(x_{1}, x_{2}, \ldots, x_{n}\) 이 있다고 가정하자.

  • 이 때 n 개의 데이터가 같은 정규 분포 N (μ, σ)를 따르는 경우 \(x_{1})\이 관측 될 확률은 정규 분포의 밀도 함수 \(\phi\left(x_{i}\right)\)에 의해 쓰여질 수 있다.

\[\varphi\left(x_{i}\right)=\frac{1}{\sqrt{2} \pi \sigma} \exp \left(-\frac{1}{2}\left(\frac{x_{i}-\mu}{\sigma}\right)^{2}\right)\]

  • 여기서 \(x_{1}, x_{2}, \ldots, x_{n}\)이 동시에 관측 될 확률을 L 로 두는 경우 L은 다음과 같이 쓰여질 수 있다.

\[L=\prod_{i=1}^{n} \varphi\left(x_{i}\right)=\prod_{i=1}^{n} \frac{1}{\sqrt{2} \pi} \exp \left(-\frac{1}{2}\left(\frac{x_{i}-\mu}{\sigma}\right)^{2}\right)\]

  • 실제로 L을 실제로 계산하려는 경우 매우 시간이 걸리기 때문에, 이를 대수화 시킨다. (로그화 수행)

\[\begin{aligned}
\ln (L) &=\sum_{i=1}^{n} \log \left(\frac{1}{\sqrt{2} \pi} \exp \left(-\frac{1}{2}\left(\frac{x_{i}-\mu}{\sigma}\right)^{2}\right)\right) \\
&=n \ln \left(\frac{1}{\sqrt{2} \pi}\right)-\frac{1}{2} \sum_{i=1}^{n}\left(\frac{x-\mu}{\sigma}\right)^{2}
\end{aligned}\]

  • 그리고 로그 우도에 해당하는 ln(L)을 확대하는 파라미터 μ를 구한다. 즉 ln (L)을 μ 대해 미분한다.

\[\frac{d \ln (L)}{d \mu}=0 \Longleftrightarrow \sum_{i=1}^{n} \frac{\left(x_{i}-\mu\right)}{\sigma^{2}}=0\]

  • 따라서 ln (L)를 확대하는 μ는,

\[\sum_{i=1}^{n} \frac{\left(x_{i}-\mu\right)}{\sigma^{2}}=0 \Longleftrightarrow \mu=\frac{1}{n} \sum_{i=1}^{n} x_{i}\]

  • 여기서 최대 가능성은 데이터가 정규 분포를 따를 때, 데이터의 중심을 나타내는 지표로서 평균이 가장 어울리는 것으로 증명된다. 

  • 따라서 쥐의 체중 등 데이터의 특징을 계산할 때, 평균 등을 사용하기도한다. 이로부터 알 수 있듯이 데이터가 정규 분포가 아닌 경우, 평균값이 어울리지 않을 수 있다.

 

 

 

 

 

 

 

 

 

 

 참고 문헌

[논문]

  • 없음

[보고서]

  • 없음

[URL]

  • 없음

 

 문의사항

[기상학/프로그래밍 언어]

  • sangho.lee.1990@gmail.com

[해양학/천문학/빅데이터]

  • saimang0804@gmail.com

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

본 블로그는 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음