정보
-
업무명 : 확률분포 : 정규분포
-
작성자 : 박진만
-
작성일 : 2020-04-09
-
설 명 :
-
수정이력 :
내용
[개요]
-
가설 검정 또는 수리 모델링 등으로 사용되는 확률 변수는 뭔가의 확률 분포에 따르는 것으로 가정되어 있다.
-
대표적인 확률 분포는 정규 분포, 이항 분포와 포아송 분포 등이 있다.

[특징]
-
통계이론 설명
[활용 자료]
-
없음
[자료 처리 방안 및 활용 분석 기법]
-
없음
[사용법]
-
내용 참조
상세 내용
[정규분포]
-
확률 함수 X가 평균 μ, 분산 σ ^2 인 정규 분포를 따를 때 그 확률 밀도 함수는 아래와 같이 나타낼 수 있다.
\[f\left(X ; \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left(-\frac{(X-\mu)^{2}}{2 \sigma^{2}}\right)\]
[정규 분포와 평균]
-
쥐의 체중과 식물의 길이 등을 측정하여 얻은 데이터에서 어떤 특징을 발견하려면, 그 데이터의 분포의 중심을 찾게 된다.
-
즉 분포의 중심으로 평균 중앙값, 최빈값 등 다양한 지표를 구할 수 있다.
-
특히 이 중에서도 평균이 가장 자주 이용된다.
-
평균치를 잘 이용하는 것은 평균값이 (정규 분포를 따른다고 가정할 때) 데이터의 분포의 중심을 나타내는 지표로서 기능하기 때문이다.
-
예를 들어, n 개의 관측 값 \(x_{1}, x_{2}, \ldots, x_{n}\) 이 있다고 가정하자.
-
이 때 n 개의 데이터가 같은 정규 분포 N (μ, σ)를 따르는 경우 \(x_{1})\이 관측 될 확률은 정규 분포의 밀도 함수 \(\phi\left(x_{i}\right)\)에 의해 쓰여질 수 있다.
-
즉
\[\varphi\left(x_{i}\right)=\frac{1}{\sqrt{2} \pi \sigma} \exp \left(-\frac{1}{2}\left(\frac{x_{i}-\mu}{\sigma}\right)^{2}\right)\]
-
여기서 \(x_{1}, x_{2}, \ldots, x_{n}\)이 동시에 관측 될 확률을 L 로 두는 경우 L은 다음과 같이 쓰여질 수 있다.
\[L=\prod_{i=1}^{n} \varphi\left(x_{i}\right)=\prod_{i=1}^{n} \frac{1}{\sqrt{2} \pi} \exp \left(-\frac{1}{2}\left(\frac{x_{i}-\mu}{\sigma}\right)^{2}\right)\]
-
실제로 L을 실제로 계산하려는 경우 매우 시간이 걸리기 때문에, 이를 대수화 시킨다. (로그화 수행)
\[\begin{aligned}
\ln (L) &=\sum_{i=1}^{n} \log \left(\frac{1}{\sqrt{2} \pi} \exp \left(-\frac{1}{2}\left(\frac{x_{i}-\mu}{\sigma}\right)^{2}\right)\right) \\
&=n \ln \left(\frac{1}{\sqrt{2} \pi}\right)-\frac{1}{2} \sum_{i=1}^{n}\left(\frac{x-\mu}{\sigma}\right)^{2}
\end{aligned}\]
-
그리고 로그 우도에 해당하는 ln(L)을 확대하는 파라미터 μ를 구한다. 즉 ln (L)을 μ 대해 미분한다.
\[\frac{d \ln (L)}{d \mu}=0 \Longleftrightarrow \sum_{i=1}^{n} \frac{\left(x_{i}-\mu\right)}{\sigma^{2}}=0\]
-
따라서 ln (L)를 확대하는 μ는,
\[\sum_{i=1}^{n} \frac{\left(x_{i}-\mu\right)}{\sigma^{2}}=0 \Longleftrightarrow \mu=\frac{1}{n} \sum_{i=1}^{n} x_{i}\]
-
여기서 최대 가능성은 데이터가 정규 분포를 따를 때, 데이터의 중심을 나타내는 지표로서 평균이 가장 어울리는 것으로 증명된다.
-
따라서 쥐의 체중 등 데이터의 특징을 계산할 때, 평균 등을 사용하기도한다. 이로부터 알 수 있듯이 데이터가 정규 분포가 아닌 경우, 평균값이 어울리지 않을 수 있다.
참고 문헌
[논문]
- 없음
[보고서]
- 없음
[URL]
- 없음
문의사항
[기상학/프로그래밍 언어]
- sangho.lee.1990@gmail.com
[해양학/천문학/빅데이터]
- saimang0804@gmail.com
본 블로그는 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음
'통계 이론' 카테고리의 다른 글
[통계 이론] 기초통계 : t 검정 (0) | 2020.04.14 |
---|---|
[통계 이론] 기초통계 : 표본 분산과 불편 분산 (0) | 2020.04.14 |
[통계이론] 확률분포 : 푸아송 분포 (0) | 2020.04.11 |
[통계 이론] 확률분포 : 이항분포 (0) | 2020.04.11 |
[통계 이론] 확률분포 : 확률변수 (0) | 2020.04.10 |