정보
-
업무명 : 확률분포 : 이항분포
-
작성자 : 박진만
-
작성일 : 2020-04-11
-
설 명 :
-
수정이력 :
내용
[개요]
-
가설 검정 또는 수리 모델링 등으로 사용되는 확률 변수는 뭔가의 확률 분포에 따르는 것으로 가정되어 있다.
-
대표적인 확률 분포는 정규 분포, 이항 분포와 포아송 분포 등이 있다.
[특징]
-
통계이론 설명
[활용 자료]
-
없음
[자료 처리 방안 및 활용 분석 기법]
-
없음
[사용법]
-
내용 참조
상세 내용
[베르누이 시행과 이항분포]
-
동전 던지기 시도를 했을 때 시도 결과는 앞면 또는 뒷면 중 하나가 될 것이다. 이렇게 시도 결과가 2 종류 밖에 취할 수없는 시도를 베르누이 시행이라고 부른다. 즉 이항 분포는 베르누이 시행에서 유도된다.
-
앞면이 나올 확률이 p, 뒷면이 나올 확률이 1 - p인 동전이 있다. 이 동전을 n 회 던질 때, 뒷면이 나오는 횟수를 확률 변수라고 할 수 있다.
-
즉 X = k (n 회 시행에서 k 번 뒷면이 출현) 일 때의 확률 P (X = k)는 아래와 같이 계산할 수 있다.
\[P(X=k)=_{n} C_{k} p^{k} q^{n-k}=\left(\begin{array}{c}
n \\
k
\end{array}\right) p^{k}(1-p)^{n-k}\]
-
이 때 확률 변수 X (뒷면이 나온 횟수)는 시도 횟수 n, 확률 p의 이항 분포를 따른다.
\[X \sim \mathbf{B}(n, p)\]
-
그리고 이항 분포의 기대값과 분산은 다음과 같다.
\[\begin{array}{c}
E(X)=\mu=n p \\
V(X)=\sigma^{2}=n p(1-p)
\end{array}\]
[확률 함수와 확률 생성 함수]
-
시도 횟수 n, 확률 p의 이항 분포의 확률 함수는 다음과 같이 구할 수 있다.
\[P(X=k)=_{n} C_{k} p^{k} q^{n-k}=\left(\begin{array}{l}
n \\
k
\end{array}\right) p^{k}(1-p)^{n-k}\]
-
또한, 확률 함수가 최대 값을 취할 때의 확률 변수를 x로 하는 경우 x는 다음과 같이 구할 수 있다.
\[\begin{array}{c}
\frac{P(X=x+1)}{P(X=x)}=\frac{n-x}{x+1} \frac{p}{1-p} \\
\Leftrightarrow p(X=x+1)=\frac{n-x}{x+1} \frac{p}{1-p} P(X=x) \\
\therefore \frac{P(X=x+1)}{P(X=x)} \leqq 1 \Leftrightarrow \frac{x+1}{n+1} \geq p \\
\therefore \max P(X=x)=[(n+1) p]
\end{array}\]
-
이항 분포의 확률 생성 함수는 다음과 같다.
\[H_{x}(t)=\{p t+(1-p)\}^{n}\]
-
또한 이항 분포 모멘트 생성 함수는 다음과 같다.
\[M_{x}(t)=\left\{p e^{t}+(1-p)\right\}^{n}\]
[이항 분포와 0의 취급]
-
이항 분포 계산 데이터를 다루는 경우, 경우에 따라서 0이 존재하는 경우가 있을 수 있다.
-
이러한 현상은 데이터 분석에 악영향을 미칠 수 있으므로 다음과 같이 보정할 수 있다.
[제로 절단 된 이항 분포]
-
이항 분포 계산 데이터 이면서, 0,1,2 등의 정수로 구성되는 데이터의 경우. 일반적으로 데이터에 0이 포함되어 있다고 생각하게 된다.
-
그러나 실제 데이터를 조사 할 때 0을 수집하지 않는다는 규칙을 정하는 경우, 결과 데이터에서 0이 존재하지 않게 된다.
-
이러한 이항 분포를 제로 절단된 이항 분포라고 한다.
-
제로 절단 된 이항 분포의 확률 함수는 아래와 같이 쓰여질 수 있다.
\[P(Y=y)=P(X=y | X \geq 1)=\frac{n C_{y} p^{y}(1-p)^{n-y}}{1-(1-p)^{n}}\]
[제로 팽창된 이항 분포]
-
반대로 제로가 과도하게 존재하는 이항 분포인 경우, 확률 함수는 아래와 같이 보정 될 수 있다.
-
여기서 0 ≤ ω <1 는 제로 과잉의 정도를 나타내는 계수이다.
\[P(Y=y)=\left\{\begin{array}{ll}
\omega+(1-\omega)(1-p)^{n} & (y=0) \\
(1-\omega)_{n} C_{y} p^{y}(1-p)^{n-y} & (y \geq 1)
\end{array}\right.\]
[매개 변수의 최대 가능도 추정 방법]
-
이항 분포는 성공 또는 실패 중 하나인 시도를 n 회 독립시행으로 수행하였을 때, 성공한 횟수 x가 따르는 확률 분포이다.
-
해당 확률 질량 함수는 아래와 같이 표현된다.
\[f(x ; n, p)=\left(\begin{array}{l}
n \\
x
\end{array}\right) p^{x}(1-p)^{n-x}\]
-
성공 횟수가 x = m 개일 때 성공 확률 p를 최대 가능성에 의해 구할 수 있다.
-
이는 가능도 확률 질량 함수와 동일한 형태이기 때문에 해당 로그 우도 함수는 아래와 같이 쓸 수 있다.
\[\begin{aligned}
l(p ; n, m) &=\log L(p ; n, m)=\log f(x ; n, p) \\
&=\log \left(\begin{array}{c}
n \\
m
\end{array}\right) p^{m}(1-p)^{n-m} \\
&=\log \left(\begin{array}{c}
n \\
m
\end{array}\right)+m \log p+(n-m) \log (1-p)
\end{aligned}\]
-
이 때, \(\frac{\partial l}{\partial p}=0\) 을 감안한다면,
\[\begin{aligned}
\frac{\partial l}{\partial p}=0 & \Leftrightarrow m \frac{1}{p}-(n-m) \frac{1}{1-p}=0 \\
& \Leftrightarrow p=\frac{m}{n}
\end{aligned}\]
[이항 분포와 정규 분포의 유사성]
- 이항분포와 정규 분포는 아래와 같은 유사성을 지니고 있다.
[중심극한정리]
-
n 개의 확률 변수 \(X_{i}(i=1,2, \dots, n)\)가 각각 독립적으로 평균 \(\mu\)와 분산 \(\sigma^{2}\) 의 확률 분포를 따를 때 그 합을 Y라 한다면
\[Y=X_{1}+X_{2}+\cdots+X_{n}\]
-
확률 변수 \(Y\)는 평균 \(n \mu\) 분산 \(n \sigma^{2}\) 의 정규 분포를 따른다.
\[Y \sim \mathbf{N}\left(n \mu, n \sigma^{2}\right)\]
-
이를 "중심극한정리"라고 한다.
[라플라스의 정리]
-
중심 극한 정리와 관련하여 "이항 분포를 정규 분포로 근사 할 수있다." 는 라플라스의 정리가 존재한다.
-
베르누이 시행의 결과를 나타내는 확률 변수 W (= 0, 1)로 한다.
-
여기서 W는 평균 p를 분산 p (1-p)의 베르누이 분포에 따른다. 여기서 n 번의 베르누이 시행시 얻은 n 개의 확률 변수 W의 합을 X로 가정한다.
\[X=W_{1}+W_{2}+\cdots+W_{n}\]
-
이 때, 중심 극한 정리하여 확률 변수 X는 평균 \(n \mu\) 분산 \(n \sigma^{2}\) 의 정규 분포를 따른다.
-
한편, 확률 변수 X 자체는 n 번의 베르누이 시행 결과를 나타내는 확률 변수이므로 이항 분포이다.
-
즉, 정규 분포와 이항 분포가 근사 할 수 있음을 의미한다.
[역 정현 변환]
-
확률 변수 X가 시도 횟수 n, 확률 p의 이항 분포를 따를 때 X를 역 정현 변환하여 정규 분포에 근사시킬 수 있다.
\[\begin{array}{c}
X \sim \mathbf{B}(n, p) \\
s i n^{-1} \sqrt{\frac{X}{n}} \sim \mathbf{N}\left(s i n^{-1} \sqrt{p}, \frac{1}{4 n}\right)
\end{array}\]
참고 문헌
[논문]
- 없음
[보고서]
- 없음
[URL]
- 없음
문의사항
[기상학/프로그래밍 언어]
- sangho.lee.1990@gmail.com
[해양학/천문학/빅데이터]
- saimang0804@gmail.com
본 블로그는 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음
'통계 이론' 카테고리의 다른 글
[통계 이론] 기초통계 : t 검정 (0) | 2020.04.14 |
---|---|
[통계 이론] 기초통계 : 표본 분산과 불편 분산 (0) | 2020.04.14 |
[통계이론] 확률분포 : 푸아송 분포 (0) | 2020.04.11 |
[통계이론] 확률분포 : 정규분포 (0) | 2020.04.10 |
[통계 이론] 확률분포 : 확률변수 (0) | 2020.04.10 |
최근댓글