정보

    • 업무명     : 확률분포 : 이항분포

    • 작성자     : 박진만

    • 작성일     : 2020-04-11

    • 설   명      :

    • 수정이력 :

     

     내용

    [개요]

    • 가설 검정 또는 수리 모델링 등으로 사용되는 확률 변수는 뭔가의 확률 분포에 따르는 것으로 가정되어 있다.

    • 대표적인 확률 분포는 정규 분포, 이항 분포와 포아송 분포 등이 있다.

     

     

    [특징]

    • 통계이론 설명

     

    [활용 자료]

    • 없음

     

    [자료 처리 방안 및 활용 분석 기법]

    • 없음

     

    [사용법]

    • 내용 참조

     

     

     상세 내용

    [베르누이 시행과 이항분포]

    • 동전 던지기 시도를 했을 때 시도 결과는 앞면 또는 뒷면 중 하나가 될 것이다. 이렇게 시도 결과가 2 종류 밖에 취할 수없는 시도를 베르누이 시행이라고 부른다.이항 분포는 베르누이 시행에서 유도된다.

    • 앞면이 나올 확률이 p, 뒷면이 나올 확률이 1 - p인 동전이 있다. 이 동전을 n 회 던질 때, 뒷면이 나오는 횟수를 확률 변수라고 할 수 있다.

    •  즉 X = k (n 회 시행에서 k 번 뒷면이 출현) 일 때의 확률 P (X = k)는 아래와 같이 계산할 수 있다.

    \[P(X=k)=_{n} C_{k} p^{k} q^{n-k}=\left(\begin{array}{c}
    n \\
    k
    \end{array}\right) p^{k}(1-p)^{n-k}\]

    • 이 때 확률 변수 X (뒷면이 나온 횟수)는 시도 횟수 n, 확률 p의 이항 분포를 따른다.

    \[X \sim \mathbf{B}(n, p)\]

    • 그리고 이항 분포의 기대값과 분산은 다음과 같다.

    \[\begin{array}{c}
    E(X)=\mu=n p \\
    V(X)=\sigma^{2}=n p(1-p)
    \end{array}\]

     

    [확률 함수와 확률 생성 함수]

    • 시도 횟수 n, 확률 p의 이항 분포의 확률 함수는 다음과 같이 구할 수 있다.

    \[P(X=k)=_{n} C_{k} p^{k} q^{n-k}=\left(\begin{array}{l}
    n \\
    k
    \end{array}\right) p^{k}(1-p)^{n-k}\]

    • 또한, 확률 함수가 최대 값을 취할 때의 확률 변수를 x로 하는 경우 x는 다음과 같이 구할 수 있다.

    \[\begin{array}{c}
    \frac{P(X=x+1)}{P(X=x)}=\frac{n-x}{x+1} \frac{p}{1-p} \\
    \Leftrightarrow p(X=x+1)=\frac{n-x}{x+1} \frac{p}{1-p} P(X=x) \\
    \therefore \frac{P(X=x+1)}{P(X=x)} \leqq 1 \Leftrightarrow \frac{x+1}{n+1} \geq p \\
    \therefore \max P(X=x)=[(n+1) p]
    \end{array}\]

    • 이항 분포의 확률 생성 함수는 다음과 같다.

    \[H_{x}(t)=\{p t+(1-p)\}^{n}\]

    • 또한 이항 분포 모멘트 생성 함수는 다음과 같다.

    \[M_{x}(t)=\left\{p e^{t}+(1-p)\right\}^{n}\]

     

    [이항 분포와 0의 취급]

    • 이항 분포 계산 데이터를 다루는 경우, 경우에 따라서 0이 존재하는 경우가 있을 수 있다.

    • 이러한 현상은 데이터 분석에 악영향을 미칠 수 있으므로 다음과 같이 보정할 수 있다.

     

    [제로 절단 된 이항 분포]

    • 이항 분포 계산 데이터 이면서, 0,1,2 등의 정수로 구성되는 데이터의 경우. 일반적으로 데이터에 0이 포함되어 있다고 생각하게 된다.

    • 그러나 실제 데이터를 조사 할 때 0을 수집하지 않는다는 규칙을 정하는 경우, 결과 데이터에서 0이 존재하지 않게 된다.

    • 이러한 이항 분포를 제로 절단된 이항 분포라고 한다.

    • 제로 절단 된 이항 분포의 확률 함수는 아래와 같이 쓰여질 수 있다.

    \[P(Y=y)=P(X=y | X \geq 1)=\frac{n C_{y} p^{y}(1-p)^{n-y}}{1-(1-p)^{n}}\]

     

    [제로 팽창된 이항 분포]

    • 반대로 제로가 과도하게 존재하는 이항 분포인 경우, 확률 함수는 아래와 같이 보정 될 수 있다.

    • 여기서 0 ≤ ω <1 는 제로 과잉의 정도를 나타내는 계수이다.

    \[P(Y=y)=\left\{\begin{array}{ll}
    \omega+(1-\omega)(1-p)^{n} & (y=0) \\
    (1-\omega)_{n} C_{y} p^{y}(1-p)^{n-y} & (y \geq 1)
    \end{array}\right.\]

     

    [매개 변수의 최대 가능도 추정 방법]

    • 이항 분포는 성공 또는 실패 중 하나인 시도를 n 회 독립시행으로 수행하였을 때, 성공한 횟수 x가 따르는 확률 분포이다. 

    • 해당 확률 질량 함수는 아래와 같이 표현된다.

    \[f(x ; n, p)=\left(\begin{array}{l}
    n \\
    x
    \end{array}\right) p^{x}(1-p)^{n-x}\]

    • 성공 횟수가 x = m 개일 때 성공 확률 p를 최대 가능성에 의해 구할 수 있다.

    • 이는 가능도 확률 질량 함수와 동일한 형태이기 때문에 해당 로그 우도 함수는 아래와 같이 쓸 수 있다.

    \[\begin{aligned}
    l(p ; n, m) &=\log L(p ; n, m)=\log f(x ; n, p) \\
    &=\log \left(\begin{array}{c}
    n \\
    m
    \end{array}\right) p^{m}(1-p)^{n-m} \\
    &=\log \left(\begin{array}{c}
    n \\
    m
    \end{array}\right)+m \log p+(n-m) \log (1-p)
    \end{aligned}\]

    • 이 때, \(\frac{\partial l}{\partial p}=0\) 을 감안한다면,

    \[\begin{aligned}
    \frac{\partial l}{\partial p}=0 & \Leftrightarrow m \frac{1}{p}-(n-m) \frac{1}{1-p}=0 \\
    & \Leftrightarrow p=\frac{m}{n}
    \end{aligned}\]

     

    [이항 분포와 정규 분포의 유사성]

    • 이항분포와 정규 분포는 아래와 같은 유사성을 지니고 있다.

     

    [중심극한정리]

    • n 개의 확률 변수 \(X_{i}(i=1,2, \dots, n)\)가 각각 독립적으로 평균 \(\mu\)와 분산 \(\sigma^{2}\) 의 확률 분포를 따를 때 그 합을 Y라 한다면

    \[Y=X_{1}+X_{2}+\cdots+X_{n}\]

    • 확률 변수 \(Y\)는 평균 \(n \mu\) 분산 \(n \sigma^{2}\) 의 정규 분포를 따른다.

    \[Y \sim \mathbf{N}\left(n \mu, n \sigma^{2}\right)\]

    • 이를 "중심극한정리"라고 한다.

     

    [라플라스의 정리]

    • 중심 극한 정리와 관련하여 "이항 분포를 정규 분포로 근사 할 수있다." 는 라플라스의 정리가 존재한다.

    • 베르누이 시행의 결과를 나타내는 확률 변수 W (= 0, 1)로 한다. 

    • 여기서 W는 평균 p를 분산 p (1-p)의 베르누이 분포에 따른다. 여기서 n 번의 베르누이 시행시 얻은 n 개의 확률 변수 W의 합을 X로 가정한다.

    \[X=W_{1}+W_{2}+\cdots+W_{n}\]

    • 이 때, 중심 극한 정리하여 확률 변수 X는 평균 \(n \mu\) 분산 \(n \sigma^{2}\) 의 정규 분포를 따른다. 

    • 한편, 확률 변수 X 자체는 n 번의 베르누이 시행 결과를 나타내는 확률 변수이므로 이항 분포이다.

    • 즉, 정규 분포와 이항 분포가 근사 할 수 있음을 의미한다.

     

    [역 정현 변환]

    • 확률 변수 X가 시도 횟수 n, 확률 p의 이항 분포를 따를 때 X를 역 정현 변환하여 정규 분포에 근사시킬 수 있다.

    \[\begin{array}{c}
    X \sim \mathbf{B}(n, p) \\
    s i n^{-1} \sqrt{\frac{X}{n}} \sim \mathbf{N}\left(s i n^{-1} \sqrt{p}, \frac{1}{4 n}\right)
    \end{array}\]

     

     

     참고 문헌

    [논문]

    • 없음

    [보고서]

    • 없음

    [URL]

    • 없음

     

     문의사항

    [기상학/프로그래밍 언어]

    • sangho.lee.1990@gmail.com

    [해양학/천문학/빅데이터]

    • saimang0804@gmail.com

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    본 블로그는 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음
    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기