정보

    • 업무명     :  4과목 기상통계 (확률분포)

    • 작성자     : 박진만

    • 작성일     : 2019-12-13

    • 설   명      :

    • 수정이력 :

     

     내용

    [핵심이론 01] 확률 개념

    • 확률의 공리

      • 확 률

        • 동일한 조건에서 반복적으로 그 사건이 일어날 횟수를 백분율로 나타낸 것이다.

        • 확률의 범위는 0~1 사이의 값을 가지며, 백분율(%) 로 나타내기도 한다.

      • 공리

        • 표본공간이 S인 어떤 실험을 행한다고 하자. 표본공 간 S의 임의의 사건 E에 대하여, 사건 E가 발생할 확률 P(E)는 다음 세 종류의 공리(Axiom)를 만족한다고 가정한다.

          • 공리 1 : \(0 \leq P(E) \leq 1\)

          • 공리 2 : \(P(S)=1\)

          • 공리 3 : 서로 배반인 사건 \(E_{1}, E_{2}, \cdots\) 에 대하여 (즉, \(E_{i} \cap E_{j}=0, i \neq j\))

          • \(P\left(\bigcup_{i=1}^{\infty} E_{i}\right)=\sum_{i=1}^{\infty} P\left(A_{i}\right)\)

    • ※ 독립인 사건

      • 만약 아래의 등식이 성립하면,

      • \(P(F / E)=P(F), \quad P(E)>0\)

      • 두 사건 E와 F는 서로 독립(Independent)이라고 정의한다. 위의 정의에 의해, 서로 독립인 조건인 위의 식은 다음과 같이 표현된다.

      • \(P(E \cap F)=P(E) \cdot T P(F)\)

      • 즉 사건 E와 F가 서로 독립이라는 것은, 사건 E가 발생하 였다는 사실이 사건 F가 발생할 확률에 아무런 영향도 주지 못함을 의미한다. 또한 두 사건 E와 F가 독립이 아닌 경우, 두 사건은 서로 종속(Dependent)이라고 한다.

      • ex) 52장의 카드에서 랜덤으로 한 장을 뽑는다. 이때 사건 E =뽑힌 카드가 에이스일 사건이고, 사건 F =뽑힌 카드가 스페이드일 사건 이라고 할 때, 사건 E와 F는 독립임을 보여라.

        • \(P(E)=\frac{4}{52}=\frac{1}{13}\)

          \(P(F)=\frac{13}{52}=\frac{1}{4}\)

          \(P(E \cap F)=\frac{1}{52}\)

          \(\therefore P(E \cap F)=P(E) \cdot P(F)\)

        • 따라서 사건 E 와 F는 서로 독립이다.

     

    [핵심이론 02] 이산확률분포

    • 확률변수가 취할 수 있는 값들이 유한하거나 또는 셀 수 있는 (Countable) 경우를 이산형(Discrete)이라 한다. 예를 들어 인종, 성별 또는 활을 \(n\)번 쏘았을 때 과녁에 맞춘 횟수 등은 모두 이산형 확률변수이다. 확률변수 \(X\)가 이산형일 때 \(X\)의 확률분포(Probability Distribution)란 \(X\)의 가능한 값에 대 한 확률의 분포를 의미한다. 즉 이산형 확률분포는 이산형 확률변수 \(X\)의 가능한 값 \(x\)들과 그에 대한 확률 \(P(X=x)\)를 각각 나타낸다. 이산형 확률변수 \(X\)에 대하여 \(X\)의 확률밀도함수(Probability Density Function) \(f(x)\)를 다음과 같이 정의한다.

      • \(f(x)=P\{X=x\}\)

      • 즉, 확률밀도함수 \(f(X)\)는 많아야 셀 수 있는 경우에서 양수 값을 가진다.

    • 기댓값

      • 자료의 성질을 파악하기 위하여, 그 중심 위치와 퍼짐 정도를 규명하여야 한다. 이 중 중심 위치를 위한 기댓값 (Expectation 또는 Expected Value)의 계산은 확률론에 서 매우 중요한 개념 중의 하나이다. 이산형 확률변수 \(X\)의 확률밀도함수 \(f(x)\)가 주어졌을 때, \(x\)의 기댓값 \(E(X)\)를 다음과 같이 정의한다.

        • \(E(X)=\sum_{i} x_{i} f\left(x_{i}\right)\)

        • 다시 말하면 확률변수 \(X\)의 기댓값이란 \(X\)의 가능한 값들의 가중평균이라 할 수 있다.

    • 분 산

      • 확률변수 \(X\)와 확률밀도함수 \(f(x)\)가 주어졌을 때, \(X\)의 성질을 규명하기 위한 측도로 중심경향과 퍼짐 정도를 생각해 볼 수 있다. 중심경향을 나타내는 기댓값 \(E(X)\)\(X\)의 가능한 값들의 가중평균이지만, 이 값들의 산포 또는 퍼짐 정도에 관하여는 아무런 정보도 제공하여 주지 못한다. 따라서 \(X\)의 값들이 평균 \(E(X)\)을 중심으로 얼마나 많이 산포되어 있는가의 측도로 \(E\{|X-\mu|\}\)를 고려해 볼 수 있겠다. 여기에서 \(\mu=E(X)\)이다. 그렇지만 이런 값들을 수학적으로 다루기 어려운 부분이 있어, \(X\)와 그 평균 간의 차이를 제곱한 양의 기댓값을 구하여 산포 또는 퍼짐 정도를 측정하여 볼 수 있겠다.

    • ※ 분산의 정의

      • 확률변수 \(X\)의 기댓값을 \(\mu\)라 하면 \(X\)의 분산(Variance) \(V(X)\) (또는 \(\sigma^{2}\))를 다음과 같이 정의한다.

      • \(\sigma^{2}=V(X)=E\left[(X-\mu)^{2}\right]\)

      • 이산확률변수 \(X\)의 분산 \(V(X)\)을 조금 더 정리하여 보자

        • \(\begin{aligned} V(X) &=E\left[(X-\mu)^{2}\right] \\ &=\sum_{i}\left(x_{i}-\mu\right)^{2} f\left(x_{i}\right) \\ &=\sum_{i}\left(x_{i}^{2}-2 x_{i} \mu+\mu^{2}\right) f\left(x_{i}\right) \\ &=\sum_{i} x_{i}^{2} f\left(x_{i}\right)-2 \mu \sum_{i} x_{i} f\left(x_{i}\right)+\mu^{2} \sum_{i} f\left(x_{i}\right) \\=& E\left(X^{2}\right)-2 \mu^{2}+\mu^{2} \\=& E\left(X^{2}\right)-\mu^{2} \\ & \therefore V(X)=E\left(X^{2}\right)-[E(X)]^{2} \end{aligned}\)

        • 즉, 확률변수 \(X\)의 분산은 \(X^2\) 의 기댓값에서 \(X\)의 기댓값 제곱을 빼주면 된다. 분산 \(V(X)\)의 양의 제곱근을 확률변수 \(X\)의 표준편차(Standard Deviation) \(sigma\) 또는 \(sd(X)\)라고 정의한다. 분산에 관한 유용한 공식으로 다음 식을 살펴보자. 즉 임의의 상수 \(a, b\)에 대하여, 다음 식이 성립한다.

          • \(V(a X+b)=a^{2} V(X)\)

    • ※ 공분산

      • 확률변수 \(X\)의 기댓값을 \(\mu_{x}\), \(Y\)의 기댓값을 \(\mu_{y}\) 라 하면 \(X\)\(Y\)의 공분산(covariance) \(\operatorname{Cov}(X, Y)\)를 다음과 같이 정의한다.

      • \(\begin{aligned} \operatorname{Cov}(X, Y) &=E\left[\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right] \\ &=E(X Y)-\mu_{X} \cdot \mu_{Y} \end{aligned}\)

      • 두 확률변수 \(X+Y\)의 분산 \(V(X+Y)\)는

      • \(V(X+Y)=V(X)+V(Y)+2 \operatorname{Cov}(X, Y)\) 이며, 이때 만약 두 확률변수 \(X\),\(Y\)가 독립이면 \(\operatorname{Cov}(X, Y)=0\)이므로 \(V(X+Y)=V(X)+V(Y)\)가 성립한다.

     

    [핵심이론 03] 연속형 확률변수의 확률밀도함수와 정규분포함수의 성질

    • 연속형 확률변수의 확률밀도함수

      • 이산형 확률변수의 가능한 값들은 유한하거나 셀 수 있는 경우였지만, 확률변수의 가능한 값들이 실수상 의 어떤 구간 또는 구간들에 포함되는 경우가 왕왕 있다.

      • 예를 들어 어떤 호수의 수심이나 어느 병원에 입원 중인 환자들의 수축기 혈압 등을 들 수 있다.

      • 연속형 확률변수 \(X\)의 확률밀도함수(Probability Density Function) \(f(x)\)는 다음 조건을 만족하는 적분 가 능한 함수이다.

        • \(f(x) \geq 0\)

        • \(\int_{-\infty}^{\infty} f(x) d x=1\)

        • 임의의 실수 \(a, b\)에 대하여

        • \(P(a \leq X \leq b)=\int_{a}^{b} f(x) d x\)

      • 연속형 분포로 균일분포(일양분포, Uniform Distribution), 지수분포(Exponential Distribution), 감마 분포(Gamma Distribution), \(\chi^{2}\)분포(Chi-square Distribution), 정규분포(Normal Distribution) 등이 있다.

    • 정규밀도함수의 성질

      • 연속형 확률변수 \(X\)의 확률밀도함수 \(f\)가 두 모수 \(\mu \in R\), \(\sigma^{2}>0\)에 대해 \(f\left(x: \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}},-\infty<x<\infty\) 일 때 \(X\)는 평균이 \(\mu\), 분산이 \(\sigma^{2}\)인 정규분포(The Normal Distribution)를 한다고 정의하고, \(X \sim N\left(\mu, \sigma^{2}\right)\)으로 표기한다. 여기에서 \(e\)는 대략 2.71828... 인 오일러의 수 (Euler’s Number)이며, \(\pi\)는 3.14159…인 원주율을 나타낸다.

        • 범위가 실수인 종 모양(Bell-shaped)의 곡선이며, \(X=\mu\)에 대하여 대칭이다.

        • 정규곡선 아래의 면적은 항상 1이다.

        • \(X=\mu\)에서 곡선의 최댓값을 가진다.

        • 표준편차 \(\sigma\)는 곡선의 퍼짐 정도를 나타낸다.

        • 정규분포는 그것의 평균과 표준편차에 의해 완전히 결정된다.

     

    [핵심이론 04] t-분포

    • t-분포

    • 정 의

      • 확률변수 \(Z\)는 표준정규분포 \(N(0,1)\)을 하고, 자연수 \(k\)에 대해 \(\chi^{2}(k)\)는 자유도 \(k\)인 카이제곱분포를 하며, 두 확률변수 \(Z\)\(\chi^{2}(k)\)는 서로 독립이라고 가정할 때 \(T=\frac{Z}{\sqrt{\frac{\chi^{2}(k)}{k}}} \sim t(k)\) 이라고 정의하며 여기에서 \(t(k)\)는 자유도가 \(k\)인 \(t-\)분포를 일컫는다.

      • \(t-\)분포를 하는 확률밀도함수의 그래프는 자유도에 따라 다르지만 표준정규분포에 비해 중심의 높이는 낮지만 꼬리 부분은 더 두터운 대칭형이다. 표준정규 분포와 \(t-\)분포의 확률밀도함수 그래프의 대략적인 형태는 다음 그림과 같다.

      • 분포는 \(y\)축에 대하여 대칭이며, 정의구역은 모든 실수값이다.

      • \(t-\)분포 모양은 표준정규분포에 비해 중심의 높이 는 낮지만 양쪽의 꼬리부분은 두껍다.

      • 분포 모양은 자유도에 따라 변하며 자유도가 ∞로 가면 정확히 정규분포와 일치한다.

      • \(t-\)분포를 하는 확률변수를 제곱하면, \(F-\)분포를 따르게 된다.

    • 모집단의 분포가 \(N\left(\mu, \sigma^{2}\right)\)일 때, 일반적으로 모평균 \(\mu\)와 모분산 \(\sigma^2\) 의 값을 알 수 없는 경우가 많다.

    • \(\mu\)에 대한 추론시, 모분산 \(\sigma^2\)의 값이 알려져있지 않으므로 \(\sigma^2\) 의 추정값으로 표본분산 \(S^2\)을 사용하게 된다.

    • 표본평균을 표준화하면 \(\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1)\) 이지만, 이 때 미지의 \(\sigma\) 대신 표본표준편차 \(S\)를 대입한 값인 \(t=\frac{\bar{X}-\mu}{\frac{S}{\sqrt{n}}}\) 의 분포를 이용할 때가 자주 있다.

     

     참고 문헌

    [논문]

    • 없음

    [보고서]

    • 없음

    [URL]

    • 없음

     

    문의사항

    [기상학/프로그래밍 언어]

    • sangho.lee.1990@gmail.com

    [해양학/천문학/빅데이터]

    • saimang0804@gmail.com
    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기