정보

    • 업무명     :  4과목 기상통계 (상관과 회귀)

    • 작성자     : 박진만

    • 작성일     : 2019-12-15

    • 설   명      :

    • 수정이력 :

     

     내용

    [핵심이론 01] 상관관계 (r)

    • 상관(Correlation) : 변수와 변수 사이의 연관성을 의미

    • 상관계수(Correlation Coefficient) : 두 변수 간의 관련성의 정도를 나타내는 값

    • 두 확률변수 \(X\), \(Y\)의 모상관계수 \(\rho\)는 \(\rho=\frac{\operatorname{Cov}(X, Y)}{\sqrt{V(X) V(Y)}}\)로 정의하며, 변수 \(X\)\(Y\)의 직선적인 관계의 정도를 재는 측도

    • 모상관계수 \(\rho\)의 추정량인 표본상관계수(Sample Correlation Coefficient) \(r\)은 다음과 같다.

      • \(r=\frac{\widehat{\operatorname{Cov}}(X, Y)}{\sqrt{\hat{V}(X) \hat{V}(Y)}}\)

      • \(=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}}\)

      • \(=\frac{\sum x_{i} y_{i}-\frac{\left(\sum x_{i}\right)\left(\sum y_{i}\right)}{n}}{\sqrt{\left\{\sum x_{i}^{2}-\frac{\left(\sum x_{i}\right)^{2}}{n}\right\}\left\{\sum y_{i}^{2}-\frac{\left(\sum y_{i}\right)^{2}}{n}\right\}}}\)

      • 표본상관계수 \(r\)은 -1과 1 사이의 값만 가질 수 있으며, 만약 변수 \(x\)\(y\)간에 명확한 직선관계 \(y=a+b x\)가 만족한다면, 표본상관계수는 \(r=\pm 1\)이 된다.

      • 표본상관계수란, 크기 \(n\)인 어떤 표본이 주어졌을 때 두 변수의 관련성의 측도이다.

        • 두 변수 간에 존재하는 선형관계의 방향과 강도를 측정하여 두 변수 사이에 선형관계를 알아보는 것 이다.

        • 상관계수의 범위는 \(-1 \leq r \leq 1\) 이며 –1 또는 1 이면 완전 상관이며 0일 때에는 두 변수의 상관성이 전혀 없음을 의미한다.

        • 상관계수는 단위를 가지지 않는다.

    • 스피어맨의 \(\rho\)(Spearman’s Rho)

      • 스피어맨의 상관계수는 표본상관계수 \(r\)을 비보수적으로 표현한 것이다. 이 절차를 설명하면, 변수 \(x\)의 값을 제일 작은 값부터 큰 값으로 순서화한 후 각각의 값에 순위를 1부터 \(n\)의 값을 준다. \(R_{i}\)를 \(x_{i}\)의 순위라고 표현하자. 같은 방법으로 변수 \(y\)의 값을 제일 작은 값부터 큰 값으로 순서화 한 후 각각의 값에 순위 1부터 \(n\)의 값을 매긴다. \(S_{i}\)\(y_{i}\)의 순위라고 표현한다. 만약 동등한 값을 가진다면 평균 순위의 값을 가진다.

      • 다음단계는 표본상관계수(\(r\))의 공식에서 \(x_{i}\) 대신 \(R_{i}\)\(y_{i}\) 대신 \(S_{i}\)를 대입하면 스피어맨의 \(\rho\)를 아래와 같이 정의 가능하다.

      • \(\rho=\frac{\sum_{i=1}^{n}\left(R_{i}-\bar{R}\right)\left(S_{i}-\bar{S}\right)}{\sqrt{\sum_{i=1}^{n}\left(R_{i}-\bar{R}\right)^{2} \sum_{i=1}^{n}\left(S_{i}-\bar{S}\right)^{2}}}\)

      • 여기서 \(\bar{R}\)과 \(\bar{S}\)는 각각 \(R_{i}\)\(S_{i}\)의 평균을 의미한다. 위의 식을 정리하면 다음과 같이 표현할 수 있다.

      • \(\rho=1-\frac{6 \sum_{i=1}^{n}\left(R_{i}-S_{i}\right)^{2}}{n\left(n^{2}-1\right)}\)

      • 스피어맨의 상관계수 \(\rho\)는 표본상관계수 \(r\)과 같이 다음 성질을 가진다.

        • 두 변수간에 존재하는 선형관계의 반향과 강도를 측정 한다.

        • \(\rho\)는 –1과 1사이의 값을 가지며 \(\rho\) = 1일 때 두 변수 \(x\)\(y\)는 완전 일치하며 \(\rho\)=-1 일 때 두 변수 \(x\)\(y\)는 완전 불일치하고 \(\rho\)=0일 때 두 변수의 상관성이 전혀 없음을 의미한다.

        • \(\rho\)는 단위를 가지지 않는다.

     

    [핵심이론 02] 상관계수 검정 (r)

    • \(H_{0}: \rho=0\) vs \(H_{1}: \rho \neq 0\)

      • 두 변수들이 실제적으로 상관관계가 있는지를 검정하고 자 한다. 두 변수  \(X\),  \(Y\)가 이변량 정규분포를 하는 경우, 다음 가설을 유의수준 \(\alpha\)에서 검정하면

      • \(H_{0}: \rho=0\) vs \(H_{1}: \rho \neq 0\)

      • 검정통계량

        • \(t=\frac{r}{\sqrt{\frac{1-r^{2}}{n-2}}}\)

      • 기각역

        • \(t \geq t\left(n-2: \frac{\alpha}{2}\right)\)  또는 \(t \leq-t\left(\left(n-2:-\frac{\alpha}{2}\right)\right.\) 이다.

    • \(H_{0}: \rho=\rho_{0}\) (단 \(\rho_{0} \neq 0\))

      • \(Z\)분포에 의한 Fisher Z점수로 상관계수를 변환하여 검정하는 것이다.

      • 어느 모집단에서 추출한 표본상관계수 r이 0이 아닌 어 떤 값인지를 가설검정하면

      • \(H_{0}: \rho=\rho_{0}\) (단 \(\rho_{0} \neq 0\))

      • 검정통계량으로 \(t=\frac{r}{\sqrt{\frac{1-r^{2}}{n-2}}}\)를 사용할 수 없다. 

        • 왜냐하면 \(\rho=0\)일 때는 r의 분포가 대칭이지만, \(\rho \neq 0\) 이면 r은 비대칭인 분포를 하기 때문이다. 그렇지만, 다행스럽게도 \(r\)의 적당한 변환을 통하여 근사적인 정규분포를 하게 할 수 있다.

        • Fisher’s Z 변환을 통하여 r의 함수 Z는 \(Z=\frac{1}{2} \ln \left(\frac{1+r}{1-r}\right)\) 이며, 그 기댓값과 분산은 \(E(Z) \cong \frac{1}{2} \ln \left(\frac{1+\rho}{1-\rho}\right), \quad V(Z) \cong \frac{1}{n-3}\) 임이 알려져 있다.

      • 따라서 기각역은 \(\left|\frac{Z-Z_{0}}{\sqrt{\frac{1}{n-3}}}\right| \geq z_{\frac{\alpha}{2}}\) 이다. 여기에서 \(Z=\frac{1}{2} \ln \left(\frac{1+r}{1-r}\right), Z_{0}=\frac{1}{2} \ln \left(\frac{1+\rho_{0}}{1-\rho_{0}}\right)\) 이다.

     

    [핵심이론 03] 회귀모형

    • 둘 또는 그 이상의 변수들 간의 관계를 파악함으로써 어떤 특정한 변수(종속변수)의 값을 다른 한개 또는 그 이상의 변수(독립변수)들로부터 설명하고 예측하는 통계적 기법 이다. 회귀모형은 단순선형회귀모형과 중회귀모형으로 나눈다.

    • 단순선형회귀모형(Simple Linear Regression Model)

      • 한 개의 독립변수를 이용하여 종속변수를 설명, 예측하는 것으로 회귀모형의 가장 단순한 형태

      • 단순선형모형은 \(y=\beta_{0}+\beta_{1} x+\varepsilon\) 이며, 여기에서 \(y\)는 종속변수를, \(\beta_{0}\)와 \(\beta_{1}\)은 회귀계수를, \(x\)는 독립변수를, 그리고 \(\varepsilon\)은 평균 0, 분산 \(\sigma^{2}\)인 정규분포를 따르는 오차항(Error Term)을 각각 나타난다. \(\beta_{0}, \beta_{1}, \sigma^{2}\)은 미지의 모수이다. 독립변수의 수가 단지 하나이기 때문에 ‘단순’이라고 하며 독립변수의 형태가 일차이므로 선형이라고 표기한다.

      • 단순회귀모형 \(y_{i}=\beta_{0}+\beta_{1} x_{i}+\varepsilon_{i}\) 에서 다음 가설을 유의수준 \(a\)에서 검정하면,

        • \(H_{0}: \beta_{1}=0\) vs \(H_{1}: \beta_{1} \neq 0\)

        • 검정통계량

          • \(F=\frac{M S R}{M S E}\)

        • 기각역

          • \(F \geq F(1, n-2: \alpha)\)

    • 중회귀모형

      • 두 개 이상의 독립변수와 종속변수 사이의 관계를 설명, 예측하고자 할 때 사용할 수 있는 모형

      • 회귀계수란 변량 상호 간의 관계를 표현하는 회귀 방정 식에서 변량에 대한 변수에 따라 첨가되는 계수와 상수 등을 합하여 일컫는 말

     

     

     참고 문헌

    [논문]

    • 없음

    [보고서]

    • 없음

    [URL]

    • 없음

     

    문의사항

    [기상학/프로그래밍 언어]

    • sangho.lee.1990@gmail.com

    [해양학/천문학/빅데이터]

    • saimang0804@gmail.com
    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기