[자격증] 기상감정기사 필기 : 4과목 기상통계 (상관과 회귀)

 정보

  • 업무명     :  4과목 기상통계 (상관과 회귀)

  • 작성자     : 박진만

  • 작성일     : 2019-12-15

  • 설   명      :

  • 수정이력 :

 

 내용

[핵심이론 01] 상관관계 (r)

  • 상관(Correlation) : 변수와 변수 사이의 연관성을 의미

  • 상관계수(Correlation Coefficient) : 두 변수 간의 관련성의 정도를 나타내는 값

  • 두 확률변수 X, Y의 모상관계수 ρρ=Cov(X,Y)V(X)V(Y)로 정의하며, 변수 XY의 직선적인 관계의 정도를 재는 측도

  • 모상관계수 ρ의 추정량인 표본상관계수(Sample Correlation Coefficient) r은 다음과 같다.

    • r=Cov^(X,Y)V^(X)V^(Y)

    • =i=1n(xix¯)(yiy¯)i=1n(xix¯)2i=1n(yiy¯)2

    • =xiyi(xi)(yi)n{xi2(xi)2n}{yi2(yi)2n}

    • 표본상관계수 r은 -1과 1 사이의 값만 가질 수 있으며, 만약 변수 xy간에 명확한 직선관계 y=a+bx가 만족한다면, 표본상관계수는 r=±1이 된다.

    • 표본상관계수란, 크기 n인 어떤 표본이 주어졌을 때 두 변수의 관련성의 측도이다.

      • 두 변수 간에 존재하는 선형관계의 방향과 강도를 측정하여 두 변수 사이에 선형관계를 알아보는 것 이다.

      • 상관계수의 범위는 1r1 이며 –1 또는 1 이면 완전 상관이며 0일 때에는 두 변수의 상관성이 전혀 없음을 의미한다.

      • 상관계수는 단위를 가지지 않는다.

  • 스피어맨의 ρ(Spearman’s Rho)

    • 스피어맨의 상관계수는 표본상관계수 r을 비보수적으로 표현한 것이다. 이 절차를 설명하면, 변수 x의 값을 제일 작은 값부터 큰 값으로 순서화한 후 각각의 값에 순위를 1부터 n의 값을 준다. Rixi의 순위라고 표현하자. 같은 방법으로 변수 y의 값을 제일 작은 값부터 큰 값으로 순서화 한 후 각각의 값에 순위 1부터 n의 값을 매긴다. Siyi의 순위라고 표현한다. 만약 동등한 값을 가진다면 평균 순위의 값을 가진다.

    • 다음단계는 표본상관계수(r)의 공식에서 xi 대신 Riyi 대신 Si를 대입하면 스피어맨의 ρ를 아래와 같이 정의 가능하다.

    • ρ=i=1n(RiR¯)(SiS¯)i=1n(RiR¯)2i=1n(SiS¯)2

    • 여기서 R¯S¯는 각각 RiSi의 평균을 의미한다. 위의 식을 정리하면 다음과 같이 표현할 수 있다.

    • ρ=16i=1n(RiSi)2n(n21)

    • 스피어맨의 상관계수 ρ는 표본상관계수 r과 같이 다음 성질을 가진다.

      • 두 변수간에 존재하는 선형관계의 반향과 강도를 측정 한다.

      • ρ는 –1과 1사이의 값을 가지며 ρ = 1일 때 두 변수 xy는 완전 일치하며 ρ=-1 일 때 두 변수 xy는 완전 불일치하고 ρ=0일 때 두 변수의 상관성이 전혀 없음을 의미한다.

      • ρ는 단위를 가지지 않는다.

 

[핵심이론 02] 상관계수 검정 (r)

  • H0:ρ=0 vs H1:ρ0

    • 두 변수들이 실제적으로 상관관계가 있는지를 검정하고 자 한다. 두 변수  X,  Y가 이변량 정규분포를 하는 경우, 다음 가설을 유의수준 α에서 검정하면

    • H0:ρ=0 vs H1:ρ0

    • 검정통계량

      • t=r1r2n2

    • 기각역

      • tt(n2:α2)  또는 tt((n2:α2) 이다.

  • H0:ρ=ρ0 (단 ρ00)

    • Z분포에 의한 Fisher Z점수로 상관계수를 변환하여 검정하는 것이다.

    • 어느 모집단에서 추출한 표본상관계수 r이 0이 아닌 어 떤 값인지를 가설검정하면

    • H0:ρ=ρ0 (단 ρ00)

    • 검정통계량으로 t=r1r2n2를 사용할 수 없다. 

      • 왜냐하면 ρ=0일 때는 r의 분포가 대칭이지만, ρ0 이면 r은 비대칭인 분포를 하기 때문이다. 그렇지만, 다행스럽게도 r의 적당한 변환을 통하여 근사적인 정규분포를 하게 할 수 있다.

      • Fisher’s Z 변환을 통하여 r의 함수 Z는 Z=12ln(1+r1r) 이며, 그 기댓값과 분산은 E(Z)12ln(1+ρ1ρ),V(Z)1n3 임이 알려져 있다.

    • 따라서 기각역은 |ZZ01n3|zα2 이다. 여기에서 Z=12ln(1+r1r),Z0=12ln(1+ρ01ρ0) 이다.

 

[핵심이론 03] 회귀모형

  • 둘 또는 그 이상의 변수들 간의 관계를 파악함으로써 어떤 특정한 변수(종속변수)의 값을 다른 한개 또는 그 이상의 변수(독립변수)들로부터 설명하고 예측하는 통계적 기법 이다. 회귀모형은 단순선형회귀모형과 중회귀모형으로 나눈다.

  • 단순선형회귀모형(Simple Linear Regression Model)

    • 한 개의 독립변수를 이용하여 종속변수를 설명, 예측하는 것으로 회귀모형의 가장 단순한 형태

    • 단순선형모형은 y=β0+β1x+ε 이며, 여기에서 y는 종속변수를, β0β1은 회귀계수를, x는 독립변수를, 그리고 ε은 평균 0, 분산 σ2인 정규분포를 따르는 오차항(Error Term)을 각각 나타난다. β0,β1,σ2은 미지의 모수이다. 독립변수의 수가 단지 하나이기 때문에 ‘단순’이라고 하며 독립변수의 형태가 일차이므로 선형이라고 표기한다.

    • 단순회귀모형 yi=β0+β1xi+εi 에서 다음 가설을 유의수준 a에서 검정하면,

      • H0:β1=0 vs H1:β10

      • 검정통계량

        • F=MSRMSE

      • 기각역

        • FF(1,n2:α)

  • 중회귀모형

    • 두 개 이상의 독립변수와 종속변수 사이의 관계를 설명, 예측하고자 할 때 사용할 수 있는 모형

    • 회귀계수란 변량 상호 간의 관계를 표현하는 회귀 방정 식에서 변량에 대한 변수에 따라 첨가되는 계수와 상수 등을 합하여 일컫는 말

 

 

 참고 문헌

[논문]

  • 없음

[보고서]

  • 없음

[URL]

  • 없음

 

문의사항

[기상학/프로그래밍 언어]

  • sangho.lee.1990@gmail.com

[해양학/천문학/빅데이터]

  • saimang0804@gmail.com