[통계 이론] 선형 회귀 : 오차구조 (error structure), 연결 함수 (link function), 선형 예측 (linar predictor)
정보
-
업무명 : 선형 회귀 : 오차구조 (error structure), 연결 함수 (link function), 선형 예측 (linar predictor)
-
작성자 : 박진만
-
작성일 : 2020-04-19
-
설 명 :
-
수정이력 :
내용
[개요]
[특징]
-
통계이론 설명
[활용 자료]
-
없음
[자료 처리 방안 및 활용 분석 기법]
-
없음
[사용법]
-
내용 참조
상세 내용
[개요]
-
일반화 선형 모형 (GLM)은 오차 구조 (error structure) 선형 예측 (linear predictor) 및 연결 함수 (link function)의 3 가지 요소로 구성되어 있다.
[오차 구조]
-
오차 구조는 종속 변수가 따르는 확률 분포를 나타낸다.
-
예를 들어, 종속 변수가 높이인 경우 오차 구조는 정규 분포이고 종속 변수가 시드 수를 계산하는 계수 데이터인 경우 오차 구조는 포아송 분포가 된다.
-
상술 한 바와 같이, 일반화 된 선형 모델을 구성 할 때, 종속 변수의 특성에 따라 어떤 종류의 에러 구조가 선택되는지를 결정할 필요가있다.
-
일반화 선형 모형에 사용 된 오차 구조를 지수 분포 집합 이라고 한다.
-
지수 분포 집합의 밀도 함수 / 확률 분포는f (x; θ) = exp (η (θ) T (x) -A (θ) + B (x))의 형태로 표현 될 수 있다.
-
정규 분포, 지수 분포, 감마 분포, 포아송 분포 및 이항 분포와 같은 생물 통계학에서 일반적으로 보이는 대부분의 확률 분포는 지수 분포 집합에 속한다.
[선형 예측]
-
선형 예측 변수는 모수 β와 설계 행렬 x의 곱으로 나타낼 수 있다.
-
여기서 x를 디자인 행렬이라고 하며 랜덤 변수와 모형 매개 변수 간의 관계를 제어한다.
-
예를 들어, Y = xβ의 다음 설계 행렬 x에서 랜덤 변수 Y1은 Y1이 두 개의 매개 변수 β1 및 β2의 영향을 받지만 Y2는 β2의 영향을 받는다는 것을 의미한다.
-
디자인 행렬은 0 또는 1처럼 인자로 구성되기도하고, 또는 1.2이나 2.3와 같은 매개 변수의 가중치로 구성 될 수도 있다.
-
디자인 행렬을 인자로 하거나 또는 가중치로하는 지의 선택 여부는 분석 데이터의 특징에 맞게 결정할 필요가 있다.
-
또한 동일한 데이터에 대해 어떤 결과를 기대하고 있는지에 따라 디자인 행렬을 만드는 방법이 달라진다.
-
따라서, 실험 등을 수행하기 전에 어떤 결과를 기대하고 있는지를 미리 결정 한 후 실험을 수행한다.
[연결 함수]
-
종속 변수가 정규 분포를 따르지 않을 때, E [Y] = Xβ 식으로 모델링하면 정확도가 손실된다.
-
따라서 종속 변수를 함수 G로 변환하고 모델링한다면 모델의 정확도가 향상된다.
-
즉, G (E [Y]) = Xβ. 함수 G는 연결 함수라고 한다.
-
일반적으로 오차 구조가 결정되면, 연결 함수도 자동으로 결정되는 경우가 많다.
참고 문헌
[논문]
- 없음
[보고서]
- 없음
[URL]
- 없음
문의사항
[기상학/프로그래밍 언어]
- sangho.lee.1990@gmail.com
[해양학/천문학/빅데이터]
- saimang0804@gmail.com
본 블로그는 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음