개요
선형회귀모형
을 보자. 여기서 이고, , 및 라고 하자. 기본적인 가정에 따르면
이다. 즉 오차항은 ① 모든 표본에 대해 분산이 같고, ② 자기상관이 없다. 이에 더해 가설검정을 하기 위해서, 소표본일 때에는 ③ 추가적으로 정규분포의 가정을 더하여 통상적인 검정이나 검정을 한다. 대표본일 때에는 점근적인 성질을 이용한다.
그러나 이분산이 존재할 경우, 라고 할 때
이고 에 대해 이다.
또한 자기상관이 존재할 경우에는 에 대해 이다.
Gauss-Markov 정리에 따르면, 내생성이 존재하지 않는 선형회귀모형에서 오차항이 동분산이고 자기상관을 갖지 않는 경우, OLS 추정량은 선형 불편 추정량 중에서 분산이 가장 작다(BLUE). 또한 오차항이 정규분포를 따른다는 추가적인 가정이 더해지는 경우, Rao-Blackwell 정리와 Lehmann-Scheffe 정리에 의해 OLS 추정량은 유일한, 분산이 가장 작은 불편추정량이 된다(UMVUE).
그러나 이분산이나 자기상관이 존재하는 경우에는, OLS 추정량은 여전히 불편추정량이고 일치추정량이지만, 분산이 최소임을 보장할 수 없다(단 에는 종속변수의 lagged 변수가 없다고 가정).
분산이 최소임을 보장할 수 없기 때문에 이를 근거로 하는 가설검정 역시 신뢰할 수 없게 된다.
검정법
이분산
동분산이라면 이고 아니라면 이므로, 일반적으로 이분산을 검정하기 위해선 오차의 제곱, 즉 분산이 설명변수와 상관성이 있는지 여부를 검정한다.
Breusch–Pagan Test
브로이슈-파간 검정은, LM검정의 일종이며, 다음과 같이 가설을 설정한다.
여기서 는 동분산을 깨뜨릴 수 있다고 의심되는 변수들의 함수(주로 독립변수의 일부 또는 변환)이다. 이 검정은 1단계로 원래의 모형을 추정하여 잔차 을 얻은 후에 2단계로 다음과 같은 보조회귀(auxiliary regression)
를 추정한 다음 결정계수 를 계산한다. 이제 LM통계량은 귀무가설 하에서, 점근적으로 자유도가 인 카이제곱분포를 따른다.
White Test
화이트 검정은 1단계로 원 모형을 추정하여 얻은 잔차의 제곱을, 2단계로 원래 회귀모형의 모든 설명변수, 각 설명변수의 제곱, 그리고 각 설명변수들의 교호작용항으로 적합하여 얻은 를 이용하여 검정통계량을 으로 설정한다. 이 검정통계량은 을 따르는데, 이 때 는 보조회귀에 들어간 설명변수의 개수이다.
자기상관
Dubin-Watson Test
아래 선형회귀 모형
에서 오차항이 AR(1)구조
를 따르는지 여부를 확인하고 싶다. 이 경우 잔차 의 표본자기상관계수
에 대해서, 이 값이 0인지 여부를 확인하면 된다. 그러나 의 유한표본분포는 독립변수인 와 얽혀있어서 그 분포를 직접 이용해서 가설검정을 하기에 번거롭다. 대신 다음의 더빈-왓슨 통계량
을 사용한다. 왜냐하면 을 1차차분행렬이라고 하면 는
과 같은 이차형식(quadratic-form)의 비율로 표현되어 분포가 의 고유값에만 의존하게 되어, 분포의 임계값을 유의수준, 표본 크기, 설명변수 개수별로 상한 과 하한 를 상대적으로 손쉽게 계산할 수 있게 되기 때문이다.
때문에 인지 여부를 검정하기 위해서는 다음 절차를 거치면 된다.
이고, 유의수준 에서 양의 자기상관을 검정하려면 검정통계량 에 대해
- 라면 오차항이 양의 자기상관관계를 가지고 있다고 판단한다.
- 라면 오차항이 양의 자기상관관계를 가지고 있다고 볼만한 근거가 없다고 판단한다.
- 라면 불확정이라고 판단한다. 이 불확정의 영역은 AR(1)의 가정이 위배되거나 독립변수 내에 ‘종속변수의 시차(lagged variable)‘가 포함되는 경우 넓어져 검정력(power)을 떨어뜨린다.
한편 유의수준 에서 음의 자기상관을 검정하려면 에 대해
- 라면 오차항이 음의 자기상관관계를 가지고 있다고 판단한다.
- 라면 오차항이 음의 자기상관관계를 가지고 있다고 볼만한 근거가 없다고 판단한다.
- 라면 불확정이라고 판단한다.
Durbin Test
더빈-왓슨 통계량은 독립변수 내에 종속변수의 시차변수가 포함되는 경우(ex. 자기회귀 이동평균 모형) 편향을 갖게 되어, 자기상관이 과소평가된다. 이를 교정하기 위해 다음과 같은 더빈 통계량을 이용해 가설검정을 한다.
단, 여기서 는 종속변수의 시차변수에 대한 추정량이다. 이 통계량은 귀무가설 하에서 점근적으로 표준정규분포를 따른다.
Breusch–Godfrey Test
만일 오차항이 AR(1)이 아니라, 자기상관의 차수가 1이 아니라 더 크다고 예상된다면 LM검정 방식의 브로이쉬-갓프레이 검정을 사용한다. 이 검정은 잔차가 자기 자신의 시차에 대해 설명력을 갖는지 여부를 직접 검증해보는 것으로, 잔차 에 대해
의 보조회귀(auxiliary regression)를 적합한 후, 결정계수 를 계산하면,
은 귀무가설 하에서 자유도가 인 카이제곱분포를 따른다. 단, 여기서 는 표본의 개수이고, 는 오차항이 갖는 자기상관의 차수이다.
Ljung–Box Q Test
잔차가 여러 시차의 자기상관이 동시에 0인지 여부를 검정하기 위해서는 융-박스 Q 검정을 한다. 즉 브로이쉬-갓프레이 검정과는 달리, 차수의 융-박스 검정은, 자기상관이 1차,2차,…,차까지 없다는 이야기이다. 검정통계량은 다음과 같다.
여기서 는 표본의 개수이고 은 검정하고자 하는 자기상관의 차수이다. 이 통계량을 사용하여 귀무가설 여부를 판단한다. 여기에서 을 어떤 값으로 선택하는지가 핵심이다. 너무 작은 은 고차 자기상관을 놓치게 되고 너무 큰 은 자유도를 늘려서 검정력을 약화시킨다.
해결법
만일 이분산이나 자기상관이 유의하게 검출되는 경우, 두 가지의 해결방안이 존재한다. 첫 번째로는 GLS를 적합시켜 오차공분산 구조를 명시적으로 모형화하는 것이다. 예를 들어 오차항이 AR(1)을 따른다면 Cochrane–Orcutt 방식의 추정을 통해, 즉
를 재추정하여 효율적인 추정량을 얻을 수 있다.
두 번째로는 모형은 그대로 둔 채로 분산-공분산 행렬을 Newey-West HAC 방식으로 바꾸는 것이다. 즉,
로 추정한다. 여기서 이다. 통상적으로 로 정한다.