검정 통계량
- 통계적 가설의 진위를 검정하기 위해 표본으로부터 계산하는 통계량이다.
- t-value, F-value, z-value 등이 바로 검정 통계량이다.
- 쉽게 말해, 표본 데이터를 이용해 세운 가설이 맞는지를 판단할 수 있는 도구라고 할 수 있다.
t-value의 의미
- t-value는 두 표본 집단의 차이를 평균을 중심으로 비교하며, 이를 불확실도로 나누어 계산한다.
- 이 값은 차이가 클수록, 불확실도가 작을수록 커지며, 통계적으로 유의미한 차이가 있음을 의미한다.
t-value의 수학적 정의
- 두 집단의 평균 차이: ( \bar{X}_1 - \bar{X}_2 )
- 두 집단 평균 차이의 불확실도(표준 오차): ( s_{\bar{X}_1 - \bar{X}_2} = \sqrt{s_1^2/n_1 + s_2^2/n_2} )
- 따라서, t-value 공식:
( t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} )
모집단에서의 t-value 분포 확인하기
- 모집단에서 무작위로 표본을 추출하여 여러 차례 t-value를 계산하면, 그 값들은 특정 분포를 이룬다.
- 통계적 의미: 하나의 모집단에서 두 개의 표본 집단이 나왔을 가능성을 확률로 확인할 수 있다.
t-value의 다양한 변형
- 두 집단의 표준편차가 같다고 가정하면, ‘pooled standard deviation’을 사용할 수 있다.
- 두 가지 주요 케이스:
- 두 표본 집단의 크기와 분산이 같은 경우
- 두 표본 집단의 크기는 다르지만 분산이 같은 경우
- 각 경우에 따라 t-value 계산 방식이 달라진다.
n 값이 t-value에 미치는 영향
- 표본의 크기(n)는 표본 평균의 표준오차에 영향을 준다.
- 더 큰 표본은 평균값 추정에 대한 확신을 높여 주므로 표준 오차가 작아진다.
- 따라서, n이 클수록 더 확실한 t-value를 얻을 수 있다.
충분히 큰 t-value란?
- t-value가 크다면, 두 집단이 같은 모집단에서 나왔을 가능성이 낮다는 것을 의미한다.
- t-분포를 이용해 t-value가 특정 임계값을 넘어설 때 통계적으로 유의미하다고 판단한다.
참고