메인 콘텐츠로 이동하기
  1. 블로그 글/

통계 - 가설 검정 (1)

·2 분

본 글은 pandas 라이브러리를 활용하는 데에 있어 여러 개의 데이터를 하나로 통합하는 방법을 설명하기 위해 작성되었습니다.

통계학에서 가설(Hypothesis)은 어떤 주장이나 추정을 나타내는 명제이며, 모수에 대한 가정/잠정적 결론을 뜻합니다.

가설의 종류 #

가설은 아래와 같이 두 가지 형태로 나타낼 수 있습니다.

1. 귀무가설 (Null Hypothesis, H0) #

귀무가설 기존과 비교하여 아무런 변화 혹은 차이가 없음을 나타내는 가설로, 일종의 ‘디폴트’  가설입니다.

검정 방법에 따라 귀무가설의 내용이 달라집니다. 예를 들자면, “두 그룹의 평균은 같다"와 같은 주장이 귀무가설로 설정될 수 있습니다.

2. 대립가설 (Alternative Hypothesis, H1) #

대립가설은 귀무가설에 대립하는 주장이며,  표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설입니다. 예를 들어, “두 그룹의 평균은 다르다"와 같은 주장이 대립가설로 설정될 수 있습니다.

통계적 검정을 통해 주어진 데이터를 사용하여 귀무가설을 기각할지, 아니면 기각할 근거가 없어서 귀무가설을 기각하지 못한다는 것을 결정하게 됩니다. 검정 결과에서 대립가설이 참이라는 확실한 근거를 발견할 경우,  귀무가설을 기각합니다.

통계학에서 주장하고 싶은 이러한 가설의 타당성을 검증하는 과정이 바로 가설 검정입니다.

가설 검정 #

1. 가설 설정 #

가설 검정의 첫 단계는 조사하고자 하는 문제에 따라 귀무가설(H0)과 대립가설(H1)을 설정하는 것입니다.

2. 표본 분석 #

다음으로는, 전체 모집단에서 일부를 대표할 수 있는 표본을 추출합니다. 이 표본에 대해 데이터를 수집하고 분석합니다. 이로써 통계적 분석에 사용할 자료를 확보합니다.

3. 가설의 타당성 검정 #

수집된 데이터를 사용하여 가설을 검정합니다. 통계적 기법을 활용하여 귀무가설을 기각할지, 아니면 기각할 근거가 없어서 귀무가설을 채택할지를 결정합니다. 이는 유의 수준과 검정통계량을 고려하여 이루어집니다.

유의 수준 (Level of Significance)

유의 수준은 주로 α(alpha)로 표기되며, 실험 또는 조사에서 귀무가설을 기각하는 기준 확률을 나타냅니다.

흔히 사용되는 유의 수준은 0.05(5%)이지만, 실험의 성격이나 연구의 특성에 따라 0.01 또는 0.10 등 다른 값을 사용할 수 있습니다.

검정통계량

검정통계량은 수집한 데이터와 가설이 얼마나 일치하는지를 측정하는 지표로, 모수 추론을 하기 위해서 필요한 표본 통계량입니다. 검정통계량은 가설 검정에서 중요한 역할을 하며, 귀무가설의 기각 여부를 결정하는 데 사용됩니다.

가설을 검정하다 보면, 통계적인 오류가 발생할 경우가 항상 존재하는데 이를 가설 검정 오류라고 합니다.

가설 검정 오류 #

1. 제1종 오류 #

제1종 오류란 귀무가설이 참일 때, 귀무가설을 기각하는 오류를 말합니다. 제1종 오류가 발생하는 원인은 통계적 검정에서 유의 수준(significance level)을 설정하게 되는데, 이 수준에서 귀무가설을 기각할 때, 우연히 발생합니다.

예시) 실제로는 효과가 없는데도, 우리가 효과가 있다고 잘못 결론 내리는 상황

2. 제2종 오류 #

제2종 오류란 대립가설이 참일 때, 귀무가설을 채택하는 오류를 말합니다. 제2종 오류가 발생하는 원인은 검정력(power)이 부족하여 실제로 존재하는 효과를 감지하지 못할 때 발생합니다.

예시) 실제로는 효과가 있지만, 통계적 검정에서 그 효과를 찾지 못하여 귀무가설을 채택하는 상황