본문 바로가기

IT & AI/AI 지식

가설 검정의 이해와 프로세스, 단일 표본 검정

by 빛나는해커 2024. 12. 3.

안녕하세요! 이번에는 데이터 분석의 기본 개념인 가설 검정에 대해 다뤄보았습니다. 특히 t-test 검정 중 단일 표본 검정을 위주로 정리해보았습니다. 먼저 가설 검정의 정의부터 각 과정에 대한 설명을 해보겠습니다.

 

가설 검정은 통계적 분석에서 데이터를 기반으로 결론을 내리기 위해 매우 중요한 부분입니다.

1. 가설 검정의 기본 개념

  • 모집단: 연구 대상이 되는 전체 집단을 의미한다. 예를 들어, 특정 도시의 모든 시민들이 모집단이 될 수 있다.
  • 표본: 모집단에서 추출한 일부 데이터. 표본은 전체 모집단을 대표하기 위해 추출된 데이터이다.
  • 귀무가설 (H0): 기존에 알려진 사실을 유지하려는 가설. 보통 효과나 차이가 없다는 전제이다.
  • 대립가설 (H1): 연구자가 입증하고자 하는 새로운 사실을 나타내는 가설. 보통 효과나 차이가 있다고 주장한다.
가설 검정은 데이터 분석에서 가장 기초적이면서도 중요한 절차 중 하나이다. 이를 통해 연구자는 데이터를 바탕으로 기존의 주장을 유지할 것인지, 새로운 사실을 입증할 것인지에 대한 결론을 내릴 수 있다. 귀무가설과 대립가설을 잘 설정하고, 올바른 검정 방법을 선택하는 것이 중요하다.

2. 검정 결과와 해석

  • 검정 통계량: 주어진 데이터와 귀무가설 간의 차이를 통계적으로 나타내는 값이다. 이를 통해 데이터가 귀무가설을 지지하는지 판단할 수 있다.
  • p-value (유의확률): 유의수준(보통 0.05)보다 작으면 귀무가설을 기각하고, 대립가설을 채택한다. 반대로 p-value가 유의수준보다 크면 귀무가설을 기각하지 못한다.
    • 유의수준 0.05: 이 값은 오류 가능성을 나타내며, 귀무가설을 기각하는 데 있어 5% 이하의 확률로 오류를 허용한다는 뜻이다.

Tip: 귀무가설을 기각하지 못한다고 해서 귀무가설이 참임을 증명한 것은 아니다. 이는 단지 현재 데이터로는 귀무가설을 기각할 증거가 충분하지 않음을 의미한다.


3. 가설 검정의 프로세스

가설 검정은 몇 가지 단계로 나뉘어 진행된다. 이를 통해 데이터를 기반으로 객관적인 결론을 내릴 수 있다.

  1. 통계적 가설 설정: 귀무가설(H0)과 대립가설(H1)을 설정한다.
  2. 유의수준 결정: 예를 들어, 0.05로 설정하여 귀무가설을 기각할 기준을 정한다.
  3. 검정 통계량 및 p-value 계산: 수집된 데이터를 바탕으로 검정 통계량과 p-value를 계산한다.
  4. 결과 도출 및 해석: p-value가 유의수준보다 작은지 여부에 따라 귀무가설을 기각할지 결정한다.

4. t-검정 (t-test)

t-검정은 평균 차이를 검정하는 데 사용되는 대표적인 방법으로, 여러 종류가 있다:

  • 단일 표본 검정: 하나의 모집단에서 표본을 추출하여 특정 값과 평균이 다른지 검정한다. 예를 들어, 과자의 무게가 200g과 다른지를 검정하는 경우이다.
  • 대응(쌍체) 표본 검정: 동일한 모집단에서 두 번 데이터를 수집하여 변화가 있는지를 검정한다. 예를 들어, 신약을 투여하기 전과 후의 체중 변화를 비교하는 경우이다.
  • 독립 표본 검정: 서로 다른 두 모집단에서 추출한 표본 간의 평균 차이를 검정한다. 예를 들어, 1반과 2반 학생들의 성적 차이를 비교하는 경우이다.

다음 표는 t-검정의 종류와 각각의 예시를 보여준다.

단일 표본 검정 모집단 1개 한 그룹 과자의 무게는 200g과 다른지 검정
대응(쌍체) 표본 검정 모집단 2개 (같은 집단) 같은 그룹 신약 효과 (전후) 검정
독립 표본 검정 모집단 2개 다른 그룹 1반과 2반의 성적 차이 검정

5. 단일 표본 검정의 절차

단일 표본 검정의 절차는 다음과 같은 단계로 진행된다. 이 절차를 통해 데이터의 평균이 특정 값과 다른지를 통계적으로 검증할 수 있다.

 

㉮ 정규분포 가정

단일 표본 검정을 실시하기 위해서는 데이터가 정규분포를 따르는지 확인해야 한다. 이는 데이터가 전체 모집단을 잘 대표하고 있음을 보장하기 위해서이다.

 

㉯ 정규성 검정

데이터가 정규분포를 만족하는지 확인하기 위해 Shapiro-Wilk 검정이나 Kolmogorov-Smirnov 검정을 사용할 수 있다. 이 검정을 통해 데이터가 정규성을 따르는지 여부를 판단하며, p-value가 유의수준보다 크다면 정규분포를 따른다고 판단한다.

 

㉰ 비모수 검정

데이터가 정규분포를 따르지 않는 경우에는 비모수 검정을 사용해야 한다. 대표적인 비모수 검정으로는 **윌콕슨 부호 순위 검정 (Wilcoxon Signed-Rank Test)**이 있다. 비모수 검정은 데이터의 분포에 대한 가정이 없기 때문에 정규성을 만족하지 않을 때 유용하다.

 

㉱ 가설 설정

귀무가설(H0): 표본의 평균이 특정 값과 같다.

대립가설(H1): 표본의 평균이 특정 값과 다르다.

 

㉲ 검정 통계량 계산

데이터를 기반으로 검정 통계량을 계산한다. 정규성을 만족하는 경우에는 t-분포를 이용해 검정 통계량을 계산하며, 비모수 검정의 경우에는 순위 데이터를 활용하여 검정 통계량을 계산한다.

 

㉳ p-value 계산 및 해석

계산된 검정 통계량을 바탕으로 p-value를 도출하고, 이를 유의수준과 비교하여 귀무가설을 기각할지 여부를 결정한다. p-value가 유의수준(예: 0.05)보다 작으면 귀무가설을 기각하고, 그렇지 않으면 기각하지 않는다.

 

㉴ 결과 도출 및 시각화

결과를 도출한 후 이를 시각적으로 표현하여 이해를 돕는다. 예를 들어, 히스토그램이나 Q-Q 플롯을 사용하여 데이터가 정규성을 따르는지 시각적으로 확인할 수 있다. 또한, t-검정 결과는 박스 플롯을 통해 그룹 간 평균의 차이를 시각화할 수 있다.


가설 검정의 이해와 프로세스, 단일 표본 검정 소개 이미지

 

반응형