안녕하세요! 이번에는 데이터 분석의 기본 개념인 가설 검정에 대해 다뤄보았습니다. 특히 t-test 검정 중 단일 표본 검정을 위주로 정리해보았습니다. 먼저 가설 검정의 정의부터 각 과정에 대한 설명을 해보겠습니다.
가설 검정은 통계적 분석에서 데이터를 기반으로 결론을 내리기 위해 매우 중요한 부분입니다.
1. 가설 검정의 기본 개념
- 모집단: 연구 대상이 되는 전체 집단을 의미한다. 예를 들어, 특정 도시의 모든 시민들이 모집단이 될 수 있다.
- 표본: 모집단에서 추출한 일부 데이터. 표본은 전체 모집단을 대표하기 위해 추출된 데이터이다.
- 귀무가설 (H0): 기존에 알려진 사실을 유지하려는 가설. 보통 효과나 차이가 없다는 전제이다.
- 대립가설 (H1): 연구자가 입증하고자 하는 새로운 사실을 나타내는 가설. 보통 효과나 차이가 있다고 주장한다.
가설 검정은 데이터 분석에서 가장 기초적이면서도 중요한 절차 중 하나이다. 이를 통해 연구자는 데이터를 바탕으로 기존의 주장을 유지할 것인지, 새로운 사실을 입증할 것인지에 대한 결론을 내릴 수 있다. 귀무가설과 대립가설을 잘 설정하고, 올바른 검정 방법을 선택하는 것이 중요하다.
2. 검정 결과와 해석
- 검정 통계량: 주어진 데이터와 귀무가설 간의 차이를 통계적으로 나타내는 값이다. 이를 통해 데이터가 귀무가설을 지지하는지 판단할 수 있다.
- p-value (유의확률): 유의수준(보통 0.05)보다 작으면 귀무가설을 기각하고, 대립가설을 채택한다. 반대로 p-value가 유의수준보다 크면 귀무가설을 기각하지 못한다.
- 유의수준 0.05: 이 값은 오류 가능성을 나타내며, 귀무가설을 기각하는 데 있어 5% 이하의 확률로 오류를 허용한다는 뜻이다.
Tip: 귀무가설을 기각하지 못한다고 해서 귀무가설이 참임을 증명한 것은 아니다. 이는 단지 현재 데이터로는 귀무가설을 기각할 증거가 충분하지 않음을 의미한다.
3. 가설 검정의 프로세스
가설 검정은 몇 가지 단계로 나뉘어 진행된다. 이를 통해 데이터를 기반으로 객관적인 결론을 내릴 수 있다.
- 통계적 가설 설정: 귀무가설(H0)과 대립가설(H1)을 설정한다.
- 유의수준 결정: 예를 들어, 0.05로 설정하여 귀무가설을 기각할 기준을 정한다.
- 검정 통계량 및 p-value 계산: 수집된 데이터를 바탕으로 검정 통계량과 p-value를 계산한다.
- 결과 도출 및 해석: p-value가 유의수준보다 작은지 여부에 따라 귀무가설을 기각할지 결정한다.
4. t-검정 (t-test)
t-검정은 평균 차이를 검정하는 데 사용되는 대표적인 방법으로, 여러 종류가 있다:
- 단일 표본 검정: 하나의 모집단에서 표본을 추출하여 특정 값과 평균이 다른지 검정한다. 예를 들어, 과자의 무게가 200g과 다른지를 검정하는 경우이다.
- 대응(쌍체) 표본 검정: 동일한 모집단에서 두 번 데이터를 수집하여 변화가 있는지를 검정한다. 예를 들어, 신약을 투여하기 전과 후의 체중 변화를 비교하는 경우이다.
- 독립 표본 검정: 서로 다른 두 모집단에서 추출한 표본 간의 평균 차이를 검정한다. 예를 들어, 1반과 2반 학생들의 성적 차이를 비교하는 경우이다.
다음 표는 t-검정의 종류와 각각의 예시를 보여준다.
단일 표본 검정 | 모집단 1개 | 한 그룹 | 과자의 무게는 200g과 다른지 검정 |
대응(쌍체) 표본 검정 | 모집단 2개 (같은 집단) | 같은 그룹 | 신약 효과 (전후) 검정 |
독립 표본 검정 | 모집단 2개 | 다른 그룹 | 1반과 2반의 성적 차이 검정 |
5. 단일 표본 검정의 절차
단일 표본 검정의 절차는 다음과 같은 단계로 진행된다. 이 절차를 통해 데이터의 평균이 특정 값과 다른지를 통계적으로 검증할 수 있다.
㉮ 정규분포 가정
단일 표본 검정을 실시하기 위해서는 데이터가 정규분포를 따르는지 확인해야 한다. 이는 데이터가 전체 모집단을 잘 대표하고 있음을 보장하기 위해서이다.
㉯ 정규성 검정
데이터가 정규분포를 만족하는지 확인하기 위해 Shapiro-Wilk 검정이나 Kolmogorov-Smirnov 검정을 사용할 수 있다. 이 검정을 통해 데이터가 정규성을 따르는지 여부를 판단하며, p-value가 유의수준보다 크다면 정규분포를 따른다고 판단한다.
㉰ 비모수 검정
데이터가 정규분포를 따르지 않는 경우에는 비모수 검정을 사용해야 한다. 대표적인 비모수 검정으로는 **윌콕슨 부호 순위 검정 (Wilcoxon Signed-Rank Test)**이 있다. 비모수 검정은 데이터의 분포에 대한 가정이 없기 때문에 정규성을 만족하지 않을 때 유용하다.
㉱ 가설 설정
귀무가설(H0): 표본의 평균이 특정 값과 같다.
대립가설(H1): 표본의 평균이 특정 값과 다르다.
㉲ 검정 통계량 계산
데이터를 기반으로 검정 통계량을 계산한다. 정규성을 만족하는 경우에는 t-분포를 이용해 검정 통계량을 계산하며, 비모수 검정의 경우에는 순위 데이터를 활용하여 검정 통계량을 계산한다.
㉳ p-value 계산 및 해석
계산된 검정 통계량을 바탕으로 p-value를 도출하고, 이를 유의수준과 비교하여 귀무가설을 기각할지 여부를 결정한다. p-value가 유의수준(예: 0.05)보다 작으면 귀무가설을 기각하고, 그렇지 않으면 기각하지 않는다.
㉴ 결과 도출 및 시각화
결과를 도출한 후 이를 시각적으로 표현하여 이해를 돕는다. 예를 들어, 히스토그램이나 Q-Q 플롯을 사용하여 데이터가 정규성을 따르는지 시각적으로 확인할 수 있다. 또한, t-검정 결과는 박스 플롯을 통해 그룹 간 평균의 차이를 시각화할 수 있다.
'IT & AI > AI 지식' 카테고리의 다른 글
범주형 데이터 분석: 카이제곱 검정 (Chi-Square Test) (0) | 2024.12.05 |
---|---|
대응 표본 검정, 독립 표본 검정 정리 (1) | 2024.12.04 |
SQL 최적화 인덱스, 분산 데이터베이스, 그리고 PL/SQL (0) | 2024.12.02 |
SQL 최적화 윈도우 함수, 테이블 파티션, 옵티마이저 (1) | 2024.12.01 |
SQL 활용 서브쿼리(SubQuery), 계층형 조회 (0) | 2024.11.30 |