범주형 자료 분석
적합도 검정 - (Goodness of-fit test) • 기존의 알려진 (통계적)이론상의 특정 분포와 관찰 혹은 실험상의 분포와 동일한지 검정 • 검정통계량 : 카이제곱 통계량 – 자유도가 k-1인 카이제곱 분포를 따름 – k : 범주형 자료의 범주의 개수
–
𝜒2
=
2 𝑘 (𝑂𝑖 −𝐸𝑖 ) , 𝑖=1 𝐸 𝑖
(𝑂𝑖 : i 번째 셀의 관측빈도,
𝐸𝑖 : i 번째 셀의 기대빈도) – 검정통계량은 𝐻0 가 참이라는 가정하에… • 카이제곱 통계량에서 검정통계량에서 𝐸𝑖 를 구할 때 사용하는 확률을 𝐻0 로부 터 가져온다.
한림대학교 이윤환(http://fb.com/yoonani72)
적합도 검정 - (Goodness of-fit test) • 예제) 맨델의 유전법칙 – 멘델의 유전법칙에 의하면 4가지 완두콩 모양이 나타 날 비율은 9:3:3:1이라고 한다. 멘델의 유전법칙을 알 아보기 위하여 완두콩을 재배한 결과 다음과 같은 수 확을 얻었다(총 556 종)
개체수
둥글고 노랑 (RY)
둥글고 녹색 (Ry)
주름지고 노랑 (rY)
주름지고 녹색 (ry)
315
101
108
32
– 맨델의 유전법칙은 잘 맞는 것인지 유의수준 0.05에 서 검정하라. 한림대학교 이윤환(http://fb.com/yoonani72)
ě í•Šë?„ ę˛€ě • - (Goodness of-fit test) • ę¸°ëŒ€ëšˆë?„ ę´€ě°°ëšˆë?„
315
101
108
32
đ?‘Żđ?&#x;Ž 하ě?˜ 확ëĽ
9 16
3 16
3 16
1 16
ę¸°ëŒ€ëšˆë?„
9 16 = 312.75 556 Ă—
3 16 = 104.25 556 Ă—
3 16 = 104.25 556 Ă—
• ěž?ěœ ë?„ : k-1 = 4 - 1 = 3
í•œëŚźëŒ€í•™ęľ? ě?´ěœ¤í™˜(http://fb.com/yoonani72)
1 16 = 34.75 556 Ă—
적합도 검정 - (Goodness of-fit test) • 검정통계량을 구하기 위한 R 사용과 판정 > mandel <- c(315, 101, 108, 32) > prob <- c(9, 3, 3, 1)/16 > chisq.test(mandel, p=prob) Chi-squared test for given probabilities data: mandel X-squared = 0.47, df = 3, p-value = 0.9254
한림대학교 이윤환(http://fb.com/yoonani72)
분할표 (Contingency Table) • 𝑟 × 𝑐 분할표(교차표) – 하나의 확률표본을 추출하여 c개의 집단으로 분류 – 또 다른 모집단으로부터 하나의 확률표본을 추출하여 c개의 집단으로 분류 – 이런 방식으로 r개의 모집단으로부터 추출된 확률표본 을 c개의 집단으로 분류 – 이상을 2차원의 표로 나타낸 것 – 분할표 상의 자유도는 (𝑟 − 1) × (𝑐 − 1)
한림대학교 이윤환(http://fb.com/yoonani72)
독립성 검정 • 두 변수의 독립 여부 검정 – 두 변수간에 연관(혹은 관계)없음 : 서로 영향을 미치지 않는다. – 가설 • 영가설 : 𝑝𝑖𝑗 = 𝑝𝑖. × 𝑝.𝑗 , 𝑖 = 1 … 𝑟, 𝑗 = 1 … 𝑐 두 변수는 독립이다. (연관이 없다) • 대안가설 : not 𝐻0 두 변수는 독립이 아니다. (연관이 있다)
– 검정통계량 • 𝜒 2𝑟−1
𝑐−1
• 𝐸𝑖𝑗 = 𝑛 ×
= 𝑛𝑖. 𝑛
×
𝑟 𝑖=1
𝑛.𝑗 𝑛
=
𝑐 𝑗=1
𝑂𝑖𝑗 −𝐸𝑖𝑗 𝐸𝑖𝑗
2
,
𝑖 = 1 … 𝑟, 𝑗 = 1 … 𝑐
𝑛𝑖. ×𝑛.𝑗 𝑛
한림대학교 이윤환(http://fb.com/yoonani72)
독립성 검정 • 예제) 소득수준이 우울증에 영향을 미치는지 알기 위해 300명을 임의추출하여 조사한 결과 다음을 얻었다. 이 자료에 의하면 소득수준이 우울증에 영향을 미친다고 할 수 있는지를 유의수준 0.05에서 검정하라. – R을 이용한 통계학, 임동훈 저, 자유아카데미, 2013, p192 소득수준
우울증상
있다
없다
저소득
33
67
중간층
28
122
고소득
5
45
한림대학교 이윤환(http://fb.com/yoonani72)
독립성 검정 – 가설 • 영가설 : 소득수준은 우울증에 영향을 미치지 않는다. • 대안가설 : 소득수준은 우울증에 영향을 미친다.
– 관찰도수와 기대도수 소득수준
우울증상
합계
있다
없다
저소득
33 (22)
67 (78)
100
중간층
28 (33)
122 (117)
150
고소득
5 (11)
45 (39)
50
합계
66
234
300
– 자유도 : (3-1) x (2-1) = 2 한림대학교 이윤환(http://fb.com/yoonani72)
독립성 검정 • 검정통계량을 구하기 위한 R 사용과 판정 > data <- matrix(c(33, 28, 5, 67, 122, 45), ncol=2) > data [,1] [,2] [1,] 33 67 [2,] 28 122 [3,] 5 45 > chisq.test(data) Pearson's Chi-squared test data: data X-squared = 12.2183, df = 2, p-value = 0.002222
한림대학교 이윤환(http://fb.com/yoonani72)
동일성 검정 • 모집단 내의 하위 모집단들이 각 범주에 대하여 동일 한지 검정 – 가설 • 영가설 : (𝑝1𝑗 = 𝑝2𝑗 = … = 𝑝𝑟𝑗 ) = 𝑝𝑗 , 𝑗 = 1, … , 𝑐 하위 모집단은 동일하다. (분포가 같다) • 대안가설 : 𝑛𝑜𝑡 𝐻0 하위 모집단은 동일하지 않다. (분포가 다르다)
– 검정통계량 : 독립성검정과 같은 카이제곱 통계량 • 영가설 하에서 공통확률 𝑝1 , 𝑝2 , … , 𝑝𝑐 • 이들의 추정확률은 각 열의 수가 차지하는 비율 즉, 𝑛.1 𝑛.2 𝑛.𝑐 𝑝1 = , 𝑝2 = , … , 𝑝𝑐 = 𝑛 𝑛 𝑛 𝑛𝑖. ×𝑛.𝑗 • 𝐸𝑖𝑗 = 𝑛𝑖. × 𝑝𝑗 = 𝑛 , 독립성검정과 동일 한림대학교 이윤환(http://fb.com/yoonani72)
동일성 검정 • 예제) 간호사의 성별에 따라 내과, 외과, 중환자실에 대 한 선호도가 다른지 조사하고자 남자 간호사 100명과 여 자 간호사 100명을 무작위로 추출하여 선호하는 희망부 서에 대한 분포가 다음과 같이 주어졌다. 성별에 따른 희 망부서의 선호도가 같다고 할 수 있는지 유의수준 0.05 에서 검정하라. – R을 이용한 통계학, 임동훈 저, 자유아카데미, 2013, p194을 수정 내과
외과
중환자실
남자
30
30
40
여자
40
35
25
독립성 검정 – 가설 • 영가설 : 성별에 따라 영역의 선호도가 동일하다 • 대안가설 : 성별에 따라 영역의 선호도가 동일하지 않다.
– 관찰도수와 기대도수 내과
외과
중환자실
합계
남자
30 (35)
30 (32.5)
40 (32.5)
100
여자
40 (35)
35 (32.5)
25 (32.5)
100
합계
70
65
65
200
– 자유도 : (2-1) x (3-1) = 2 한림대학교 이윤환(http://fb.com/yoonani72)
동일성 검정 • 검정통계량을 구하기 위한 R 사용과 판정 > pref <- matrix( c(30, 40, 30, 35, 40, 25), ncol=3) > pref [,1] [,2] [,3] [1,] 30 30 40 [2,] 40 35 25 > chisq.test(pref) Pearson's Chi-squared test data: pref X-squared = 5.2747, df = 2, p-value = 0.07155
한림대학교 이윤환(http://fb.com/yoonani72)
독립성 검정과 동일성 검정 • 영가설 – 독립성검정 : 𝑝𝑖𝑗 = 𝑝𝑖. × 𝑝.𝑗 , 𝑖 = 1 … 𝑟, 𝑗 = 1 … 𝑐 – 동일성검정 : 𝑝1𝑗 = 𝑝2𝑗 = … = 𝑝𝑟𝑗 , 𝑗 = 1, … , 𝑐
• 동일성 검정 – 𝑝11 = 𝑃 𝑐1 𝑟1 =
𝑃 𝑐1 ∩𝑟1 𝑃 𝑟1
= 𝑃 𝑐1 = 𝑝1
– 𝑝21 = 𝑃 𝑐1 𝑟2 =
𝑃 𝑐1 ∩𝑟2 𝑃 𝑟2
= 𝑃 𝑐1 = 𝑝1
–…
–
𝑃 𝑐1 ∩𝑟𝑖 𝑃 𝑖
= 𝑃 𝑐1 이려면 𝑐1 ⊥ 𝑟𝑖 (서로 독립)