Issuu on Google+

범주형 자료 분석


적합도 검정 - (Goodness of-fit test) • 기존의 알려진 (통계적)이론상의 특정 분포와 관찰 혹은 실험상의 분포와 동일한지 검정 • 검정통계량 : 카이제곱 통계량 – 자유도가 k-1인 카이제곱 분포를 따름 – k : 범주형 자료의 범주의 개수

𝜒2

=

2 𝑘 (𝑂𝑖 −𝐸𝑖 ) , 𝑖=1 𝐸 𝑖

(𝑂𝑖 : i 번째 셀의 관측빈도,

𝐸𝑖 : i 번째 셀의 기대빈도) – 검정통계량은 𝐻0 가 참이라는 가정하에… • 카이제곱 통계량에서 검정통계량에서 𝐸𝑖 를 구할 때 사용하는 확률을 𝐻0 로부 터 가져온다.

한림대학교 이윤환(http://fb.com/yoonani72)


적합도 검정 - (Goodness of-fit test) • 예제) 맨델의 유전법칙 – 멘델의 유전법칙에 의하면 4가지 완두콩 모양이 나타 날 비율은 9:3:3:1이라고 한다. 멘델의 유전법칙을 알 아보기 위하여 완두콩을 재배한 결과 다음과 같은 수 확을 얻었다(총 556 종)

개체수

둥글고 노랑 (RY)

둥글고 녹색 (Ry)

주름지고 노랑 (rY)

주름지고 녹색 (ry)

315

101

108

32

– 맨델의 유전법칙은 잘 맞는 것인지 유의수준 0.05에 서 검정하라. 한림대학교 이윤환(http://fb.com/yoonani72)


ě  í•Šë?„ 검정 - (Goodness of-fit test) • ę¸°ëŒ€ëšˆë?„ ę´€ě°°ëšˆë?„

315

101

108

32

đ?‘Żđ?&#x;Ž 하ě?˜ 확뼠

9 16

3 16

3 16

1 16

ę¸°ëŒ€ëšˆë?„

9 16 = 312.75 556 Ă—

3 16 = 104.25 556 Ă—

3 16 = 104.25 556 Ă—

• ěž?ěœ ë?„ : k-1 = 4 - 1 = 3

í•œëŚźëŒ€í•™ęľ? ě?´ěœ¤í™˜(http://fb.com/yoonani72)

1 16 = 34.75 556 Ă—


적합도 검정 - (Goodness of-fit test) • 검정통계량을 구하기 위한 R 사용과 판정 > mandel <- c(315, 101, 108, 32) > prob <- c(9, 3, 3, 1)/16 > chisq.test(mandel, p=prob) Chi-squared test for given probabilities data: mandel X-squared = 0.47, df = 3, p-value = 0.9254

한림대학교 이윤환(http://fb.com/yoonani72)


분할표 (Contingency Table) • 𝑟 × 𝑐 분할표(교차표) – 하나의 확률표본을 추출하여 c개의 집단으로 분류 – 또 다른 모집단으로부터 하나의 확률표본을 추출하여 c개의 집단으로 분류 – 이런 방식으로 r개의 모집단으로부터 추출된 확률표본 을 c개의 집단으로 분류 – 이상을 2차원의 표로 나타낸 것 – 분할표 상의 자유도는 (𝑟 − 1) × (𝑐 − 1)

한림대학교 이윤환(http://fb.com/yoonani72)


독립성 검정 • 두 변수의 독립 여부 검정 – 두 변수간에 연관(혹은 관계)없음 : 서로 영향을 미치지 않는다. – 가설 • 영가설 : 𝑝𝑖𝑗 = 𝑝𝑖. × 𝑝.𝑗 , 𝑖 = 1 … 𝑟, 𝑗 = 1 … 𝑐 두 변수는 독립이다. (연관이 없다) • 대안가설 : not 𝐻0 두 변수는 독립이 아니다. (연관이 있다)

– 검정통계량 • 𝜒 2𝑟−1

𝑐−1

• 𝐸𝑖𝑗 = 𝑛 ×

= 𝑛𝑖. 𝑛

×

𝑟 𝑖=1

𝑛.𝑗 𝑛

=

𝑐 𝑗=1

𝑂𝑖𝑗 −𝐸𝑖𝑗 𝐸𝑖𝑗

2

,

𝑖 = 1 … 𝑟, 𝑗 = 1 … 𝑐

𝑛𝑖. ×𝑛.𝑗 𝑛

한림대학교 이윤환(http://fb.com/yoonani72)


독립성 검정 • 예제) 소득수준이 우울증에 영향을 미치는지 알기 위해 300명을 임의추출하여 조사한 결과 다음을 얻었다. 이 자료에 의하면 소득수준이 우울증에 영향을 미친다고 할 수 있는지를 유의수준 0.05에서 검정하라. – R을 이용한 통계학, 임동훈 저, 자유아카데미, 2013, p192 소득수준

우울증상

있다

없다

저소득

33

67

중간층

28

122

고소득

5

45

한림대학교 이윤환(http://fb.com/yoonani72)


독립성 검정 – 가설 • 영가설 : 소득수준은 우울증에 영향을 미치지 않는다. • 대안가설 : 소득수준은 우울증에 영향을 미친다.

– 관찰도수와 기대도수 소득수준

우울증상

합계

있다

없다

저소득

33 (22)

67 (78)

100

중간층

28 (33)

122 (117)

150

고소득

5 (11)

45 (39)

50

합계

66

234

300

– 자유도 : (3-1) x (2-1) = 2 한림대학교 이윤환(http://fb.com/yoonani72)


독립성 검정 • 검정통계량을 구하기 위한 R 사용과 판정 > data <- matrix(c(33, 28, 5, 67, 122, 45), ncol=2) > data [,1] [,2] [1,] 33 67 [2,] 28 122 [3,] 5 45 > chisq.test(data) Pearson's Chi-squared test data: data X-squared = 12.2183, df = 2, p-value = 0.002222

한림대학교 이윤환(http://fb.com/yoonani72)


동일성 검정 • 모집단 내의 하위 모집단들이 각 범주에 대하여 동일 한지 검정 – 가설 • 영가설 : (𝑝1𝑗 = 𝑝2𝑗 = … = 𝑝𝑟𝑗 ) = 𝑝𝑗 , 𝑗 = 1, … , 𝑐 하위 모집단은 동일하다. (분포가 같다) • 대안가설 : 𝑛𝑜𝑡 𝐻0 하위 모집단은 동일하지 않다. (분포가 다르다)

– 검정통계량 : 독립성검정과 같은 카이제곱 통계량 • 영가설 하에서 공통확률 𝑝1 , 𝑝2 , … , 𝑝𝑐 • 이들의 추정확률은 각 열의 수가 차지하는 비율 즉, 𝑛.1 𝑛.2 𝑛.𝑐 𝑝1 = , 𝑝2 = , … , 𝑝𝑐 = 𝑛 𝑛 𝑛 𝑛𝑖. ×𝑛.𝑗 • 𝐸𝑖𝑗 = 𝑛𝑖. × 𝑝𝑗 = 𝑛 , 독립성검정과 동일 한림대학교 이윤환(http://fb.com/yoonani72)


동일성 검정 • 예제) 간호사의 성별에 따라 내과, 외과, 중환자실에 대 한 선호도가 다른지 조사하고자 남자 간호사 100명과 여 자 간호사 100명을 무작위로 추출하여 선호하는 희망부 서에 대한 분포가 다음과 같이 주어졌다. 성별에 따른 희 망부서의 선호도가 같다고 할 수 있는지 유의수준 0.05 에서 검정하라. – R을 이용한 통계학, 임동훈 저, 자유아카데미, 2013, p194을 수정 내과

외과

중환자실

남자

30

30

40

여자

40

35

25


독립성 검정 – 가설 • 영가설 : 성별에 따라 영역의 선호도가 동일하다 • 대안가설 : 성별에 따라 영역의 선호도가 동일하지 않다.

– 관찰도수와 기대도수 내과

외과

중환자실

합계

남자

30 (35)

30 (32.5)

40 (32.5)

100

여자

40 (35)

35 (32.5)

25 (32.5)

100

합계

70

65

65

200

– 자유도 : (2-1) x (3-1) = 2 한림대학교 이윤환(http://fb.com/yoonani72)


동일성 검정 • 검정통계량을 구하기 위한 R 사용과 판정 > pref <- matrix( c(30, 40, 30, 35, 40, 25), ncol=3) > pref [,1] [,2] [,3] [1,] 30 30 40 [2,] 40 35 25 > chisq.test(pref) Pearson's Chi-squared test data: pref X-squared = 5.2747, df = 2, p-value = 0.07155

한림대학교 이윤환(http://fb.com/yoonani72)


독립성 검정과 동일성 검정 • 영가설 – 독립성검정 : 𝑝𝑖𝑗 = 𝑝𝑖. × 𝑝.𝑗 , 𝑖 = 1 … 𝑟, 𝑗 = 1 … 𝑐 – 동일성검정 : 𝑝1𝑗 = 𝑝2𝑗 = … = 𝑝𝑟𝑗 , 𝑗 = 1, … , 𝑐

• 동일성 검정 – 𝑝11 = 𝑃 𝑐1 𝑟1 =

𝑃 𝑐1 ∩𝑟1 𝑃 𝑟1

= 𝑃 𝑐1 = 𝑝1

– 𝑝21 = 𝑃 𝑐1 𝑟2 =

𝑃 𝑐1 ∩𝑟2 𝑃 𝑟2

= 𝑃 𝑐1 = 𝑝1

–…

𝑃 𝑐1 ∩𝑟𝑖 𝑃 𝑖

= 𝑃 𝑐1 이려면 𝑐1 ⊥ 𝑟𝑖 (서로 독립)


14 범주형자료분석