13 상관과 회귀

Page 1

상관과 회귀


상관분석 • 두 변수 간의 관련성을 분석하는 통계기법 • 상관계수 (Correlation Coefficient) – 두 변수간의 관련성의 정도를 나타내는 값 – 𝑟=

𝑛 𝑖=1(𝑋𝑖 −𝑋)(𝑌𝑖 −𝑌) 𝑛 2 𝑖=1(𝑋𝑖 −𝑋)

𝑛 2 𝑖=1(𝑌𝑖 −𝑌)

=

𝑆𝑥𝑦 𝑆𝑥𝑥 𝑆𝑦𝑦

– 상관계수의 성질 • −1 ≤ 𝑟 ≤ 1 • 0에 가까울수록 두 변수 사이의 상관은 약함 • 1에 가까울 경우 같은 방향(한 변수의 값이 증가하면 다른 변 수의 값도 증가)으로 상관이 강해짐 • -1에 가까울 경우 다른 방향으로 상관이 강해짐 한림대학교 이윤환(http://fb.com/yoonani72)


상관분석

강한 양의 상관관계

강한 음의 상관관계

상관관계 없음

곡선 상관관계

한림대학교 이윤환(http://fb.com/yoonani72)


상관분석 • 상관분석 – 두 변수간의 관계, 특히나 선형계수가 존재하는지 검 정하는 분석 – 가설 • 영가설 : 𝜌 = 0, • 대안가설 : 𝜌 ≠ 0,

선형관계가 존재하지 않음 선형관계가 존재 함

– 검정통계량을 구하기 위한 R 사용과 판정 • iris 데이터 중 setosa 종의 꽃받침의 넓이와 꽃잎의 넓이에 대한 상관분석 • 상관계수 > cor(Sepal.Width[Species=="setosa"], + Petal.Width[Species=="setosa"]) [1] 0.232752 한림대학교 이윤환(http://fb.com/yoonani72)


상관분석 • 두 변수간의 Plotting > plot(Sepal.Width[Species=="setosa"], + Petal.Width[Species=="setosa"])

한림대학교 이윤환(http://fb.com/yoonani72)


상관분석 • 상관분석 > cor.test(Sepal.Width[Species=="setosa"], + Petal.Width[Species=="setosa"]) Pearson's product-moment correlation

data: Sepal.Width[Species == "setosa"] and Petal.Width[Species == "setosa"] t = 1.6581, df = 48, p-value = 0.1038 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.0487543 0.4800023 sample estimates: cor 0.232752 한림대학교 이윤환(http://fb.com/yoonani72)


(단순선형)회귀분석 • 하나의 변수로부터 다른 변수의 값을 예측하거나 두 변수 사이의 인과관계를 규명하고자 하는 경 우에 사용 • 두 변수 X, Y가 있을 때 X가 설명변수, Y가 반응 변수라면 이를 위한 단순선형회귀모형은 다음과 같다. – Y = 𝛽0 + 𝛽1 𝑋 + 𝜀 • • • •

𝛽0 , 𝛽1 : 회귀계수 𝛽0 : 절편 𝛽1 : 기울기 𝜀 : 오차항(평균이 0이고 표준편차가 𝜎인 정규분포를 따름) 한림대학교 이윤환(http://fb.com/yoonani72)


(단순선형)회귀분석 • 표본으로부터의 회귀모형 – 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 ,

𝑖 = 1, … , 𝑛

• 𝑦𝑖 , 𝑥𝑖 : 각 변수의 i번째 관찰값 • 𝜀𝑖 : i번째 오차항

• 회귀계수의 추정 : 추정된 회귀식 – 앞선 회귀모형을 위해 표본으로 부터 회귀계수를 추정 한 식을 다음과 같이 표현하자. – 𝑦𝑖 = 𝑏0 + 𝑏1 𝑥𝑖 , 𝑖 = 1, … , 𝑛 • 𝑦𝑖 : 예측값 • 𝑏0 , 𝑏1 : (최소제곱법을 통해 구한) 추정된 회귀계수

– 잔차 : 𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖 한림대학교 이윤환(http://fb.com/yoonani72)


(단순선형)회귀분석 • 총편차의 분해 : 분산분석표

한림대학교 이윤환(http://fb.com/yoonani72)


(단순선형)회귀분석 • 총편차의 분해 : 분산분석표 –

𝑛 𝑖=1(𝑦𝑖

− 𝑦 )2 =

𝑛 𝑖 (𝑦𝑖

− 𝑦𝑖 )2 +

𝑆𝑆𝐸𝑟𝑟𝑜𝑟

𝑆𝑆𝑡𝑜𝑡𝑎𝑙

요인

제곱합

자유도

회귀

𝑆𝑆𝑅

1

오차

𝑆𝑆𝐸

𝑛 −2

𝑆𝑆𝑇𝑜𝑡𝑎𝑙

𝑛−1

𝑛 𝑖 (𝑦𝑖

− 𝑦)2

𝑆𝑆𝑅𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛

평균제곱합 𝑆𝑆𝑅 1 𝑆𝑆𝐸 𝑀𝑆𝐸 = 𝑛−2 𝑀𝑆𝑅 =

F 𝑀𝑆𝑅 𝐹= 𝑀𝑆𝐸

회귀모형의 유의도 한림대학교 이윤환(http://fb.com/yoonani72)


(단순선형)회귀분석 • 결정계수 : 𝑅2 , 설명력 – 회귀모형의 적합성을 나타내는 측도 – 𝑅2 =

𝑆𝑆𝑅 𝑆𝑆𝑇𝑜𝑡𝑎𝑙

• 총 변동 𝑆𝑆𝑇𝑜𝑡𝑎𝑙 에 대한 회귀의 변동(𝑆𝑆𝑅 ) 비율 • 범위는 0 ≤ 𝑅2 ≤ 1 • 𝑅2 은 1에 가까울수록 좋은 회귀직선이 되고 0에 가까울수록 변동을 잘 설명하지 못하는 안 좋은 회귀직선으로 판단


(단순선형)회귀분석 • 회귀계수의 추정과 검정 – 유의한 회귀모형이 만들어지면 이 모형을 구성하는 회 귀계수가 유의한지 검정한다. – 가설 • 영가설 : 𝛽1 = 0, • 대안가설 : 𝛽1 ≠ 0,

회귀계수는 0이다. 회귀계수는 0이 아니다.

– t 분포를 적용하여 회귀계수를 검정한다.


(단순선형)회귀분석 • 회귀분석의 기본가정 – 오차항(𝜀𝑖 )은 • 서로 독립이며 • 평균이 0이고 분산이 𝜎 2 인 정규분포를 따른다.

• 모형의 적합성 검정 – 회귀분석의 기본가정을 만족하는지 검정 – 오차항 (𝜀𝑖 )에 대해 잔차 𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖 를 통해 검정


(단순선형)회귀분석 • 예제) R 내장데이터 cars – 속도(speed)에 따른 제동거리(dist) 자료 – 속도에 따른 제동거리 모형을 표본으로부터 구축해보자. > with(cars, plot(dist ~ speed))

한림대학교 이윤환(http://fb.com/yoonani72)


(단순선형)회귀분석 • 회귀계수 추정

• 분산분석표

> out <- with(cars, lm(dist ~ speed)) > out Call: lm(formula = dist ~ speed) Coefficients: (Intercept) speed -17.579 3.932

> summary( aov(out) ) Df Sum Sq Mean Sq F value Pr(>F) speed 1 21185 21185 89.57 1.49e-12 *** Residuals 48 11354 237 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.11

한림대학교 이윤환(http://fb.com/yoonani72)


(단순선형)회귀분석 • 회귀직선 > with(cars, plot(dist ~ speed)) > abline(out, col="red")

한림대학교 이윤환(http://fb.com/yoonani72)


(단순선형)회귀분석 • 결정계수 및 회귀계수 검정 > summary( out ) Call: lm(formula = dist ~ speed) Residuals: Min 1Q Median 3Q -29.069 -9.525 -2.272 9.215

Max 43.201

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -17.5791 6.7584 -2.601 0.0123 * speed 3.9324 0.4155 9.464 1.49e-12 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 15.38 on 48 degrees of freedom Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438 F-statistic: 89.57 on 1 and 48 DF, p-value: 1.49e-12

한림대학교 이윤환(http://fb.com/yoonani72)


(단순선형)회귀분석 • 회귀진단 > par(mfrow=c(2,2)) > plot(out)


(단순선형)회귀분석 • 거리(dist)의 제곱 형태가 의심되어 거리에 제곱 근을 취한 변수 변환 실시 • 거리의 제곱근값과 속도의 선형회귀분석 실시 – with(cars, lm( sqrt(dist) ~ speed))


(단순선형)회귀분석 • 회귀계수 추정

• 분산분석표

> out2 <- with(cars, lm(sqrt(dist) ~ speed)) > out2 Call: lm(formula = sqrt(dist) ~ speed) Coefficients: (Intercept) speed 1.2771 0.3224

> summary( aov(out2) ) Df Sum Sq Mean Sq F value Pr(>F) speed 1 142.41 142.41 117.2 1.77e-14 *** Residuals 48 58.33 1.22 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘

한림대학교 이윤환(http://fb.com/yoonani72)


(단순선형)회귀분석 • 회귀직선 > with(cars, plot(sqrt(dist) ~ speed)) > abline(out2, col="red")

한림대학교 이윤환(http://fb.com/yoonani72)


(단순선형)회귀분석 • 결정계수 및 회귀계수 검정 > summary( out2 ) Call: lm(formula = sqrt(dist) ~ speed) Residuals: Min 1Q Median 3Q Max -2.0684 -0.6983 -0.1799 0.5909 3.1534 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.27705 0.48444 2.636 0.0113 * speed 0.32241 0.02978 10.825 1.77e-14 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.102 on 48 degrees of freedom Multiple R-squared: 0.7094, Adjusted R-squared: 0.7034 F-statistic: 117.2 on 1 and 48 DF, p-value: 1.773e-14

한림대학교 이윤환(http://fb.com/yoonani72)


(단순선형)회귀분석 • 회귀진단 > par(mfrow=c(2,2)) > plot(out2)

한림대학교 이윤환(http://fb.com/yoonani72)


(단순선형)회귀분석 • 잔차의 정규성 검정 > shapiro.test(out$residuals) Shapiro-Wilk normality test

data: out$residuals W = 0.9451, p-value = 0.02152 > shapiro.test(out2$residuals)

Shapiro-Wilk normality test data: out2$residuals W = 0.9733, p-value = 0.3143

한림대학교 이윤환(http://fb.com/yoonani72)


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.