확률 변수와 분포
용어 • 확률 실험(Random Experiment) – 모집단으로부터 표본을 임의로 추출하는 과정 – 대문자 X, Y, Z 등으로 표기 – Ex) 아파트 단지내의 1000세대의 각 가정에 있는 TV 수를 조사하기 위해 가정 한곳을 임의로 선정
• 확률 변수(Random Variable) – 확률 실험의 결과 – 이 결과는 실험에 따라 다르게 나타난다. – Ex) 앞선 조사를 X라 하면 X는 0, 1, 2, 3의 값중에 하 나를 갖게 된다. 한림대학교 이윤환(http://fb.com/yoonani72)
예제 - 두 개의 공정한 동전을 던지는 시행
• 앞면이 나오는 횟수를 X, 즉 확률변수 – 표본공간 : S = {HH, HT, TH, TT} – 확률 변수 X의 출현 가능한 값 • X(HH) = 2 • X(HT) = X(TH) = 1 • X(TT) = 0
– X의 출현 가능한 값들이 나타날 확률 =
1 4
• 𝑃𝑥 0
= 𝑃 𝑋 = 0 = 𝑃 𝑇𝑇
• 𝑃𝑥 1
= 𝑃 𝑋 = 1 = 𝑃 𝐻𝑇 , 𝑇𝐻
• 𝑃𝑥 2
= 𝑃 𝑋 = 2 = 𝑃 𝐻𝐻
=
=
1 2
1 4
한림대학교 이윤환(http://fb.com/yoonani72)
예제 - 두 개의 공정한 동전을 던지는 시행
Ω = 𝐻𝐻, 𝐻𝑇, 𝑇𝐻, 𝑇𝑇 𝐹 = { 𝐻𝐻 , 𝐻𝑇, 𝑇𝐻 , 𝑇𝑇 } 1 1 𝑃 𝑇𝑇 = 4, 𝑃 𝐻𝑇, 𝑇𝐻 = 2, 𝑃 𝐻𝐻
1
=4
확률변수 X
𝑆 = 𝑅(실수 전체) 𝐵(𝑅) = { 0 , {1}, {2}} 1 1 𝑃𝑥 0 = 4, 𝑃𝑥 1 = 2, 𝑃𝑥 2
한림대학교 이윤환(http://fb.com/yoonani72)
1
=4
이산확률 분포 • 확률변수를 통한 출현 가능한 값이 셀 수 있는 값 을 취한다. • 이산확률변수의 확률 분포 – 확률변수가 취할 수 있는 모든 가능한 값과 그 값들의 확률들을 표현한 것
• 이산확률 분포의 성질(조건) – 확률변수 X의 각 값에 대한 확률 P(X=x)는 0 ≤𝑃 𝑋=𝑥 ≤1 – 모든 확률값의 합은 1 𝑝 𝑥 =1 한림대학교 이윤환(http://fb.com/yoonani72)
예제 • 표 5.3 각 가정의 TV 수와 확률분포 보유 TV의 수 (X)
P(X=x)
0
0.010
1
0.840
2
0.145
3
0.005
합계
1.000
한림대학교 이윤환(http://fb.com/yoonani72)
이산확률변수의 평균 • 평균은 확률변수에서 기대값(Expected Value) 이라고 한다. • 이산확률변수 X의 평균은 어떤 실험을 수많이 실 행할 때 평균적으로 관찰될 것으로 기대되는 값 을 의미하며 𝜇𝑋 또는 𝐸 𝑋 로 표기한다. • 출현가능한 값과 출현 가능할 확률을 곱한 것을 모두 더한다. – 확률에 평균의 개념이 들어가 있으므로 나누는 과정이 필요없다. – 𝐸 𝑋 = 𝑥𝑝(𝑥) 한림대학교 이윤환(http://fb.com/yoonani72)
이산확률변수의 분산 • 확률변수들의 출현가능한 값들이 평균을 중심으 로 얼마나 퍼져있는 지를 나타내는 것(𝜎 2 ) • 계산방법은 앞선 편차 제곱으로 부터 차용 가능 하다. – 편차 제곱 : (𝑥𝑖 − 𝐸(𝑋))2 – 이 편차 제곱들이 각각 확률적으로 나타나는 것이므로 이들에 개별 확률값을 곱한다 : 𝑥𝑖 − 𝐸(𝑋) 2 𝑝(𝑥) – 위의 값을 모두 더한다 : 𝑛𝑖=1 𝑥𝑖 − 𝐸(𝑋) 2 𝑝(𝑥) • 간편 계산식 :
𝑛 2 𝑖=1 𝑥𝑖 𝑝
𝑥𝑖 − 𝐸(𝑋)2
한림대학교 이윤환(http://fb.com/yoonani72)
R 예제 > x <- c(0, 1, 2, 3) > pr.x <- c(0.010, 0.840, 0.145, 0.005) > e.x <- sum(x*px) > e.x [1] 1.145 > var.x <- sum((x^2) * px ) – e.x^2 > var.x [1] 0.153975
한림대학교 이윤환(http://fb.com/yoonani72)
이항분포(Binomial Dist.) • 베르누이 시행 – – – –
어떤 시행의 결과 성공과 실패로 나타난다. 성공의 확률 𝑝 (0 < 𝑝 < 1) 확률 변수 X의 실현값은 성공이면 1, 실패면 0 Ex) 공정한 동전을 던져 앞면이 나오면 성공
• Bernoulli(p=0.5) = 𝑝 𝑥 (1 − 𝑝)1−𝑥 =0.5𝑥 (1 − 0.5)1−𝑥
• iid(Independent & Identically) – 모수(Parameter) : 분포함수의 특징을 결정 짓는 값. • 앞선 베르누이 시행에서는 확률값 p
– 동일한 모수를 갖는 확률변수의 실험을 독립적으로 실 행하는 것 한림대학교 이윤환(http://fb.com/yoonani72)
이항분포(Binomial Dist.) • 앞선 베르누이 시행을 n번 iid로 반복한다고 하자. • 이 시행의 결과는 각 베르누이 시행의 성공의 개수를 구하는 것이 된다. • 즉, n번 수행하여 x번 성공하는 실험의 확률분포함 수를 이항분포라고 한다. • Ex) 공정한 동전을 두번 던져 앞면이 나오는 횟수 (앞면이 나오면 성공) – n : 2, p = ½
𝑛 – n번 던져 x번 성공하는 경우의 수 ( ) 𝑥 – 성공과 실패의 확률(iid) : 0.5𝑥 (1 − 0.5)𝑛−𝑥 한림대학교 이윤환(http://fb.com/yoonani72)
이항분포(Binomial Dist.) • 확률 밀도 함수 (Probability Mass Function) – 이항분포를 따르는(시행의 횟수 n, 성공확률 p) 확률 변수 X는 다음의 확률밀도함수를 갖는다. 𝑛 𝑥 – 𝐵 𝑛, 𝑝 = 𝑝 1 − 𝑝 𝑛−𝑥 , x는 성공의 횟수 𝑥
• (누적)분포함수 (Probability Function) – 일반적으로 말하는 분포함수는 𝑃(𝑋 ≤ 𝑥) 로 나타낸다. – 즉, 확률변수의 실현값 x 이하의 확률들을 모두 더한 값이다. – 분포함수는 고유하게 정해져 있다. 한림대학교 이윤환(http://fb.com/yoonani72)
R에서의 분포함수 • 이항분포 함수 : xbinom(x, size=n, prob=p) • R분포함수의 첫글자(x)와 기능 첫 글자
기능
d
확률변수의 출현값에 대한 개별 확률(Density)
p
Probability function, 즉 (누적)분포함수
q
Quantile(백분위수)
r
Random number(난수 발생)
한림대학교 이윤환(http://fb.com/yoonani72)
예제 • 성공의 확률이 0.6인 어떤 실험을 3번 시행한다 고 하자. 즉, B(3, 0.6) • 이 경우 성공의 횟수 x=0, 1, 2, 3 • 성공의 횟수별 확률 구하기 > x = c(0, 1, 2, 3) > p.x = dbinom(x, size=3, prob=0.6) > p.x [1] 0.064 0.288 0.432 0.216
한림대학교 이윤환(http://fb.com/yoonani72)
예제 • 성공의 횟수가 2 이하일 확률 구하기 > pbinom(2, size=3, prob=0.6) [1] 0.784
• (누적)분포 구하기 > cdf.x = pbinom(x, size=3, prob=0.6) > names(cdf.x)=c("0", "1", "2", "3") > cdf.x 0 1 2 3 0.064 0.352 0.784 1.000
한림대학교 이윤환(http://fb.com/yoonani72)
예제 • 중앙값 구하기 (백분위수가 50%인 곳) > qbinom(0.5, size=3, prob=0.6) [1] 2
• B(3, 0.6)을 따르는 이항분포로부터 난수 100 개 구하기 > smp = rbinom(100, 3, 0.6) > table(smp) smp 0 1 2 3 7 34 43 16 한림대학교 이윤환(http://fb.com/yoonani72)
연속형 확률분포함수 - 정규분포를 중심으로
연속형 확률변수 • 확률변수 X가 취하는 값이 연속형일 경우 연속형 확률변수라 한다. • 조건 (𝑓 𝑥 : 확률밀도함수) – 모든 x에 대해 0 이상 : 𝑓 𝑥 > 0 – 𝑓 𝑥 곡선 아래의 총면적은 1 • 𝑃 −∞ < 𝑋 < ∞ =
∞ 𝑓 −∞
𝑥 𝑑𝑥 = 1
• 연속형 확률변수에서의 기대값 –𝐸 𝑋 =
∞ 𝑥𝑓 𝑥 −∞ 2
– 𝑉𝑎𝑟 𝑋 = 𝐸 𝑋
𝑑𝑥 , − 𝐸 𝑋
𝑓 𝑥 : 확률밀도함수 2
=
∞ 2 𝑥 𝑓 −∞
𝑥 𝑑𝑥 − 𝐸 𝑋
한림대학교 이윤환(http://fb.com/yoonani72)
2
정규분포 (Normal Distribution) • 자연상태의 분포와 가장 유사한 분포 – 사람들의 키, 몸무게, 시험 성적 등
• 평균과 분산(혹은 표준편차)에 의해 결정 – 표기 : 어떤 확률변수 X가 정규분포를 따른다고 할 때 X ~ 𝑁 𝜇, 𝜎 2 , 여기서 𝜇 ∶ 평균, 𝜎 2 ∶ 분산 – X축 값의 범위 : −∞ < 𝑥 < ∞
• 평균을 중심으로 좌우대칭이며 끝으로 갈 수록 값이 0으로 수렴하나 0이 되지 않는다.
한림대학교 이윤환(http://fb.com/yoonani72)
정규분포 (Normal Distribution) • 확률밀도함수(p.d.f) –𝑓 𝑥 =
1 𝑒 𝜎 2𝜋
(𝑥−𝜇)2 − 2𝜎2
,
−∞ < 𝑥 < ∞
• 𝜇가 3이고 𝜎 2 이 4인 정규분포
한림대학교 이윤환(http://fb.com/yoonani72)
표준정규분포 (Standard N.D) • 평균이 1고 표준편차가 1인 정규분포 • 모든 정규분포는 표준정규분포로 변환시킬 수 있 다. • 표준화 계수 : 𝑍 =
𝑋−𝜇 𝜎
– 표준정규분포는 보통 대문자 Z로 나타낸다. – 표준화 이후 1, -1, 2, -2 등은 기존 표준편차의 1배, -1배, 2배, -2배 등으로 파악하는 것이 편리하다.
한림대학교 이윤환(http://fb.com/yoonani72)
표준정규분포 (Standard N.D) • 표준화의 예 : 앞선 정규분포를 표준정규분포로 > > + > + > > > >
par(mfrow=c(2,1)) x <- seq(3-(3*2), 3+(3*2), by=0.01) nd.32 <- dnorm(x, mean=3, sd=2) plot(x, nd.32, type="l") z <- (x - 3) / 2 znd <- dnorm(z) plot(z, znd, type="l")
한림대학교 이윤환(http://fb.com/yoonani72)
정규분포와 확률 • 평균 ± 1배의 표준편차 사이 면적 – 𝑃 𝜇 − 𝜎 < 𝑋 < 𝜇 + 𝜎 ≈ 0.68
• 평균 ± 1.96배의 표준편차 사이 면적 – 𝑃 𝜇 − 1.96𝜎 < 𝑋 < 𝜇 + 1.96𝜎 ≈ 0.95
• -1.96배의 표준편차보다 작은 쪽의 면적 – 𝑃 𝑋 < −1.96𝜎 ≈ 0.025
• 1.96배의 표준편차보다 큰 쪽의 면적은? – 𝑃 𝑋 > 1.96𝜎 ≈ ? ? ?
한림대학교 이윤환(http://fb.com/yoonani72)