1 distribución muestral by Heriberto Vázquez Serna

1. DISTRIBUCIÓN MUESTRAL 1. Introducción 2. Fundamentos de la Distribución Muestral 3. Distribución Muestral de Medias Aritméticas 4. Teorema del Límite Central

1. Introducción Suponga que el director de personal de un gran banco, necesita escribir un informe que describa a todos los empleados que han dejado voluntariamente la compañía en los últimos 10 años. Sería muy difícil localizar a estas personal (Quizá algunos ya murieron, se han mudado del estado o del país, han cambiado de dirección o teléfono, etc.). ¿Cómo podría escribir el informe? La mejor idea es seleccionar una muestra representativa y entrevistarla con el fin de generalizar la respuesta obtenida a todo el grupo. En el ejemplo mencionado se observa cuatro términos utilizados en la estadística inferencial: a) Población: Todos los elementos del estudio estadístico ( todos los empleados que dejaron voluntariamente la compañía) b) Muestra: Porción seleccionada de la población ( ciertos empleados seleccionados a los cuales se entrevistarán) c) Estadístico: Característica de la muestra seleccionada ( resultado obtenido de los empleados que conforman la muestra ) d) Parámetro: Característica de la población de interés ( resultado de todos los empleados que dejaron voluntariamente la compañía) Observe que para estimar un parámetro es necesario conocer su estadístico, es aquí donde entra en juego los métodos de selección de muestra y la estadística inferencial. Para poder diferenciar los estadísticos de sus parámetros, se emplean letras latinas minúsculas para denotar las estadísticas de muestra y letras griega o latinas mayúsculas para representar el parámetro poblacional. Estadístico Parámetro x , s , n ( media, desviación  ,  , N ( media, desviación y magnitud estándar y magnitud muestral) estándar poblacional ) p( proporción de la muestra) P ( proporción poblacional) Por lo tanto se puede decir: Si se seleccionan muestras aleatorias de tamaño "n" de una población, entonces se puede utilizar la distribución de sus estadísticas (p, x , s ) como estimadores de parámetros (P,  ,  ), generando así un proceso de inferencia estadística.

Vázquez, H. 2014

Apuntes del Curso

2. Fundamentos de la distribucion muestral Si el objetivo de la estadística inferencial es la toma de decisiones respecto a un objetivo planteado a nivel poblacional, entonces es necesario realizar un estudio muestral, cuyos estadísticos ayuden a dar conclusiones o respuesta al objetivo planteado. Suponga que se quiere conocer el ingreso promedio anual (parámetos) de las familias en una ciudad conformada por 10 000 de ellas, para realizar éste estudio es necesario tomar varias muestras y calcular el ingreso promedio y la desviación estándar ( estadísticos) de cada una de ellas, si se realizará este estudio se observaria que los estadísticos de cada una de las muestras difieren entre sí. Al tener este conjunto de medias muestrales se podría realizar una tabla o gráfico para analizar su distribución, a ésta distribución de probabilidad de todas las medias posibles de las muestras se le conoce como distribución muestral de medias o distribución de muestreo de la media. La distribución muestral de medias puede ser descrita por su media y su desviación estántar, es decir, se puede calcular la media de las medias muestrales

 x , y la desviación estándar de las medias

 x , ésta recibe el nombre de error estándar de la media, puesto que indica la diferencia o variación que existe entre cada media muestral y la media total muestrales

A continuación se analizará y comparará en forma simulada la distribución de los ingresos anuales familiares a nivel pobación contra la distribución de un conjunto de medias muestrales, las cuales fueron obtenidas aleatoriamente de la población: a) Suponga que se cuenta con los ingresos anuales de todas las familias que integran la ciudad, por lo tanto se puede obtener su distribución con media  y desviación estándar 

Ingreso familiar "x"

 b)Si se seleccionan todas las posibles muestras de una magnitud "n" de la población, dichas muestras estarían representadas graficamente por las tres muestras que se vienen a continuación, en donde cada una de ellas tendrá sus propia distribución con media y desviación estándar particulares ( x , s )

Vázquez, H. 2014

Apuntes del Curso

c)Reunamos ahora todas las distribuciones muestrales en una sola generando una distribución muestral de medias,

con media

x ,

desviación estándar

x.

Observe que el grafico de la distribución

muestral de medias es normal, a pesar de la falta de normalidad en la distribución poblacional.

x

3. Distribución muestral de medias aritméticas (  conocida, muestras grandes) Cuando se realiza un estudio inferencial, es necesario conocer con que datos tanto muestrales como poblacionales se cuenta. A continuación se considera el caso en donde la desviación poblacional (  ) es conocida o la magnitud de la muestra es grande. Desarrollo: Considere que en una empresa alimenticia existen cuatro obreros no calificados, y el gerente de producción desea detectar el número de errores que cometen en la realización de sus actividades productivas. Los obreros son observados en la realización de sus labores productivas y se detectan los siguientes errores cometidos por cada obrero: OBRERO A B C D

NO. DE ERRORES 3 2 1 4

A continuación se realizará un estudio estadístico de la distribución poblacional de los errores cometidos son: a) Análisis gráfico de la distribución de los errores cometidos por los cuatro obreros

Errores

DISTRIBUCION POBLACIONAL 5 4 3 2 1 0 A

Trabajadores

Vázquez, H. 2014

Apuntes del Curso

Distribución de frecuencia de errores comedidos a nivel poblacional:

Número de erros

Distribucion de Frecuencias muestrales

1.2 1 0.8 0.6 0.4 0.2 0

Frecuencias

Errores

OBSERVE Y ANALICE: En los gráficos se puede observar la distribución de frecuencia de los errores cometidos, es uniforme.

b) Análisis estadístico de la distribución poblacional N

 xi

  i 1



3  2 1 4  2.5 errores 4



2   xi   x 

i 1



3  2.52  ...  4  2.52 4

 1.12 errores

A continuación se realizará un estudio estadístico a través de una distribución de muestras, seleccionándolas con una magnitud n=2 sin reemplazo de la población conformada por los N=4 obreros Muestra

Obreros

Resultados de la muestra

A,B

3,2

A.C

3,1

A,D

3,4

B,C

2,1

B,D

2,4

C,D

1,4

Media de la muestra

xI x1  2.5 x2  2.0 x3  3.5 x4  1.5 x5  3.0

x6  2.5

 X  2,5  x  0.65

Vázquez, H. 2014

Apuntes del Curso

Gráfico de la distribución de medias muestrales

MEDIAS MUESTRALES

DISTRIBUCION MUESTRAL DE MEDIAS

4 3.5 3 2.5 2 1.5 1 0.5 0

Series1

MUESTRAS

Distribución de frecuencia de medias muestrales

Distribución muestral de frecuencias

Frecuencia

2.5 2 1.5

Series2

1 0.5 0 1

Medias muestrales

1) Del gráfico se puede observar que la distribución de frecuencia de las medias muestrales tiende hacer una distribución acampanada 2) De la tabla se puede analizar que la media aritmética de la distribución de medias a la media poblacional

  2,5

es igual

 x  2,5

3) La desviación de la distribución muestral de medias

x

en inferior a la desviación poblacional



debido a que en una población, los valores individuales pueden ser extremadamente pequeños o grandes y por lo tanto poseer un rango grande. La disminución en

x

es debido a que al seleccionar

aleatoriamente todas las muestras posibles, los valores extremos pueden caer en una o varias muestras, afectando así a la media de las muestras que los incluye, sin embargo su efecto disminuirá al promediarse con los demás valores de la muestra. Además si se incrementa la magnitud de la muestra, el efecto del valor extremo se hace cada vez menor, puesto que se está promediando con más

Vázquez, H. 2014

Apuntes del Curso

observaciones: Esto es:

x 

cuanto la magnitud de muestra "n" es mayor, de aquí, que el error

estándar varia inversamente proporcional a la magnitud de muestra

x 



Donde:

 x  error estandar de la distribuci on de medias   Desviacion estandar de la poblacion

n = magnitud muestral Para comprender mejor lo dicho anteriormente analicemos el caso en donde la población es de 100, con media 100 y desviación estándar 25, considere además que se extraen muestras de 5 elementos, de 20 y 30, sus distribuciones serían aproximadamente las siguientes:

Población:

  100   25

Muestras n  5

   x  100

x 

25  11.18 5

x 

25  5.59 20

x 

25  4.56 30

Muestras n  20

   x  100 Muestras n  30

   x  100 Curva Curva Curva Curva

"a": Distribución poblacional "b": n=5 "c": n=20 "d": n=30

OBSERVE Y ANALICE: A medida que se incrementa la magnitud de las muestras la variabilidad en las distribuciones muestrales disminuyen tendiendo las curvas a ser mesocúrticas y simétricas (forma normal).

Vázquez, H. 2014

Apuntes del Curso

4. Teorema del Límite Central Del ejemplo expuesto en la distribución de muestreo sugieren varios aspectos: 1.- L a media de la distribución muestral de medias es igual a la media poblacional, sin importar la magnitud de muestra, incluso si la población no es normal. 2.- Al incrementarse el tamaño de la muestra la distribución muestral de medias se acercará a la normalidad 3.- La desviación de las medias del muestreo (error estándar) varia inversamente proporcional a la magnitud de muestra Esta relación entre la forma de la distribución de la población y la forma de la distribución de muestro se denomina teorema del límite central, el cual es tal vez el más importante de toda la estadística inferencial, puesto que permite utilizar estadísticas muestrales para hacer inferencias a parámetros poblacionales sin saber nada sobre la forma de la distribución de frecuencias de esa población más que lo que se puede obtener de la muestras. Este teorema queda enunciado de la siguiente forma: "Si " x "es la media de una muestra aleatoria de tamaño "n" extraída de una población con media "  " y desviación finita (conocida) "  ", entonces

z

x

x

es el valor de una variable cuya función de distribución se aproxima a la de la distribución normal estándar cuando n   Donde: Z= puntuación estandarizada

x  media muestral   media poblacional o media de la distribución muestral

 x  error estándarde la media OBSERVE Y ANALICE: a) b) c) d)

La media y desviación poblacional deben ser conocidas. La magnitud de muestra debe ser grande ( "n mayor o igual a 30", tiende a infinito) La distribución muestral tiende a ser normal La fórmula de la distribución normal estándar muestral es parecida a la de distribución normal estándar para variables aleatorias continuas, cambiando únicamente los datos individuales por muestrales.

Los gráficos siguientes muestran que, independientemente de la forma de la distribución poblacional, la distribución muestral de medias es aproximadamente normal con media "  " desviación

x 

 n

, siendo la magnitud de la muestra grande (

Vázquez, H. 2014

n  30

)

Apuntes del Curso

n= 2

X (Observaciones) DISTRIBUCIÓN DE LA POBLACIÓN ( UNIFORME ) MEDIA MUESTRAL

La ilustración muestra la tendencia hacia la normalidad para la distribución muestral de medias como incrementos de tamaños muestrales. Al cumplir la distribución muestral con la normalidad, también cumple con los porcentajes de distribución especificados en la regla empírica. A continuación se expondrá la representación gráfica del teorema del límite central

Hasta este punto en nuestro análisis de las distribuciones de muestro hemos utilizado la ecuación

x 



para calcular el error estándar de la media.

Esta ecuación está diseñada para situaciones en las que: a) La población es infinita, es decir la magnitud poblacional es desconocida (N)

Vázquez, H. 2014

Apuntes del Curso

b) Para muestreo con reemplazo ( es decir, después de que se ha muestreado cada elemento, éste se regresa a la población antes de elegir el siguiente elemento, de tal forma que es posible que el mismo elemento sea elegido más de una vez)población infinita ) c) Para muestras cuya magnitud sea menor al 5% de la magnitud poblacional (n < 0.05 N) Existen casos en donde la magnitud poblacional es finita ( N conocida), por ejemplo estudios sobre los clientes de una empresa, la producción en un día determinada en una fábrica manufacturera, etc. En estos casos la población es conocida, así que es necesario modificar la ecuación del error estándar agregando un factor de corrección, conocido como multiplicador de población finita

x 

 n

N n N 1

 x  error estandar de la distribuci on de medias   Desviacion estandar de la poblacion n = Magnitud muestral N = Magnitud Poblacional Este factor se utiliza en los siguientes casos: a) La población es finita, es decir la magnitud poblacional es conocida (N) b) Para muestreo sin reemplazo c) Para muestras cuya magnitud sea mayor al 5% de la magnitud poblacional n > 0.05 N En muchos estudios inferenciales la desviación poblacional es desconocida, pero se conoce la desviación de la muestra (s), en estos casos para calcular el error estándar se utiliza precisamente la desviación de la muestra como un estimador de la poblacional, siempre y cuando la magnitud de la muestra sea grande (por lo menos de 30 elementos n  30 ) Para poder aplicar el TEOREMA DEL LÍMITE CENTRAL es necesario saber calcular el error estándar de la distribución. A continuación se ejemplificará los casos mencionados para su cálculo:

Ejemplos EJEMPLO 1 POBLACIÓN INFINITA, DESVIACIÓN POBLACIONAL CONOCIDA (  ), NO IMPORTANDO MAGNITUD DE LA MUESTRA (n)

a) Un despacho contable tiene un gran número de clientes. El contador general sabe que en promedio las cuentas por cobrar son de $30,000 y que la desviación es de $ 2000.00. Si el contador toma una muestra de 25 cuentas por cobrar: Calcule el error estándar de la distribución SOLUCIÓN DATOS:

n= 25

Vázquez, H. 2014

Apuntes del Curso

X 

 n



2000  400.00 25

OBSERVE Y ANALICE: Este problema cae en el primer caso del uso de la aplicación del teorema del límite central, puesto que se conoce la desviación población y no importa cual sea la magnitud de la muestra EJEMPLO 2

POBLACION FINITA c) Supóngase que el contador sabe que el número total de cuentas por cobrar es del 1000, con desviación $ 2000.00 y media de $30 000.00. Si selecciona una muestra de 75 cuentas , calcule el error estándar de la distribución .

n= 75 En este ejemplo se está proporcionando la magnitud poblacional “N” muestra “n” por lo tanto se tiene que comprobar si:

y la magnitud de la

n > 0.05 N ó n < 0.05 N ya que el cálculo del error estandar de distribución es diferente para cada caso: 75 > 0.05 ( 1000 ) 75 > 50 por lo tanto se tendrá que calcular el error de distribución utilizando el factor de corrección:

X 

 n

N  n 2000 1000  75   222.22 N 1 75 1000  1

OBSERVE Y ANALICE: En el caso que n < 0.05 N, el cálculo del error estándar de la distribución hubiera sido:

X 

 n

Una vez que se ha analizado los diferentes casos para calcular el error estándar de la distribución, a continuación se ejemplificará las aplicaciones que teorema de límite central. EJEMPLO 3 La distribución de los ingresos anuales de todos los pagadores de un banco con cinco años de experiencia es aproximadamente normal con media de $ 19 000.00 y desviación de $ 2 000.00. Si se extrae una muestra de 30 pagadores, ¿Cuál es la probabilidad de que el promedio de los ingresos anuales para la muestra sea:

Vázquez, H. 2014

Apuntes del Curso

a) Mayor a $ 19750.00 b) Entre $ 18 250 y $ 19 750 SOLUCIÓN

n= 30 OBSERVE: El problema es parecido a los de distribución de probabilidad normal para variables, la diferencia es que ahora se esta trabjando con datos muestrales y por lo tanto se tendrá que aplicar el teorema del límite central, a)

P( x  19750) es tan darizando Z

x

x

Como se conoce la desviación poblacional y además la magnitud de la muestra es mayor que 30  2000 X    365.15 n 30 19750  19000 750   2.05 365.15 365.15 P( x  19750)  P( Z  2.05)  0.50  P(0  Z  2.05)  0.50  0.4798  0.0202

Z

b) Entre $ 18 250 y $ 19 750

Vázquez, H. 2014

Apuntes del Curso

P(18250  x  19750) es tan darizando 18250  19000  2.05 365.15 19750  19000 Z1   2.05 365.15 P(18250  x  19750)  P(2.05  Z  2.05)  P(2.05  Z  0)  P(0  Z  2.05)  2(0.4798)  0.9596

Z1 

Vázquez, H. 2014

Apuntes del Curso

Diagramas del Teorema del Límite Central CONCLUSIONES

1.- L a media de la distribucion muestral de medias es igual a la media poblacional, sin importar la magnitud de muestra, incluso si la población no es normal. 2.- Al incrementarse el tamaño de la muestra la distribución muestral de medias se acercará a la normalidad 3.- La desviación de la distribución muestral de medias

x

en inferior a la desviación

poblacional  , debido a que en una población, los valores individuales pueden ser extremadamente pequeños o grandes y por lo tanto poseer un rango grande. La disminución en  x es debido a que al seleccionar aleatoriamente todas las muestras posibles, los valores extremos pueden caer en una o varias muestras, afectando así a la media de las muestra que los incluye, sin embargo su efecto disminuirá al promediarse con los demás valores de la muestra. Además si se incrementa la magnitud de la muestra, el efecto del valor extremo se hace cada vez menor, puesto que se está promediando con más observaciones: Esto es:  x   cuanto la magnitud de muestra "n" es mayor, de aquí, que el error estándar varia inversamente proporcional a la magnitud de muestra

x 



n 4.- La desviación de las medias del muestreo (error estándar de la distribución) varia inversamente proporcional a la magnitud de muestra

TEOREMA DEL LIMITE CENTRAL "Si " x "es la media de una muestra aleatoria de tamaño "n" extraída de una población con media "  " y desviación finita (conocida) "  ", entonces

z

x

x

es el valor de una variable cuya función de distribución se aproxima a la de la distribución normal estándar cuando n  

Vázquez, H. 2014

Apuntes del Curso

TEOREMA DE LIMITE CENTRAL

* DESVIACIÓN POBLACIONAL CONOCIDA

* DESVIACIÓN POBLACIONAL DESCONOCIDA

* CUALQUIER MAGNITUD DE MUESTRA *Población infinita

* DESVIACIÓN DE LA MUESTRA CONOCIDA "s" *Población infinita *

*Con reemplazo Población Finita n<0.05N

* Población Finita n>0.05 N Sin reemplazo

*Sin reemplazo Población Finita n<0.05N

*Población Finita n>0.05 N Sin reemplazo (factor de corrección )

(factor de corrección )

Vázquez, H. 2014

Apuntes del Curso

Ejercicios Resueltos 1.- Una máquina llena latas de sopa con un promedio de 15.9 onzas y una  de 1 onzas, se toma una muestra de 80 latas, sabiendo que la maquina llena 125 latas. ¿Cuál es la probabilidad de que la media de una muestra aleatoria de 80 latas este por debajo de 15.8 onzas?

DATOS P( x <15.8)  = 15.9 =1 n = 80 LATAS N = 125

En este caso se proporción la magnitud poblacional N=125, por lo tanto para calcular el error estándar es necesario checar si: n<0.05N ó n>0.05N Sustituyendo los datos: (0.05)(125) = 6.25 n > 0.05 N 80 > 6.25 Por lo tanto el error estándar se calcula con el factor de corrección 

125  80  0.067 80 125  1

x= 1

Estandarizando a la variable z  15.8  15.9  1.49 0.067 P( x <15.8)=P(Z<-1.49)=0.5 - P(0  z  -1.49) = 0.5 - 0.4319= 0.0681 2.- Una institución bancaria calcula que sus cuentas de ahorros individuales está normalmente distribuidas con media de $50 ( miles de pesos) y una desviación estándar de $10 ( miles de pesos). Si el banco toma una muestra aleatoria de 36 cuentas. ¿Cuál es la probabilidad de que A) La media de la muestra este entre 45 y 55 ( miles de pesos)? B) La media de la muestra tenga un valor mayor a 48 ( miles de pesos? DATOS n = 36

  50   10 a) P(45

x  55 )

Estandarizando a la variable: En este caso la magnitud de la población es desconocida, y n>30, por lo tanto el error estándar se calcula por:

x 

 n



10  1.67 36

Vázquez, H. 2014

Apuntes del Curso

45  50  2.99 1.67 55  50 z2   2.99 1.67

z1 

P(45 x  55 ) = P(-2.99 0.4986+0.4986=0.9972



2.99)=P(

-2.99



0



2.99)=

 b) P(

Z

x >48)

48  50  1.19 1.67

P(Z>-1.19) = 0.5 + P(0 Z  -1.19) = 0.5 + 0.38298=0.88298

Vázquez, H. 2014

Apuntes del Curso