Alicia en el País de las Simulaciones

Page 1

Alicia en el PaĂ­s de las Simulaciones MariCarmen GonzĂĄlez-Videgaray

24 de agosto de 2013


1


Índice general 1. Distribuciones de probabilidad

8

1.1.

Formas de calcular la probabilidad

. . . . . . . . . . . . . . . . .

8

1.2.

Ajuste de una distribución teórica

. . . . . . . . . . . . . . . . .

9

1.3.

Prueba Ji-Cuadrada de bondad de ajuste

1.4.

Prueba Kolmogorov-Smirnov de bondad de ajuste

. . . . . . . .

11

1.5.

Principales distribuciones teóricas . . . . . . . . . . . . . . . . . .

12

. . . . . . . . . . . . .

2. Distribuciones discretas

2.1.

2.2.

2.3.

Distribución Bernoulli

9

14

. . . . . . . . . . . . . . . . . . . . . . . .

14

2.1.1.

Función masa de probabilidad . . . . . . . . . . . . . . . .

14

2.1.2.

Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .

14

2.1.3.

Parámetros

. . . . . . . . . . . . . . . . . . . . . . . . . .

15

2.1.4.

Grá ca

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

Distribución binomial

. . . . . . . . . . . . . . . . . . . . . . . .

15

2.2.1.

Función masa de probabilidad . . . . . . . . . . . . . . . .

16

2.2.2.

Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .

16

2.2.3.

Parámetros

. . . . . . . . . . . . . . . . . . . . . . . . . .

16

2.2.4.

Grá ca

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

16

Distribución geométrica

. . . . . . . . . . . . . . . . . . . . . . .

16

2.3.1.

Función masa de probabilidad . . . . . . . . . . . . . . . .

17

2.3.2.

Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .

17

2.3.3.

Parámetros

. . . . . . . . . . . . . . . . . . . . . . . . . .

17

2.3.4.

Grá ca

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

2


3

ÍNDICE GENERAL

2.4.

2.5.

2.6.

2.7.

Distribución binomial negativa o de Pascal . . . . . . . . . . . . .

18

2.4.1.

Función masa de probabilidad . . . . . . . . . . . . . . . .

18

2.4.2.

Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .

18

2.4.3.

Parámetros

. . . . . . . . . . . . . . . . . . . . . . . . . .

19

2.4.4.

Grá ca

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

Distribución hipergeométrica

. . . . . . . . . . . . . . . . . . . .

19

2.5.1.

Función masa de probabilidad . . . . . . . . . . . . . . . .

20

2.5.2.

Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .

20

2.5.3.

Parámetros

. . . . . . . . . . . . . . . . . . . . . . . . . .

20

2.5.4.

Grá ca

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

Distribución uniforme discreta . . . . . . . . . . . . . . . . . . . .

20

2.6.1.

Función masa de probabilidad . . . . . . . . . . . . . . . .

21

2.6.2.

Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .

21

2.6.3.

Parámetros

. . . . . . . . . . . . . . . . . . . . . . . . . .

21

2.6.4.

Grá ca

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

Distribución de Poisson

. . . . . . . . . . . . . . . . . . . . . . .

22

2.7.1.

Función masa de probabilidad . . . . . . . . . . . . . . . .

22

2.7.2.

Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .

23

2.7.3.

Parámetros

. . . . . . . . . . . . . . . . . . . . . . . . . .

23

2.7.4.

Grá ca

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

3. Distribuciones continuas

3.1.

3.2.

Distribución uniforme continua

24

. . . . . . . . . . . . . . . . . . .

24

3.1.1.

Función de densidad . . . . . . . . . . . . . . . . . . . . .

24

3.1.2.

Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .

24

3.1.3.

Parámetros

. . . . . . . . . . . . . . . . . . . . . . . . . .

25

3.1.4.

Grá ca

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . .

25

3.2.1.

Función de densidad . . . . . . . . . . . . . . . . . . . . .

25

3.2.2.

Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .

26

3.2.3.

Parámetros

. . . . . . . . . . . . . . . . . . . . . . . . . .

26

3.2.4.

Grá ca

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

26


4

ÍNDICE GENERAL

3.3.

3.4.

3.5.

3.6.

Distribución triangular . . . . . . . . . . . . . . . . . . . . . . . .

26

3.3.1.

Función de densidad . . . . . . . . . . . . . . . . . . . . .

27

3.3.2.

Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .

28

3.3.3.

Parámetros

. . . . . . . . . . . . . . . . . . . . . . . . . .

28

3.3.4.

Grá ca

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

Distribución normal

. . . . . . . . . . . . . . . . . . . . . . . . .

28

3.4.1.

Función de densidad . . . . . . . . . . . . . . . . . . . . .

29

3.4.2.

Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .

29

3.4.3.

Parámetros

. . . . . . . . . . . . . . . . . . . . . . . . . .

29

3.4.4.

Grá ca

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

29

Distribución gamma

. . . . . . . . . . . . . . . . . . . . . . . . .

29

3.5.1.

Función de densidad . . . . . . . . . . . . . . . . . . . . .

30

3.5.2.

Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .

30

3.5.3.

Parámetros

. . . . . . . . . . . . . . . . . . . . . . . . . .

30

3.5.4.

Grá ca

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

Distribución beta . . . . . . . . . . . . . . . . . . . . . . . . . . .

31

3.6.1.

Función de densidad . . . . . . . . . . . . . . . . . . . . .

31

3.6.2.

Espacio muestral . . . . . . . . . . . . . . . . . . . . . . .

31

3.6.3.

Parámetros

. . . . . . . . . . . . . . . . . . . . . . . . . .

32

3.6.4.

Grá ca

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

4. Generadores de v.a. aleatorias uniformes

33

4.1.

Características deseables de un generador de números aleatorios .

33

4.2.

Métodos para generar variables aleatorias

34

4.3.

Generación de v. a. con distribución uniforme continua entre cero y uno

. . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

4.3.1.

Método de los cuadrados medios

. . . . . . . . . . . . . .

35

4.3.2.

Método congruencial multiplicativo . . . . . . . . . . . . .

35


5

ÍNDICE GENERAL

5. Métodos para otras distribuciones

5.1.

5.2.

5.3.

Método de transformación inversa

37

. . . . . . . . . . . . . . . . .

37

5.1.1.

Ejemplo: Distribución uniforme continua . . . . . . . . . .

38

5.1.2.

Ejemplo: Distribución exponencial

. . . . . . . . . . . . .

38

5.1.3.

Ejemplo: Distribución triangular

. . . . . . . . . . . . . .

38

Método de rechazo o de Monte Carlo . . . . . . . . . . . . . . . .

39

5.2.1.

Ejemplo: Distribución Normal Estándar . . . . . . . . . .

39

5.2.2.

Ejemplo: Distribución de Poisson . . . . . . . . . . . . . .

40

Método de simulación directa . . . . . . . . . . . . . . . . . . . .

41

5.3.1.

Ejemplo: Distribución Bernoulli . . . . . . . . . . . . . . .

41

5.3.2.

Ejemplo: Distribución Binomial . . . . . . . . . . . . . . .

41

5.3.3.

Ejemplo: Distribución Geométrica

41

5.3.4.

Ejemplo: Distribución Binomial Negativa

. . . . . . . . .

42

5.3.5.

Ejemplo: Distribución Hipergeométrica . . . . . . . . . . .

42

5.3.6.

Ejemplo: Distribución Normal . . . . . . . . . . . . . . . .

42

5.3.7.

Ejemplo: Distribución de Poisson . . . . . . . . . . . . . .

43

5.3.8.

Ejemplo: Cadena de Markov

44

Bibliografía

. . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

45


Índice de guras 1.1.

Distribución Ji Cuadrada

. . . . . . . . . . . . . . . . . . . . . .

11

1.2.

Regiones de aceptación y rechazo . . . . . . . . . . . . . . . . . .

12

1.3.

Distribuciones teóricas de probabilidad . . . . . . . . . . . . . . .

13

2.1.

Distribución Bernoulli

. . . . . . . . . . . . . . . . . . . . . . . .

15

2.2.

Distribución Binomial

. . . . . . . . . . . . . . . . . . . . . . . .

17

2.3.

Distribución Geométrica . . . . . . . . . . . . . . . . . . . . . . .

18

2.4.

Distribución Binomial Negativa o de Pascal

. . . . . . . . . . . .

19

2.5.

Distribución Hipergeométrica

. . . . . . . . . . . . . . . . . . . .

21

2.6.

Distribución Uniforme Discreta . . . . . . . . . . . . . . . . . . .

22

2.7.

Distribución Poisson

23

3.1.

Distribución Uniforme Continua

. . . . . . . . . . . . . . . . . .

25

3.2.

Distribucion exponencial . . . . . . . . . . . . . . . . . . . . . . .

26

3.3.

Distribución Triangular

. . . . . . . . . . . . . . . . . . . . . . .

28

3.4.

Distribución Normal

. . . . . . . . . . . . . . . . . . . . . . . . .

30

3.5.

Distribución gamma

. . . . . . . . . . . . . . . . . . . . . . . . .

31

3.6.

Distribución beta . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

. . . . . . . . . . . . . . . . . . . . . . . . .

6


Presentación Este texto es una revisión breve de conceptos de probabilidad, estadística y simulación digital. Está dirigido a alumnos universitarios interesados en este tema. Posteriormente le agregaremos algunos conceptos fundamentales al inicio y el manejo de software, tanto de Excel, como de R y Arena. Está dedicado a mi hija querida Estefanía, que es actuaria como yo.

7


Capítulo 1

Distribuciones de probabilidad 1.1.

Formas de calcular la probabilidad

Existen dos formas de calcular la probabilidad de un evento:

• teórica o

a priori

• empírica o

y

a posteriori.

La probabilidad teórica se calcula como la cardinalidad del conjunto de posibilidades del evento de interés, dividida entre la cardinalidad del espacio muestral, es decir, del conjunto de posibilidades totales del fenómeno bajo estudio.

1 2 . Esto lo sabemos sin lanzar o sin tener una moneda, ya que sólo hay una forma de que Por ejemplo, la probabilidad de que una moneda caiga en águila es ocurra águila entre dos posibilidades: águila o sol. En cambio, la probabilidad empírica requiere de la realización de una serie de experimentos. La probabilidad se calcula simplemente como el número de veces que ocurre el evento de interés, entre el número de experimentos. Se supone que si se hace un número grande de experimentos, la probabilidad empírica tenderá a parecerse a la probabilidad teórica. En general siempre es preferible utilizar la probabilidad teórica, cuando sea posible, por las siguientes razones:

• Se cuenta con una función matemática que permite hacer cálculos con facilidad.

• Se maneja el rango completo (la probabilidad empírica puede dejar fuera algunos valores si no ocurren en el experimento). 8


CAPÍTULO 1.

9

DISTRIBUCIONES DE PROBABILIDAD

• Se conocen los momentos de la función.

1.2.

Ajuste de una distribución teórica

Por las razones anteriores, es necesario utilizar un procedimiento para seleccionar la distribución teórica de probabilidad que se ajuste de mejor manera al fenómeno real. Nótese que se ajusta la distribución a los datos y no al revés. Esto implica realizar los siguientes pasos:

1. Revisar con cuidado las características del problema. Por ejemplo, la descripción del fenómeno puede ser orientadora en cuanto a la mejor distribución. 2. Recopilar una muestra representativa del fenómeno, es decir obtener datos. En muchos casos habrá necesidad de tomar muestras en diversos momentos del tiempo. Por ejemplo, supóngase que se observan las llegadas de personas a un banco. Seguramente habrá horas con menos a uencia y horas pico, por lo cual deberán ajustarse diversas distribuciones (o la misma con diversos parámetros) en cada intervalo 3. Observar el rango. Por ejemplo, si los datos observados son discretos, esto indicará que debe elegirse una distribución discreta. Por el contrario, si los datos observados son continuos, habrá que explorar este tipo de distribuciones. 4. Elaborar el histograma y compararlo con distribuciones teóricas. A partir de ello se selecciona una o más distribuciones factibles. Los paquetes estadísticos como

Statgraphics, R, SPSS, Statistica

o

Minitab,

entre otros,

ofrecen funciones especí cas para calcular la tabla de frecuencias y gra car el histograma. En muchos casos es posible gra car el histograma junto con la distribución hipotética. Esto ayudará a seleccionar la mejor distribución. 5. Efectuar una prueba de hipótesis de bondad de ajuste, para veri car si la distribución planteada es realmente apropiada para los datos. Las pruebas de bondad de ajuste que más se utilizan son: Ji-Cuadrada, KolmogorovSmirnov, Corridas, etcétera. Si hay varias distribuciones que cumplen con la prueba seleccionada, se elige aquella que tenga el menor valor para el estadístico

1.3.

X,

o el mayor valor-p (

p-value ).

Prueba Ji-Cuadrada de bondad de ajuste

La prueba de hipótesis Ji-Cuadrada de bondad de ajuste se utiliza para veri car, de manera objetiva y sin intervención del juicio personal, si una distribución de


CAPÍTULO 1.

10

DISTRIBUCIONES DE PROBABILIDAD

probabilidad en particular es apropiada para los datos que se han recopilado. Esta prueba se considera poco e ciente porque es sensible al número y tamaño de clases en que se divida el espacio muestral [3, 2]. Para efectuar esta prueba, una vez obtenida la muestra y elegida una distribución apropiada

f,

se procede de la siguiente forma:

1. Se plantean la hipótesis nula y la hipótesis alternativa, de la siguiente forma:

H0 :

Los datos provienen de la distribución de probabilidad

Ha :

Los datos provienen de cualquier otra distribución.

vs.

f.

2. Se construye un estadístico de prueba que compare los valores de la hipótesis con los de la muestra y que se distribuya aproximadamente como alguna distribución de probabilidad conocida. En este caso el estadístico

X 2:

se distribuye aproximadamente como una Ji Cuadrada con

grados de libertad, donde cuencias y

p

K

K −1−p

es el número de clases de de la tabla de fre-

es el número de parámetros estimados en la distribución.

X2 =

K 2 X (F Ei − F Oi ) i=1

F Ei

3. Dado que el estadístico se distribuye como una Ji-Cuadrada, puede establecerse una región de rechazo y una región de aceptación para la hipótesis. Podemos recordar aquí la grá ca de la distribucion Ji-Cuadrada, que es semejante a una ballena, como puede verse en la Figura 1.1. La región de rechazo estará donde el estadístico sea muy lejano de cero, es decir, en la cola de la distribución, hacia la derecha. La región de aceptación se ubica del lado del cero. Las regiones se dividen por el llamado punto crítico, y corresponde al valor de Ji Cuadrada con utilizar

α = 0.05.

K −1−p

x

para el área de

(1 − α)en

una

grados de libertad. En general se acostumbra

Esto se ejempli ca en la Figura 1.2. De tal manera que

la regla de decisión puede especi carse entonces como: Aceptar

vs.

H0

Rechazar

con un 95 % de con anza si

H0

El valor de a través de

X 2 < χ21−α, K−1−p

.

en caso contrario.

χ21−α, K−1−p,

puede obtenerse de un software estadístico o

Excel, con la función:

PRUEBA.CHI.INV(probabilidad,grados_de_libertad).


CAPÍTULO 1.

DISTRIBUCIONES DE PROBABILIDAD

11

Figura 1.1: Distribución Ji Cuadrada

Existe también software como

EasyFit

que se encarga de evaluar todas

las distribuciones factibles e indicar cuál es la que tiene un estadístico menor. Nota:

Una forma alternativa de hacer la prueba de hipótesis es utilizar el valor

p

o

p-value.

Este valor representa la probabilidad de que la hipótesis

nula sea verdadera, dados los datos de la muestra. Los paquetes estadísticos suelen arrojar también esta probabilidad que es el área bajo la curva que se encuentra hacia la derecha del estadístico. La regla de decisión es muy sencilla: Aceptar

H0 con un 95 % de con anza H0 en caso contrario.

si el valor

p

es mayor que

α = 0.05.

Rechazar

1.4.

Prueba Kolmogorov-Smirnov de bondad de ajuste

Esta prueba se utiliza también para veri car [1]


CAPÍTULO 1.

DISTRIBUCIONES DE PROBABILIDAD

12

Figura 1.2: Regiones de aceptación y rechazo

1.5.

Principales distribuciones teóricas

Las distribuciones teóricas de probabilidad se pueden dividir, según su espacio muestral, en discretas y continuas. En el caso de las distribuciones discretas se hablará de una función masa de probabilidad, mientras que en las continuas se utiliza la función de densidad. En la Figura 1.3 se muestran algunas de las distribuciones teóricas más utilizadas.


CAPÍTULO 1.

DISTRIBUCIONES DE PROBABILIDAD

Figura 1.3: Distribuciones teóricas de probabilidad

13


CapĂ­tulo 2

Distribuciones discretas Las distribuciones de probabilidad discretas son aquellas cuyo espacio muestral es discreto, es decir, numerable. Para estas distribuciones se cuenta con una funciĂłn masa de probabilidad.

2.1.

DistribuciĂłn Bernoulli

La distribuciĂłn Bernoulli se utiliza para modelar eventos donde la variable aleatoria (v. a.) representa un evento que sĂłlo puede tener dos resultados. Por ejemplo, al lanzar una moneda (ejemplo clĂĄsico), se puede obtener ĂĄguila o sol. En general se suelen denotar los dos eventos por cero (0) y uno (1). De modo que puede considerarse que, para la moneda, ĂĄguila sea 0 y sol sea 1. Entonces la variable aleatoria puede tomar esos dos valores.

2.1.1. FunciĂłn masa de probabilidad La ecuaciĂłn 2.1 representa la probabilidad de un evento Bernoulli:

  p p (x) = 1 − p   0

x=1 x=0

(2.1)

Otro caso

2.1.2. Espacio muestral Los dos posibles eventos de una distribucion Bernoulli se suelen representar como:

x {0, 1}.

Si bien se acostumbra referirse a ellos como ĂŠxito y fracaso ,

debe recordarse que estos tĂŠrminos son arbitrarios y que no necesariamente son aplicables en la realidad. 14


CAPÍTULO 2.

15

DISTRIBUCIONES DISCRETAS

Figura 2.1: Distribución Bernoulli

2.1.3. Parámetros El único parámetro es la probabilidad de éxito o de que ocurra el evento de interés:

0 ≤ p ≤ 1.

2.1.4. Grá ca La grá ca de esta distribución sería únicamente cero en el origen y

p

en uno,

como se ve en la Figura 2.1. Más información en: Bernoulli distribution. (2009, julio 7). En

Wikipedia, The Free Encyclopedia.

Fecha de consulta; 18:35, agosto 20, 2009, en (Ir a Wikipedia). En general se ecuentra una información apropiada acerca de las distribuciones de probabilidad en la

Wikipedia

2.2.

en inglés.

Distribución binomial

La distribución binomial se usa cuando la v. a. representa el número de éxitos en un conjunto de

n

eventos Bernoulli independientes. Por ejemplo, el

número de soles obtenidos en 28 lanzamientos. En este caso

n = 28

y

p = 0.5.


CAPÍTULO 2.

16

DISTRIBUCIONES DISCRETAS

2.2.1. Función masa de probabilidad La distribución binomial se expresa con la ecuación 2.2, en la cual presenta las combinaciones de

n x

re-

n elementos tomados de x en x; lo cual se calcula

como:

n! (n − x)!x! .

p(x) =

n x

n−x

px (1 − p)

(2.2)

2.2.2. Espacio muestral En este caso la v. a. puede tomar los siguientes valores:

x ∈ {0, 1, 2, . . . , n},

es

decir, puede haber desde cero éxitos hasta el tamaño de la muestra, lo cual representaría que todos los elementos de la muestra contienen la característica de interés.

2.2.3. Parámetros Esta función tiene dos parámetros:

n ∈ N,

0 ≤ p ≤ 1,

que representa el tamaño de la muestra y que es la probabilidad de éxito .

2.2.4. Grá ca La grá ca de la distribución binomial se aprecia en la Figura 2.2.

2.3.

Distribución geométrica

La distribución geométrica se utiliza cuando la v. a. representa el número de ensayos Bernoulli independientes, necesarios para obtener el primer éxito o elemento con la característica de interés. Por ejemplo, la v. a. puede reprentar el número de hijos que debe tener una pareja, necesarios para que nazca el primer varón.


CAPÍTULO 2.

17

DISTRIBUCIONES DISCRETAS

Figura 2.2: Distribución Binomial

2.3.1. Función masa de probabilidad La ecuación 2.3 representa la probabilidad de obtener el primer éxito , exactamente en es

x

ensayos Bernoulli independientes, donde la probabildad de éxito

p. x−1

p(x) = p (1 − p)

(2.3)

2.3.2. Espacio muestral Dado que se requiere al menos un ensayo para tener un éxito y además es posible que jamás ocurra un evento de este tipo, el espacio muestral es:

x ∈

{1, ..., ∞}.

2.3.3. Parámetros El único parámetro es

p ∈ [0, 1],

que representa la probabilidad de éxito .

2.3.4. Grá ca La grá ca de la función geométrica para un caso especial de Figura 2.3.

p

puede verse en la


CAPÍTULO 2.

18

DISTRIBUCIONES DISCRETAS

Figura 2.3: Distribución Geométrica

2.4.

Distribución binomial negativa o de Pascal

La distribución binomial negativa o distribución de Pascal se usa cuando la v. a. representa el número de ensayos necesarios para obtener el

r-ésimo éxito, en

una serie de ensayos Bernoulli independientes. Por ejemplo, si se pregunta a un grupo de personas si están de acuerdo o no con las políticas del gobierno actual, la v. a. podría ser el número de personas que deben entrevistarse para obtener diez respuestas de acuerdo. En este caso el éxito signi ca que una persona está de acuerdo y

r

sería diez.

2.4.1. Función masa de probabilidad La función masa de probabilidad está de nida en la ecuación 2.4.

p (x) =

x−1 r−1

x−r

pr (1 − p)

(2.4)

2.4.2. Espacio muestral En este caso la variable aleatoria es mínimo de los

r

r

éxitos.

ensayos para obtener

x ∈ {r, r + 1, ..., ∞}. Es decir, se requiere un r éxitos, y es posible que jamas se obtengan


CAPÍTULO 2.

19

DISTRIBUCIONES DISCRETAS

Figura 2.4: Distribución Binomial Negativa o de Pascal

2.4.3. Parámetros Los parámetros de la distribución son:

p ∈ [0, 1]

r ∈ N.

y

2.4.4. Grá ca La distribución binomial negativa para

r = 10

y

p = 0.5

se ilustra en la Figura

2.4.

2.5.

Distribución hipergeométrica

La distribución hipergeométrica se usa cuando la v.a.

X

representa el nú-

mero de elementos con cierta característica en una muestra aleatoria de tamaño

n

extraída sin reemplazo de una población de tamaño

N,

en la cual hay ele-

mentos de dos tipos: los que poseen la característica y los que no la poseen. La población inicial contiene tanto

N (1 − p)

Np

elementos con la característica de interés (por lo

sin la característica).

La distribucion hipergeométrica se usa mucho en control de calidad, ya que suelen extraerse muestras sin reeemplazo de los productos para revisar si tienen o no algún defecto de fabricación.


CAPÍTULO 2.

20

DISTRIBUCIONES DISCRETAS

2.5.1. Función masa de probabilidad La función masa de esta distribución se muestra en la ecuación 2.5.

p(x) =

Np x

N (1 − p) n−x N n

(2.5)

2.5.2. Espacio muestral El espacio muestral depende de dos aspectos: del tamaño de la muestra y del número de elementos en la población que poseen la característica. Así pues, los valores que puede tomar la variable aleatoria son:

x ∈ {m´ ax [0, n − N (1 − p)] , . . . , m´ın [n, N p]}

2.5.3. Parámetros La distribución hipergeométrica tiene tres parámetros:

• El tamaño de la población: • El tamaño de la muestra:

N ∈ Z+ ,

n ∈ {1, 2, . . . , N }

y

• La probabilidad de que un elemento de la población tenga la característica:

p ∈ (0, 1).

2.5.4. Grá ca Un ejemplo de la función hipergeométrica con

N = 100, n = 20

y

p = 0.5,

se

puede observar en la Figura 2.5.

2.6.

Distribución uniforme discreta

La distribución uniforme discreta se usa cuando todos los valores del espacio muestral tienen idéntica probabilidad de ocurrencia. Se aplica sobre todo en muestreo aleatorio, donde cada elemento debe tener la misma probabilidad de aparecer en la muestra.


CAPÍTULO 2.

21

DISTRIBUCIONES DISCRETAS

Figura 2.5: Distribución Hipergeométrica

2.6.1. Función masa de probabilidad Si el mínimo valor de la v. a. es

a y el máximo es b, y existen n valores puntuales

en este intervalo, la función masa será la correspondiente a la ecuación 2.6.

p(x) =

1 n

2.6.2. Espacio muestral Como es evidente, la v. a. puede tomar los siguientes valores:

x ∈ {a, a + 1, . . . , b = a + (n − 1)}.

2.6.3. Parámetros La distribución uniforme discreta tiene dos parámetros:

• El valor mínimo

a∈Z

• El valor máximo

b ∈ Z,

y de modo que

a < b.

(2.6)


CAPÍTULO 2.

DISTRIBUCIONES DISCRETAS

22

Figura 2.6: Distribución Uniforme Discreta

2.6.4. Grá ca La función uniforme también se llama rectangular, ya que su grá ca corresponde a la Figura 2.6, para

2.7.

a=1

y

b = 10.

Distribución de Poisson

La distribución de Poisson se utiliza mucho en simulación. Se usa cuando la v. a. representa el númeron de ocurrencias de un evento en un intervalo de tiempo o espacio. Por ejemplo, puede usarse para la distribución de llegadas de autos a un estacionamiento, o para el número de errores de ortografía en cada página de unos apuntes.

2.7.1. Función masa de probabilidad La función de Poisson se representa con la ecuación 2.7. Es importante recordar que los tiempos entre ocurrencias de una distribución Poisson se comportan como una distribución exponencial, que se verá en la sección 3.2.

p(x) =

λx e−λ x!

(2.7)


CAPÍTULO 2.

DISTRIBUCIONES DISCRETAS

23

Figura 2.7: Distribución Poisson

2.7.2. Espacio muestral Dado que la v. a. representa el número de ocurrencias de un evento, el espacio muestral es:

x ∈ {0, 1, . . . , ∞}.

2.7.3. Parámetros El único parámetro de esta distribución es

λ ∈ R+ , que representa la intensidad

o promedio de ocurrencias por unidad de tiempo o espacio.

2.7.4. Grá ca La grá ca de la distribucion Poisson para

λ = 10

se muestra en la Figura 2.7.


Capítulo 3

Distribuciones continuas Estas distribuciones se utilizan cuando la v. a. tiene su rango en un intervalo de puntos. Para ellas se cuenta con una función de densidad. A continuación se presentan las principales características de algunas de las distribuciones continuas más usadas.

3.1.

Distribución uniforme continua

Si la va representa algún punto en el intervalo

[a, b],

y todos los puntos tienen

idéntica probabilidad, se usa la función uniforme continua. Casi no se usa para ejemplos reales, pero es la base de la simulación, cuando el rango es de cero a uno. Se usa particularmente para generar variables aleatorias con todo tipo de distibuciones.

3.1.1. Función de densidad La ecuación 3.1 muestra la distribución uniforme continua, también llamada rectangular por su gura.

f (x) =

1 b−a

(3.1)

3.1.2. Espacio muestral En este caso la v.a. puede tomar cualquier punto del intervalo, es decir,

x ∈ [a, b].

Es convieniente recordar aquí que la probabilidad de un punto especí co de una distribucion continua es cero, por lo cual no hace diferencia el tomar un intervalo cerrado o abierto. 24


CAPÍTULO 3.

25

DISTRIBUCIONES CONTINUAS

Figura 3.1: Distribución Uniforme Continua

3.1.3. Parámetros Los parámetros de esta distribución son:

a ∈ R,

que representa el valor mínimo, y

b ∈ R,

que representa el valor máximo.

3.1.4. Grá ca La Figura 3.1 muestra la grá ca de esta función, para

3.2.

a=0

y

b = 1.

Distribución exponencial

La distribución exponencial se usa cuando la v.a. representa el tiempo entre la ocurrencia de eventos de tipo Poisson. Se utilieza por ejemplo para tiempos entre llegadas, tiempos entre fallas, tiempos de llamadas telefónicas, etcétera.

3.2.1. Función de densidad La ecuación 3.2 represesenta el comportamiento de la distribución exponencial.

f (x) = λe−λx

(3.2)


CAPÍTULO 3.

DISTRIBUCIONES CONTINUAS

26

Figura 3.2: Distribucion exponencial

3.2.2. Espacio muestral Dado que la v. a. representa el tiempo entre dos eventos de tipo Poisson, su rango es

x ∈ (0, ∞).

3.2.3. Parámetros El parámetro es

λ

que representa el promedio de ocurrencias por unidad de

tiempo. De manera que

1 λ representará el tiempo promedio entre ocurrencias.

3.2.4. Grá ca En la Figura 3.2 se observa el comportamiento de la función exponencial para

λ=1

evento por unidad de tiempo.

3.3.

Distribución triangular

La distribución triangular se usa cuando la v.a. tiene tres puntos sencillos de identi car, que generalmente se denominan como:

O

que es el valor mínimo o el más optimista .


CAPÍTULO 3.

27

DISTRIBUCIONES CONTINUAS

Likely ).

L

que es el valor más probable (

P

que es el valor máximo o el más pesimista .

Con estos tres puntos puede formarse un tríángulo de altura h que corresponde a x = L. Como el área del triángulo debe ser uno para conformar una distribución de probabilidad, se tendrá que:

Área del triángulo

=1=

(P − O)h 2

Entonces:

h=

2 P −O

Por lo tanto, el triángulo se forma con los tres puntos:

2 (O, 0), L, P −O y(P, 0).

De manera que se pueden trazar dos rectas, con cada pareja de puntos.

f (x) =

  Recta1

si

O≤x≤L

  Recta2

si

L≤x≤P

Esta función se utiliza cuando hay tres puntos que distinguen el comportamiento de la v. a. Por ejemplo, en el método PERT (ruta crítica con tiempos estocásticos), se usa para asignar la probabilidad de acuerdo con el tiempo mínimo para completar una acción (tiempo optimista); el tiempo más probable; y el máximo (tiempo pesimista). Aunque no es necesario que sean de esta manera. Por ejemplo, en las cali caciones de esta materia podrían ser 5, 7 y 10, las cali caciones mínima (pesimista), más probable y máxima (optimista).

3.3.1. Función de densidad De acuerdo con lo anterior, la función de distribución estará seccionada y se representa con la ecuación 3.3, que se obtiene de las rectas que pasan por cada pareja de puntos:

f (x) =

 2 (x − O)    (L−O)(P −O)    2 (P − x)

(P −L)(P −O)

si

O≤x≤L (3.3)

si

L≤x≤P


CAPÍTULO 3.

DISTRIBUCIONES CONTINUAS

28

Figura 3.3: Distribución Triangular

3.3.2. Espacio muestral En este caso puede verse que

x ∈ [O, P ].

3.3.3. Parámetros x

Los parámetros son los tres valores de

ya señalados arriba:

O

que es el valor mínimo o el más optimista .

L

que es el valor más probable (

P

que es el valor máximo o el más pesimista .

Likely ).

3.3.4. Grá ca En la Figura 3.3 se muestra la distribución triangular para

O = 0, L = 7

y

P = 10.

3.4.

Distribución normal

La distribución normal se usa cuando la v.a. tiene una distribución simétrica, agrupada alrededor de la media. Muchos fenómenos tienen este comportamiento,


CAPÍTULO 3.

DISTRIBUCIONES CONTINUAS

29

ya que tienden a un valor central y su probabilidad disminuye al alejarse de este valor. Además, se usa en muchas pruebas estadísticas debido al Teorema del Límite Central, que indica que la suma o el promedio de una muestra grande que provenga de cualquier distribución, tenderá a distribuirse como una normal.

3.4.1. Función de densidad La función de densidad se expresa con la ecuación 3.4.

f (x) = √

1 2πσ 2

e−

(x−µ)2 2σ 2

(3.4)

3.4.2. Espacio muestral Las v. a. con distribución normal son

x ∈ R.

3.4.3. Parámetros La distribución normal tiene dos parámetros:

• La media

µ,

que es el valor hacia el cual tienden a agruparse los datos.

• La desviación estándar

σ,

que es una medida de la dispersión de los datos

con respecto a la media.

3.4.4. Grá ca La Figura muestra la distribución normal estándar, es decir, aquella cuyos parámetros son:

3.5.

µ=0

y

σ = 1.

Distribución gamma

Si un proceso consiste de

k

eventos sucesivos y el tiempo total transcurrido de

k variables exponenciales indepenλ, la distribución de probabilidad de esta suma será una distribución gamma con parámetros λ y k . Esta distribución se puede usar, por ejemplo, para la probabilidad de que fallen k focos de un salón de este proceso puede verse como una suma de dientes, cada una con parámetro

clase.


CAPÍTULO 3.

30

DISTRIBUCIONES CONTINUAS

Figura 3.4: Distribución Normal

3.5.1. Función de densidad La ecuación 3.5 muestra la fución de densidad de una distribución gamma en la cual

k ∈ Z+ . f (x) =

λ k−1 −λx (λx) e (k − 1)!

(3.5)

3.5.2. Espacio muestral En este caso la v. a.

x ∈ (0, ∞).

3.5.3. Parámetros Los parámetros son:

k ∈ Z+

λ ∈ R+

3.5.4. Grá ca La Figura 3.5 muestra una función gamma con

r=3

y

λ = 1.


CAPÍTULO 3.

31

DISTRIBUCIONES CONTINUAS

Figura 3.5: Distribución gamma

3.6.

Distribución beta

La distribución beta permite generar una gran variedad de pre les. Se utiliza para representar variables físicas cuyos valores se encuentran restringidos a un intervalo de longitud nita y para obtener ciertas cantidades que se conocen como límites de tolerancia en estadística bayesiana, o para redes neuronales.

3.6.1. Función de densidad La ecuación 3.6 representa la función de densidad beta.

f (x) =

Γ (α + β) α−1 β−1 x (1 − x) Γ (α) Γ (β)

Donde:

Γ (n) = (n − 1) Γ (n − 1) Si

n > 0.

3.6.2. Espacio muestral Para la función beta

x ∈ [0, 1].

(3.6)


CAPÍTULO 3.

32

DISTRIBUCIONES CONTINUAS

Figura 3.6: Distribución beta

3.6.3. Parámetros Los parámetros son:

α>0

y

β>0

.

3.6.4. Grá ca La Figura 3.6 representa la distribución beta para

α = 1.5

y

β = 2.


Capítulo 4

Generadores de v.a. aleatorias uniformes 4.1.

Características deseables de un generador de números aleatorios

Un generador de números es un algoritmo o procedimiento que permite obtener un conjunto de valores que satisfacen las propiedades de alguna distribución de probabilidad. Aún cuando los números resultantes no sean estrictamente aleatorios sino que tengan un origen determinista, lo importante es que se comporten como aleatorios. En ese sentido, el generador debe tener las siguientes características deseables:

1. Debe generar números que se comporten como

aleatorios,

es decir, que

satisfagan una prueba de bondad de ajuste (por ejemplo Ji-Cuadrada o Kolmogorv-Smirnov) para la distribucion de probabilidad que se desea simular. 2. Debe ser

e ciente,

es decír, generar los números con rapidez, con pocos

pasos. 3. Debe requerir

poco o ningún espacio de almacenamiento

4. Debe generar

muchos números diferentes

en memoria.

antes de repetir la misma se-

cuencia (tener un período largo). 5.

No debe degenerar,

es decir, no deben existir uno o más valores para los

cuales el método resulte convergente y el resultado sea siempre el mismo valor.

33


CAPÍTULO 4.

6. Debe ser

GENERADORES DE V.A. ALEATORIAS UNIFORMES

replicable,

34

es decir, debe permitir la posibilidad de generar la

misma secuencia de números si asi se desea, sin necesidad de almacenarlos. 7. Debe ser sencillo de utilizar. 8. Debe ser económico.

4.2.

Métodos para generar variables aleatorias

Existen diversas formas de generar números aleatorios, de las cuales prácticamente utilizaremos una:

1.

Métodos manuales, como el uso de dados, monedas, papeles en una urna, etcétera. Resulta lento y costoso, impracticable para obtener cantidades grandes de datos.

2.

Tablas de números aleatorios. En realidad las tablas existentes se han obtenido de métodos analógicos. En ellas se presentan grandes conjuntos de dígitos y se indican técnicas para seleccionar apropiadamente los valores necesarios. Todavía se utilizan en ámbitos como el control de calidad. Puedes consultar algunas tablas de números aleatorios en Internet y también se venden libros completos que las incluyen.

3.

Generadores analógicos. Los números obtenidos de esta forma pueden considerarse como realmente aleatorios. Por lo general se obtienen de algún aparato que registra un fenómeno real y convierte los registros en números que pueden ser almacenados y utilizados. Sin embargo, exigen almacenamiento en memoria y no son replicables.

4.

Generadores digitales.

Permiten obtener valores aleatorios (con más pro-

piedad llamados seudoaleatorios) a partir de algoritmos deterministas instrumentados en computadoras digitales. Si se eligen correctamente sus características, estos generadores cumplen con todas las propiedades deseables. Es la forma más utilizada en la actualidad.

4.3.

Generación de v. a. con distribución uniforme continua entre cero y uno

Así como en la estadística la distribución uniforme es la piedra angular, dentro de la simulación todos los metodos se basan en la generación de variables aleatorias con distribución uniforme continua entre cero y uno. ¾Cuál es la razón de esto? Como se sabe, toda distribución acumulada, discreta o continua, toma valores que van de cero a uno. Si es posible simular valores para esta distribución, puede


CAPÍTULO 4.

GENERADORES DE V.A. ALEATORIAS UNIFORMES

35

pensarse de manera lógica que habrá alguna forma de proyectarlos o mapearlos para encontrar los valores respectivos de la variable aleatoria. Es decir, aquí se trabaja de manera inversa a como se hace en probabilidad. En probabilidad se parte de la variable y se calcula la probabilidad. Ahora la idea es partir de la probabilidad y obtener la variable. De aquí la importancia de comenzar el proceso con la simulación de la distribución uniforme que, a su vez, será empleada posteriormente para generar cualquier otra distribución. A continuación se analizan brevemente dos métodos para generar valores con distribución uniforme continua entre cero y uno. El primero tiene únicamente valor histórico, ya que no cumple con las propiedades deseables, pero servirá, precisamente, para analizar dichas propiedades.

4.3.1. Método de los cuadrados medios Procedimiento:

1. Seleccionar un número con semilla o, en inglés,

seed.

n dígitos, donde n es par. Este número se llama

2. El número anterior se eleva al cuadrado y, si es necesario, se le agregan ceros del lado izquierdo de manera que se obtenga un número con 3. Se toman los

n

2n.

dígitos del centro como un nuevo número aleatorio.

4. Se repite el proceso, tantas veces como sea necesario. 5. Los números resultantes se dividen entre

10n

para obtener nalmente va-

lores entre cero y uno.

Este método fue propuesto por Von Neumann. Sin embargo, no cumple con las características deseables porque es relativamente lento y suele degenerar con valores pequeños.

4.3.2. Método congruencial multiplicativo Este método se basa en la operación

módulo

y la

relación de congruencia.

El

generador se expresa de manera general con la ecuación recursiva:

ri+1 ≡ a · ri (modm )

(4.1)

Esto se lee como r-i-más-uno es congruente con a por r-i en módulo m . La ecuación se instrumentará en una computadora digital, cuyo tamaño de palabra es

b+1

bits. De estos bits el primero se utiliza para de nir el signo de cada

número, así pues quedarán sólo

b

bits disponibles para almacenar los dígitos


CAPÍTULO 4.

GENERADORES DE V.A. ALEATORIAS UNIFORMES

36

cero o uno. Esto signi ca que el máximo número que puede almacenarse en esta computadora es

2b−1 − 1

y el mínimo es cero (recuérdese que el primer bit del

20 ,

extremo derecho irá multiplicado por

el siguiente a la izquierda por

21

y así

sucesivamente). Por lo tanto, esta computadora trabajará, si más remedio, en módulo

m = 2b ,

así que si se elige este valor como módulo, no será necesario

hacer la operación y, al mismo tiempo, se ocupará la mayor cantidad de números posibles. Así pues, en el generador congruencial multiplicativo, según lo anterior más otras reglas derivadas de la experiencia, conviene usar:

• La semilla r0 debe ser algún número impar entre cero y • El coe ciente

a

debe ser tal que

• El módulo debe ser

a≈2

b+1 2

y

a = 8t ± 3

2b .

para

t = 0, 1, 2, . . .

m = 2b .

Por supuesto, los resultados serán valores enteros entre cero y el módulo, por lo tanto, para obtener valores entre cero y uno bastará dividirlos entre el módulo. Si se supone una computadora extremadamente sencilla, de 4 bits por palabra, el seudocódigo del algoritmo sería:

Leer semilla IY; debe ser entero corto o short int IY:=5*IY IF (IY<0) THEN (IY:=IY+7+1) YFL:=IY*0.125 ENDIF Para otro tipo de computadora, bastaría con modi car este código cambiando el coe ciente y el módulo. Este método es el que utilizan:

• Las calculadoras en sus funciones •

Excel

en la función

Rnd

o

Rand

o

Random.

=aleatorio().

• Los lenguajes de programación generales como C, cétera, en sus funciones

rand

o

Rnd.

Visual Basic, Java, et-

• Los lenguajes de simulación que se verán más adelante.


Capítulo 5

Métodos para otras distribuciones Una vez que se ha visto que es posible generar valores aleatorios uniformes, se pueden considerar tres alternativas para generar variables aleatorias con

quier distribución de probabilidad

cual-

o, eventualmente, cualquier proceso estocás-

tico:

1. El

bueno : Transformación inversa.

2. El

malo : Rechazo o Monte Carlo.

3. El

feo : Simulación directa.

A continuación se explica brevemente cada uno de ellos. Por supuesto, elegir el mejor método será labor de la persona que analiza cada problema en particular.

5.1.

Método de transformación inversa

Es el mejor método porque genera una variable aleatoria por cada iteración. Es por lo tanto el método más e ciente. Simplemente invierte la función de distribución acumulada, a través de estos paso:

1. Se obtiene, si existe, la expresión analítica de la función de distribución acumulada:

FX (x) = P (X ≤ x).

Esta función es una suma para las va-

riables aleatorias discretas o una integral para las continuas. No siempre existe la expresión analítica, como puede ser el caso de la normal. Para estas distribuciones se usará otro método.

37


CAPÍTULO 5.

38

MÉTODOS PARA OTRAS DISTRIBUCIONES

2. Se obtiene un número calculadora, de

r ∼ U nif (0, 1).

¾De dónde? Simplemente de la

Excel ; o del equivalente en algún lenguaje de programación.

3. El número se iguala a la función de distribución:

r = FX (x).

4. El generador se obtiene despejando (si es posible) el valor de

x = F −1 (r).

x,

es decir:

Si no es posible, como pudiera ser el caso de la Poisson,

deberá usarse otro método. Como puede verse, este método es excelente pero no siempre es aplicable. A continuación se muestran algunos ejemplos.

5.1.1. Ejemplo: Distribución uniforme continua El generador para esta distribución se obtiene a rraves de su respectiva función de distribución acumulada, es decir:

ˆx F (x) =

x−a 1 dx = b−a b−a

a

r=

x−a b−a

⇒ x = a + (b − a) r

(5.1)

5.1.2. Ejemplo: Distribución exponencial El generador para esta distribución es:

x=

− ln r λ

(5.2)

5.1.3. Ejemplo: Distribución triangular En esta distribución debe tenerse cuidado porque la función de densidad está dividida en dos partes. De la misma forma, el generador de variables aleatorias tiene dos ecuaciones que son: Si

r≤

c−a b−a x=a+

Si

p

r(c − a)(b − a)

(5.3)

r > c−a b−a x=b−

p (1 − r)(b − c)(b − a)

(5.4)


CAPÍTULO 5.

5.2.

39

MÉTODOS PARA OTRAS DISTRIBUCIONES

Método de rechazo o de Monte Carlo x y evaluar su función

En general el procedimiento consiste en generar valores de

masa o de densidad. Se trata de aceptar los valores con más probabilidad y rechazar los que tengan poca probabilidad. Procedimiento:

1. Encerrar a la función masa o de densidad en un rectángulo. La altura del rectángulo será la función evaluada en la moda y se denota por

M . La ba-

se del rectángulo debe ser el rango; sin embargo hay funciones con rangos in nitos (Poisson, Normal,...), en estas funciones debe truncarse el rango en algún punto razonable, de modo que se consideren la mayoría de los datos. En general puede truncarse en la media más/menos dos desviaciones estándar. OJO: mientras más grande sea el rango considerado, menos e ciente será el método, porque el área de rechazo será mayor. 2. Se generan dos números aleatorios

r1

y

r2

con distribución uniforme con-

tinua entre cero y uno. 3. El primero se usa para generar la variable aleatoria. Si el rectángulo tiene una base que inicia en

a

y termina en

4. Se calcula la función para 5. El otro número uniforme,

b,

x: f (a + r1 (b − a)). r2 ,

se utiliza para calcular un punto sobre el eje

vertical, que se obtendrá como el valor: cero y

x = a + r1 (b − a)

el valor de

M r2 ,

que será una cantidad entre

M.

6. Regla de decisión: se acepta la variable aleatoria

x si M r2 ≤ f (a+r1 (b−a)).

En caso contrario se rechaza la variable y es necesario hacer otra iteración desde el Paso 1.

Conviene organizar estos pasos en una tabla para entender el procedimiento y seguirlo con mayor facilidad.

5.2.1. Ejemplo: Distribución Normal Estándar El ejemplo está resuelto en la hoja de cálculo de

Excel.

Los pasos anteriores

quedan como:

1. La

altura

del rectángulo es la función normal estándar evaluada en la

moda, es decir, en cero. En como:

Excel

el valor de

=distr.norm(0,0,1,falso).

M

se calcularía entonces

El primer valor es

x,

el segundo es

la media, el tercero es la desviación estándar y el último falso indica que sólo se calculará la función de densidad y no la acumulada. La

base


CAPÍTULO 5.

40

MÉTODOS PARA OTRAS DISTRIBUCIONES

del rectángulo estará de nida por la media más/menos dos desviaciones estándar, de manera que

a = −2

y

b = 2.

Estos límites pueden cambiarse,

pero hacerlos mayores en valor absoluto ocasionará que se rechacen más variables. 2. Las dos primeras columnas de la hoja de ro de iteración, contienen los valores

=aleatorio().

r1

y

3. La cuarta columna contiene los valores de

Excel, r2 ,

posteriores al núme-

obtenidos con la función

x = −2 + 4(r1 ).

Se observan

únicamente valores entre -2 y 2. 4. La quinta columna contiene la función normal evaluada en cada valor de

x,

es decir,

f (x).

5. Se calcula el producto

M r2 .

6. En la sexta columna se coloca la regla de decisión: sólo se acepta la variable aleatoria

x

si

M r2 ≤ f (x).

En caso contrario se escribe el texto

Rechazado .

Es posible hacer una grá ca de los valores, de tal manera que destaquen de manera distinta los aceptados y los rechazados. De cualquier forma, el conjunto

Statgraphics ) para aplicarle pruebas de bondad de ajuste con respecto a la normal. Únicamente debe observarse que al hacer el proceso de copia-y-pega de Excel a Statgraphics los datos quedarán como caracteres, ya que incluyen la palabra Rechazado . Al modi car la columna en Statgraphics y hacerla numérica, de resultados obtenidos puede trasladarse a un software estadístico (como

desaparecerán los datos textuales y será posible efectuar las pruebas.

5.2.2. Ejemplo: Distribución de Poisson El ejemplo se muestra también en la hoja de una Poisson con media

a = 0,

ya que el rango

Excel.

Dado que se ha supuesto

λ = 5, conviene usar como base es x ≥ 0; mientras que el valor

por la media más dos desviaciones estándar, es decir:

del rectángulo el valor

b puede√estar b = 5 + 2 5 =. de

dado Si se

amplía el rango, el método será más lento ya que contendrá mayor número de variables rechazadas. Por otro lado, la altura está dada por la función evaluada en la media, en este caso

=Poisson(5,5,falso).

Ahora, en el caso de la Poisson es importante notar que la variable aleatoria

x

debe ser discreta, por lo cual se modi ca el contenido de la cuarta colum-

na, colocando el redondeo a cero decimales o el valor entero (es preferible lo primero).


CAPÍTULO 5.

5.3.

41

MÉTODOS PARA OTRAS DISTRIBUCIONES

Método de simulación directa

Este método requiere de conocer las propiedades de las distribuciones. Se utiliza el método de transformación inversa y se re-crea a través de ellas la variable correspondiente. No hay una regla general (por eso es un poco feo), sino que debe

pensarse

para cada caso.

5.3.1. Ejemplo: Distribución Bernoulli Un ejemplo especí co: una moneda, puede caer en águila (0) con probabilidad de .5 o en sol (1) con probabilidad de 0.5. ¾Cómo simulamos la moneda? Se genera un número Unif(0,1):

• 1 ó sol, si

r

y se establece que el resultado será:

r≤p

• 0 ó águila, en otro caso. De esta manera pueden simularse tantos lanzamientos como sea necesario, como se ve en la hoja de

Excel. Este mismo algoritmo servirá para cualquier distribu-

ción Bernoulli.

5.3.2. Ejemplo: Distribución Binomial Como se sabe, la distribución Binomial realiza el conteo de éxitos en

n

eventos

Bernoulli independientes. Por ello, para simular una variable aleatoria con esta distribución, bastará con simular

n

variables con el algoritmo anterior y sumar

los unos o éxitos resultantes.

5.3.3. Ejemplo: Distribución Geométrica Una vez que se ha podido simular la distribución Bernoulli, es factible construir cualquiera de las distribuciones relacionadas con ella. Por ejemplo, la distribución Geométrica podría representar el número de ensayos necesarios para obtener el primer sol. En el caso de la moneda,

x

representaría el número de volados realizados para

obtener el primer sol (puede ser águila pero habría que cambiar la asignación de valores de uno y cero). Esto también se puede programar dentro de la hoja

Excel, pero conviene ahora utilizar los elementos de programación en Visual Basic o macros. de cálculo

¾En qué consiste el algoritmo? Sencillamente se simula la moneda (o la distribución Bernoulli) como se vio arriba, y se de ne un contador que va registrando el número de ensayos. Se agrega, además, una condición (If) que detendrá la

cuenta en el momento en que se obtenga el primer sol, es decir, el momento en que se obtenga el primer uno.


CAPÍTULO 5.

42

MÉTODOS PARA OTRAS DISTRIBUCIONES

5.3.4. Ejemplo: Distribución Binomial Negativa El algoritmo es idéntico al anterior, pero el conteo se detiene al obtener

r

éxitos

o soles.

5.3.5. Ejemplo: Distribución Hipergeométrica La distribución Hipergeométrica es muy similar a la Binomial, con la diferencia sustancial de que los ensayos sucesivos NO son independientes. Esto es, se trata de muestras

sin reemplazo

de tamaño

n, en las cuales pueden obtenerse elemen-

tos con o sin cierta característica particular. Por ejemplo, puede realizarse una muestra de

n

artículos, sin reemplazo, y registrar cuántos de ellos son defectuo-

sos. El total de la población,

N (1 − p)

N,

tiene

Np

elementos defectuosos y, por ende,

sin problemas. Puesto que la muestra se hará sin reemplazo, habrá

que recalcular el número de elementos defectuosos y no defectuosos después de extraer cada elemento de la muestra. Así pues, se parte de generar una v. a. Bernoulli(p) .Hecho esto, se introduce una pregunta: ¾El valor extraído fue defectuoso, es decir, fue uno? En este caso, deberán ajustarse los valores del total de defectuosos restantes a

N p − 1,

con lo

cual la nueva probabilidad de extraer un defectuoso será:

p∗ =

Np − 1 N −1

(5.5)

En caso contrario el número de elementos defectuosos continúa igual, pero se modi ca el total de elementos, de manera que la nueva probabilidad sería:

p∗ =

Np N −1

(5.6)

El proceso se repite de manera iterativa hasta obtener los muestra. Con esto se habrá obtenido

una

n

elementos de la

variable aleatoria Hipergeométrica.

Será necesario reproducir este algoritmo completo para cada una de las variables necesarias.

5.3.6. Ejemplo: Distribución Normal Una manera muy sencilla de obtener v. a. con distribución normal es atender al teorema del límite central. De acuerdo con este teorema, si se suma un número relativamente grande de variables que procedan de cualquier distribución, la suma de ellas tenderá a comportarse como una normal cuya suma es igual a la suma de las medias y cuya varianza es igual a la suma de las varianzas. Supongamos, por ejemplo, que se simulan doce variables aleatorias Unif(0,1), denotadas cada una por

ri

con

i = 1, 2, . . . , 12.

Entonces la variable

z:


CAPÍTULO 5.

43

MÉTODOS PARA OTRAS DISTRIBUCIONES

z=

12 X

ri − 6

(5.7)

i=1 Tenderá a distribuirse como una

6=0

y

V ar(z) = 12 (1−0) 12 = 1.

normal estándar, puesto que E(z) = 12(0.5) −

Una vez que se cuenta con valores que se distribuyen como normal estándar, es posible generar

cualquier normal, a través de un proceso de des-estandarización

que consiste en multiplicar por la desviación estándar

σ

y sumar la media

µ,

es

decir:

x = zσ + µ

(5.8)

5.3.7. Ejemplo: Distribución de Poisson La mejor forma de simular el número de ocurrencias de un evento Poisson en un intervalo de tiempo o espacio es utilizar la distribución exponencial. Para ello, se identi ca el intervalo de tiempo o espacio a simular, que puede designarse como

t.

Entonces:

1. Se inicializa la variable aleatoria Poisson en cero, es decir: 2. Se genera una variable aleatoria

t1

x = 0.

con el método de transformación in-

versa. 3. Se compara

t1 < t.

Si es verdadero, se procede al siguiente paso; en caso

contrario, el método termina. 4. Se hace

x := x + 1.

5. Se genera una nueva variable aleatoria 6. Se compara

t1 + t2 < t .

t2

de tipo exponencial.

Si es verdadero, se procede al siguiente paso; en

caso contrario el método termina. 7. Se hace

x := x + 1.

8. Se genera una nueva variable aleatoria 9. Se compara

t1 + t2 + t3 < t.

de tipo exponencial.

Si es verdadero, se procede al siguiente paso;

en caso contrario el método termina. 10. ...

t3


CAPÍTULO 5.

MÉTODOS PARA OTRAS DISTRIBUCIONES

44

Cuadro 5.1: Ejemplo de distribución empírica discreta

x

Frec. Rel.

Frec. Rel. Acum

0

0.3

0.3

1

0.2

0.5

2

0.3

0.8

3

0.2

1.0

El procedimiento concluye en la iteración

... + tn ≥ t.

El valor de

x

n,

cuando ocurra que

t1 + t2 + t3 +

contendrá la cuenta de eventos Poisson. Puede verse

a los valores de ti como intervalos de tiempo que se van sumando en una especie de reloj. Al concluir el plazo se revisa el conteo total de eventos ocurridos y esto forma la variable Poisson. Véase como es necesario simular varios números exponenciales para obtener una sola variable Poisson.

Ejemplo: Distribución Empírica

Supóngase que se cuenta con alguna dis-

tribución empírica para un conjunto de observaciones. En este caso tambien es posible simular variables que provengan de dicha distribución. Por ejemplo, si la distribución empírica está dada por la siguiente tabla de frecuencias relativas: La variable aleatoria puede simularse con el siguiente algoritmo:

1. Se genera un valor uniforme 2. Si si

r < 0.3 ⇒ x = 0; 0.8 < r ⇒ x = 3.

si

r.

0.3 < r < 0.5 ⇒ x = 1

; si

0.5 < r < 0.8 ⇒ x = 2;

Para otra distribución empírica bastaría con cambiar los datos correspondientes de las frecuencias relativas acumuladas. Nota: Si la distribución empírica corresponde a una variable aleatoria continua y las observaciones se hacen en intervalos de clase continuos, bastará con hacer una interpolación lineal inversa entre los extremos del intervalo de clase, para encontrar la variable simulada.

5.3.8. Ejemplo: Cadena de Markov También es posible simular procesos estocásticos y, entre ellos, cadenas de Markov. Una cadena de Markov se caracteriza por su matriz de transición. Supónga-

{Xn } n = 0, 1, 2 . . . ,en el cual Xn representa el estado n. Si el espacio de estados es nito y está conS = {0, 1, 2, . . . , k − 1}, es posible caracterizar el proceso por la

se el proceso estocástico

de un sistema en el momento formado por

matriz de transición:


CAPÍTULO 5.

MÉTODOS PARA OTRAS DISTRIBUCIONES

    Π=  

p00 p10 p20

p01 p11 p21

p02 p12 p22

... ... ...

p0,k−1 p1,k−1 p2,k−1

. . .

. . .

. . .

..

. . .

pk−1,0

pk−1,1

pk−1,2

...

.

x0 = 0 x0 = 1

• En general, si

X0 = x0 .

Entonces:

0.

x0 = j

1.

se simula el siguiente valor utilizando el renglón de

la matriz correspondiente al estado

j.

Hecho esto, se obtendrá el valor simulado de

x1 = j ,

(5.9)

se simula el siguiente valor utilizando el renglón de la matriz

correspondiente al estado

si

     

se simula el siguiente valor utilizando el renglón de la matriz

correspondiente al estado

• Si

pk−1,k−1

Para simular el proceso, se parte de que inicia en el estado

• Si

45

se simula el siguiente valor

correspondiente al estado

j.

x2

x1 .

De la misma forma entonces,

utilizando el renglón de la matriz

Y así sucesivamente.


BibliografĂ­a [1] Indra Mohan Chakravarti, Radha Govira Laha, and Jogabrata Roy. Handbook of methods of applied statistics, volume 1. 1967. [2] W. C. M. Kallenberg, J. Oosterho , and B. F. Schriever. The number of classes in chi-squared goodness-of- t tests.

Association, 80(392):959 968, 1985.

[3] C. Arthur Williams.

Journal of the American Statistical

The choice of the number and width of classes for

the chi-square test of goodness of t.

Association, 45(249):77 86, 1950.

46

Journal of the American Statistical


Índice alfabético distribución Bernoulli, 14 distribución beta, 31 distribución binomial, 15 distribución binomial negativa, 18 distribución de Pascal,

véase

dstribu-

ción binomial negativa18 distribución de Poisson, 22 distribución exponencial, 25 distribución gamma, 29 distribución geométrica, 16 distribución hipergeométrica, 19 distribución normal, 28 distribución triangular, 26 distribución uniforme continua, 24 distribución uniforme discreta, 20 función de densidad, 12 función masa de probabilidad, 12, 14 probabilidad empírica, 8 probabilidad teórica, 8

47


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.