Estadística pràctica pas a pas

Page 1

07 Eina-e

Estadística pràctica pas a pas

Josep Maria Mateo Sanz


Estadística pràctica pas a pas

Eina-e, 7


Edita: Publicacions URV 1a edició: Agost de 2011 ISBN: 978-84-694-6149-5 Dipòsit legal: T-1012-2011

Publicacions de la Universitat Rovira i Virgili: Av. Catalunya, 35 - 43002 Tarragona Tel. 977 558 474 - Fax: 977 558 393 www.publicacionsurv.cat publicacions@urv.cat

Aquesta edició està subjecta a una llicència Attribution-NonCommercial-ShareAlike 3.0 Unported de Creative Commons. Per veure’n una còpia, visiteu http://creativecommons.org/licenses/by-nc-sa/3.0/ o envieu una carta a Creative Commons, 171 Second Street, Suite 300, San Francisco, California 94105, USA. ¶ Aquesta editorial és membre de la Xarxa Vives i de l’UNE, fet que garanteix la difusió i comercialització de les seves publicacions a escala estatal i internacional.


EstadĂ­stica prĂ ctica pas a pas

Josep Maria Mateo Sanz

Tarragona, 2011


Índex de continguts Presentació

9

1. Estadística descriptiva

11

1.1 Concepte d’estadística. Contingut de l’estadística 1.2 Concepte de població, mostra, individu i variable estadística 1.3 Classificació de les variables estadístiques 1.4 Distribució de freqüències. Representacions gràfiques 1.4.1 Taula de freqüències 1.4.2 Representació gràfica 1.5 Agrupació de dades en intervals 1.5.1 Variable quantitativa contínua 1.5.2 Variable quantitativa discreta 1.6 Mesures de posició 1.6.1 Mitjana aritmètica 1.6.2 Mediana 1.6.3 Moda 1.6.4 Mesures de posició no central: percentils 1.7 Mesures de dispersió 1.7.1 Recorregut 1.7.2 Desviació mitjana 1.7.3 Variància 1.7.4 Desviació típica o estàndard 1.7.5 Coeficient de variació 1.8 Funcions d’Excel per calcular mesures estadístiques

11 12 12 13 13 14 16 16 17 18 18 20 20 21 23 24 24 24 25 25 27

2. Variables aleatòries

29

2.1 Experiments aleatoris. Espai mostral. Successos 2.2 Concepte de probabilitat 2.3 Concepte de variable aleatòria 2.4 Variables aleatòries discretes: funció de probabilitat 2.5 Variables aleatòries contínues: funció de densitat 2.6 Esperança matemàtica 2.7 Variància

29 30 31 32 33 34 35

3. Models de distribució de probabilitats

37

3.1 Distribucions discretes

37


3.1.1 Distribució de Bernouilli 3.1.2 Distribució binomial 3.1.3 Distribució de Poisson 3.1.4 Distribució uniforme discreta 3.2 Distribucions contínues 3.2.1 Distribució uniforme contínua 3.2.2 Distribució exponencial 3.3 Llei normal general: N(μ,σ) 3.3.1 La normal estàndard: N(0,1) 3.4 Distribucions deduïdes de la normal 3.4.1 Distribució khi quadrat 3.4.2 Distribució t de Student 3.4.3 Distribució F de Fisher-Snedecor 3.5 Convergència a la llei normal: teorema del límit central 3.5.1 Teorema del límit central 3.6 Ús de les taules estadístiques 3.6.1 La taula normal estàndard 3.6.2 La taula khi quadrat 3.6.3 La taula t de Student 3.6.4 La taula F de Fisher 3.7 Funcions d’Excel per calcular probabilitats 3.7.1 Distribució binomial 3.7.2 Distribució de Poisson 3.7.3 Distribució exponencial 3.7.4 Distribució normal 3.7.5 Distribució khi quadrat 3.7.6 Distribució F de Fisher 3.7.7 Distribució t de Student

37 38 39 40 41 41 41 42 43 44 44 45 45 46 46 48 48 50 51 52 53 53 54 55 56 57 59 61

4. Intervals de confiança

63

4.1 Nocions de mostra i mostreig 4.2 Concepte d’estadístic i de paràmetre 4.3 Estimació puntual i estimació per intervals 4.4 Noció d’interval de confiança. Coeficient de confiança 4.5 Determinació d’intervals de confiança 4.5.1 Càlcul del nivell d’error associat a un marge d’error donat 4.5.2 Càlcul de la mida d’una mostra

63 64 65 66 67 70 71


5. Contrastos d’hipòtesis 5.1 Hipòtesis estadístiques. Tipus d’hipòtesis 5.2 Concepte de zona crítica i zona d’acceptació 5.3 Tipus d’errors. Nivell de significació 5.4 Aplicació dels contrastos d'hipòtesis a diferents paràmetres i condicions 6. Anàlisi de la variància (ANOVA)

75 76 78 79 81 89

6.1 Generalitats sobre l’anàlisi de la variància 6.2 Disseny ANOVA d’un factor 6.2.1 Excel: ANOVA d’un factor 6.3 Comparació de variàncies: test de Levene 6.4 Disseny ANOVA de dos factors sense interacció. Blocs aleatoritzats 6.4.1 Excel: ANOVA de dos factors amb una sola mostra per grup 6.5 Disseny ANOVA de dos factors amb interacció 6.5.1 Excel: ANOVA de dos factors amb diverses mostres per grup

89 90 96 98 101 107 108 115

7. Proves d’independència i de bondat d’ajustament

119

7.1 Prova d’independència 7.2 Proves de bondat d’ajustament a una distribució 7.2.1 La prova khi quadrat 7.2.2 El test de Kolmogorov-Smirnov

120 125 126 131

8. Regressió lineal

137

8.1 Relació entre variables 8.2 Model de regressió mostral simple 8.2.1 Components d’un model 139 8.2.2 Hipòtesis bàsiques del model de regressió lineal simple 8.3 Regressió lineal simple: estimació de la recta de regressió 8.4 Regressió lineal simple: mesures de bondat d’ajustament 8.4.1 Coeficient de correlació 8.4.2 Coeficient de determinació 8.4.3 Error estàndard 8.4.4 Contrast de significativitat de la regressió 8.5 Regressió lineal simple: punts influents i punts atípics 8.6 Regressió lineal simple: construcció d’intervals de predicció 8.6.1 Interval per a valors particulars de Y0 8.6.2 Interval per a l’esperança de Y0 8.7 Regressió no lineal simple 8.8 Regressió lineal múltiple

137 139 140 141 143 143 144 145 145 148 150 150 151 152 153


8.8.1 Hipòtesis bàsiques del model de regressió lineal múltiple 8.8.2 Mesures de bondat d’ajustament en regressió lineal múltiple 8.9 Contrastos de significació en regressió lineal múltiple 8.9.1 Contrastos per a coeficients particulars 8.9.2 Contrast global 8.10 Resultats amb el programa Excel 8.10.1 Regressió lineal simple amb Excel 8.10.2 Regressió lineal múltiple amb Excel 8.10.3 Regressió no lineal simple amb Excel

153 154 154 155 156 156 157 158 159

Taules estadístiques

163


Presentació L’objectiu principal d’aquest material és proporcionar als estudiants una eina, estructurada en format de llibre, que els permeti consultar clarament i ràpidament com es pot aplicar de manera pràctica la teoria relacionada amb qualsevol dels continguts que formen part d’un curs bàsic d’estadística de nivell universitari. En aquest material es defuig tant com és possible un llenguatge massa tècnic i teòric, el qual és difícil d’entendre pels estudiants, i s’usa un llenguatge més planer i en què es fa èmfasi especialment en l’aplicació de les diverses tècniques estadístiques. S’explica quan i com es poden aplicar aquestes tècniques pas a pas, de manera que es guia l’alumnat en el procediment que cal seguir en cada situació. El material està farcit d’exemples on també s’ha desenvolupat la solució seguint els passos marcats a la part teòrica. S’utilitza aquesta estructura per afavorir l’aprenentatge; s’assisteix l’estudiant en la resolució dels exercicis que es proposen en l’assignatura, ja que es marca el camí que ha de seguir per aplicar cada tècnica. En aquest material també s’explica quines són les funcions i les eines estadístiques d’Excel que es poden fer servir per automatitzar els càlculs que es requereixen per aplicar les diverses tècniques estadístiques.

9



1. Estadística descriptiva

1.1 Concepte d’estadística. Contingut de l’estadística Definició. L’estadística és la ciència, el mètode, les tècniques, l’operació d’anàlisi matemàtica que permeten estudiar numèricament amb el màxim de precisió els fenòmens col·lectius incompletament coneguts. El contingut de l’estadística es pot dividir en dos grans grups: • Estadística descriptiva • Estadística inferencial (o inductiva) Definició. L’estadística descriptiva estudia la manera d’ordenar i analitzar totes les dades d’una població, amb l’objectiu d’obtenir conclusions sobre aquesta població. Exemples. La direcció d’un centre escolar vol fer un estudi sobre els resultats acadèmics d’un curs determinat o es vol estudiar els resultats dels diferents equips de futbol de primera divisió durant els 10 últims anys. Aquests són problemes d’estadística descriptiva, ja que disposem de les dades de tots els elements que volem estudiar. Definició. L’estadística inferencial té com a finalitat obtenir conclusions respecte d’una població, mitjançant l’anàlisi d’una mostra de la població. Exemples. Es vol estudiar l’alçada de tots els catalans i només disposem de l’alçada de 1.000 persones o es vol fer un estudi sobre la durada de les bombetes d’una determinada marca i només disposem de la durada de 100 bombetes d’aquesta marca. Aquests són problemes d’estadística inferencial, ja que no disposem de les dades de tots els elements que volem estudiar, sinó d’una mostra.

11


Josep Maria Mateo Sanz

1.2 Concepte de població, mostra, individu i variable estadística Definició. S’anomena població el conjunt sobre el qual es vol portar a terme l’estudi estadístic. Definició. S’anomena mostra qualsevol subconjunt de la població. Definició. S’anomena individu qualsevol element del conjunt de la població. Definició. S’anomena variable estadística la característica que es vol estudiar d’una població. Exemple. Agafant l’exemple anterior sobre l’estudi de les bombetes, la població la formen totes les bombetes d’aquella marca: cada bombeta és un individu, les 100 bombetes de les quals sabem la durada formen una mostra de la població i la variable estadística que estem estudiant és la durada de les bombetes. Observació. Depenent del que vulguem estudiar, un mateix conjunt pot ser una mostra o una població. Per exemple, si només tenim les notes dels alumnes que han seguit certs estudis a la universitat URV i volem treure conclusions sobre aquest grup en concret, aquest grup d’alumnes de la URV és la població; en canvi, si volem treure conclusions sobre els estudiants universitaris de Catalunya, el grup d’alumnes de la URV és una mostra i tots els estudiants universitaris de Catalunya són la població.

1.3 Classificació de les variables estadístiques Les variables estadístiques les classificarem segons el tipus de valors que poden prendre. Una primera divisió és: • Variables estadístiques qualitatives (o nominals) • Variables estadístiques quantitatives (o numèriques) Definició. Les variables estadístiques qualitatives són aquelles que no prenen valors numèrics. Exemples. El color dels ulls, el sexe, el tipus de distracció preferit. Definició. Les variables estadístiques quantitatives són aquelles que prenen valors numèrics. Dintre d’aquestes últimes encara podem fer una subdivisió: • Variables estadístiques quantitatives discretes • Variables estadístiques quantitatives contínues Definició. Una variable estadística és quantitativa discreta quan entre dos valors qualssevol que pot prendre la variable només hi ha un nombre finit de possibles valors de la variable. També es pot dir que una variable estadística és quantitativa discreta 12


Estadística pràctica pas a pas

quan el nombre de possibles valors que pot prendre la variable és una quantitat numerable (finita o infinita), és a dir que els possibles valors es poden numerar i que després d’un possible valor sempre sé quin és el següent. Exemples. El nombre de germans, el nombre de cotxes que passen en un dia per un cert punt, el nombre de trucades que es reben cada hora en una ciutat. Definició. Una variable estadística és quantitativa contínua quan entre dos valors qualssevol que pot prendre la variable hi pot haver un nombre infinit de possibles valors de la variable. Aquesta definició és equivalent a dir que, si agafem dos valors que pot prendre la variable, tan propers com vulguem, sempre és possible trobar un altre valor de la variable que estigui entre els dos valors anteriors. Els possibles valors d’una variable quantitativa contínua són infinits i no numerables i després d’un possible valor no es pot concretar quin és el següent. Exemples. L’alçada de les persones, el pes de les taronges, el temps que es tarda a fer un examen. S’ha d’observar, per exemple en el primer cas, que, si agafem les alçades de dues persones, sempre és possible trobar-ne una altra que tingui una alçada entre les dues anteriors. En aquest sentit, cal pensar que l’alçada exacta d’una persona és una quantitat amb infinites xifres decimals però que, per problemes amb la precisió dels aparells de mesura, la majoria de vegades només donem l’alçada en centímetres, és a dir, generalment discretitzem variables de naturalesa contínua. Observació. Cal remarcar que una variable estadística quantitativa discreta no és només aquella que pot prendre un nombre finit de resultats, sinó que de vegades podrà prendre un nombre infinit de possibles resultats. Per exemple, en el cas del nombre de cotxes que passen per cert punt en un dia, la variable és discreta, però els possibles valors que pot prendre són infinits.

1.4 Distribució de freqüències. Representacions gràfiques 1.4.1 Taula de freqüències Si observem una variable estadística sobre un conjunt d’individus, obtindrem una sèrie de dades (que poden estar repetides o no). Aquestes dades, si són quantitatives, les podem ordenar. Si són qualitatives, l’ordenació és arbitrària. Els valors de les dades ordenades els notarem com a x1, x2, ..., xk, on x1 és el valor de la dada més petita, x2 el valor de la segona i així successivament. Definició. La freqüència absoluta d’un valor és el nombre de vegades que apareix aquest valor a la sèrie. La freqüència absoluta del valor xi la notarem amb ni.

13


Josep Maria Mateo Sanz

Definició. La freqüència relativa d’un valor xi és el quocient entre la freqüència absoluta del valor i el nombre total de dades de la sèrie. Notarem amb N el nombre total de dades i amb fi la freqüència relativa del valor xi. Així obtenim: f i = ni . N

Definició. La freqüència absoluta acumulada d’un valor xi és la suma de totes les freqüències absolutes dels valors de la sèrie des del principi fins al valor xi. Notarem amb Ni la freqüència absoluta acumulada del valor xi. Així obtenim: Ni = n1 + n2 + … + ni. També es pot obtenir Ni fent Ni = Ni–1 + ni. Definició. La freqüència relativa acumulada d’un valor xi és la suma de totes les freqüències relatives dels valors de la sèrie des del principi fins al valor xi. Notarem amb Fi la freqüència relativa acumulada del valor xi. Així obtenim: Fi = f1 + f2 + … + fi. També es pot obtenir Fi fent Fi = Fi–1 + fi o bé fent F i = N i . N

Propietats de les freqüències • La suma de les freqüències absolutes és igual al nombre total de dades de la sèrie. • La freqüència relativa d’un valor sempre estarà entre 0 i 1. • La suma de totes les freqüències relatives és igual a 1. • Si multipliquem la freqüència relativa d’un valor per 100 obtindrem el tant per cent de vegades que es repeteix el valor dins de la sèrie. Donada una sèrie de dades podem crear una taula de freqüències on apareguin els valors de les dades i tots els tipus de freqüències esmentades. Exemple. S’ha llançat un dau 20 vegades i s’ha obtingut el resultat següent: 2, 3, 6, 6, 2, 4, 4, 4, 2, 5, 2, 4, 2, 4, 2, 5, 1, 6, 2 i 2. Fem la taula de freqüències: Valor (xi) 1 2 3 4 5 6

Freq. abs. (ni) 1 8 1 5 2 3

Freq. rel. (fi) 0.05 0.4 0.05 0.25 0.1 0.15

Freq. abs. ac. (Ni) 1 9 10 15 17 20

Freq. rel. ac. (Fi) 0.05 0.45 0.5 0.75 0.85 1

1.4.2 Representació gràfica Diagrama de barres. L’usarem quan els valors de la variable estadística siguin donats de manera individual. Normalment representarem les freqüències absolutes, les freqüències relatives o el tant per cent. Per fer-ho hem de dibuixar dos eixos. A l’eix horitzontal hem de posar-hi els valors de la variable de manera ordenada. A l’eix vertical posarem 14


Estadística pràctica pas a pas

una escala adient segons el que vulguem representar. El gràfic es construeix aixecant sobre cada valor de la variable un segment vertical de llargada igual a la freqüència que vulguem representar. Exemple. Fem un diagrama de barres per representar les freqüències absolutes amb les dades de l’exemple anterior: 8 6 4 2

1

2

3

4

5

6

Histograma. L’usarem quan els valors de la variable estadística estiguin donats en forma d’interval. En aquest cas suposarem que els diferents intervals tenen la mateixa amplada. L’única diferència amb el diagrama de barres és que a l’eix horitzontal hem de posar-hi els valors dels extrems dels intervals de manera ordenada i el gràfic es construeix aixecant sobre cada interval un rectangle vertical d’altura igual a la freqüència que vulguem representar. Exemple. Fem un histograma per representar les freqüències relatives de les dades següents agrupades en intervals corresponents als pesos (en kg) de 16 alumnes d’una classe de secundària. Valor (xi) 45-50 50-55 55-60 60-65 65-70

Freq. abs. (ni) 1 4 5 4 2

Freq. rel. (fi) 0.0625 0.25 0.3125 0.25 0.125

Freq. abs. ac. (Ni) 1 5 10 14 16

0.4 0.3 0.2 0.1

45

50

55

15

60

65

70

Freq. rel. ac. (Fi) 0.0625 0.3125 0.625 0.875 1


Josep Maria Mateo Sanz

Observació. Si els intervals no tenen la mateixa amplada, l’altura de cada rectangle es calcula dividint la freqüència de l’interval que vulguem representar entre la seva amplada.

1.5 Agrupació de dades en intervals De vegades, quan el nombre de valors diferents que hi ha en una sèrie de dades estadístiques és gran, convé agrupar les dades en intervals. En aquest cas, només estudiarem el cas en què els intervals tinguin la mateixa amplada. Per agrupar les dades distingirem dos casos segons que la variable estadística que estem estudiant sigui quantitativa contínua o quantitativa discreta. De vegades hi haurà variables discretes que tractarem com a contínues si el nombre de valors que comprèn és molt gran. Quan agrupem les dades en intervals, apareix un nou concepte que és la marca de classe. Definició. La marca de classe d’un interval és el nombre que representa l’interval. Aquest nombre pot ser qualsevol que estigui dins de l’interval, però normalment s’agafa el punt mitjà de l’interval (que és el que farem a partir d’ara). El punt mitjà d’un interval el podem obtenir sumant els extrems de l’interval i dividint entre 2. La marca de classe la notarem amb xi. 1.5.1 Variable quantitativa contínua El primer que cal fer és determinar el nombre d’intervals que volem fer amb les dades de la sèrie estadística. Aleshores, l’amplada dels intervals la podem calcular segons la fórmula següent: Amplada =

!

Els intervals els obtindrem sumant successivament l’amplada a partir del valor mínim. D’aquesta manera, l’extrem inferior d’un interval coincidirà amb l’extrem superior de l’interval anterior. Observacions • A l’hora d’assignar les freqüències absolutes a cada interval, podem tenir dubtes amb les dades que coincideixen amb els extrems dels intervals, ja que no sabem en quin interval posar-les. Per aquest motiu cal indicar en quin interval 16


anterior. Observacions

Estadística pràctica pas a pas

• A l’hora d’assignar les freqüències absolutes a cada interval, podem tenir dubtes amb les dades que coincideixen els dubtoses. extrems dels intervals, ja quemitjançant no sabem en interval inclourem aquestesamb dades Això ho farem elsquin claudàtors

[,], per indicar que motiu l’extrem inclòs en a l’interval, i els parèntesis per indicar posar-les. Per aquest calésindicar quin interval inclourem (,), aquestes dades que l’extrem nofarem és inclòs a l’interval. Cal que els extrems superiors estidubtoses. Això ho mitjançant els claudàtors [, ],tots per indicar que l’extrem és inclòs

guin inclosos (i els inferiors exclosos) o que tots els extrems inferiors estiguin inclosos (i els superiors exclosos). El valor més petit i el més gran han d’estar tots els extrems superiors estiguin inclosos (i els inferiors exclosos) o que tots els sempre inclosos. extrems inferiors estiguin inclosos (i els superiors exclosos). El valor més petit i el més • Si l’amplada no dóna un nombre exacte, podem arrodonir-la per excés a una gran han d’estar sempre inclosos. a fer intervals abans del valor mínim i acabar desquantitat adient i començar • Si l’amplada no dóna un nombre exacte, podem arrodonir-la per excés a una quantitat prés del valor màxim. a l’interval, i els parèntesis (, ), per indicar que l’extrem no és inclòs a l’interval. Cal que

adient i començar a fer intervals abans del valor mínim i acabar després del valor màxim.

Exemple. Les dades següents corresponen als pesos (en kg) de 16 alumnes d’una classe de secundària: 55, 55.5, 70, 60, 54.5, 54, 63,(en54,kg)70,de64, 52, 62.5, 57,classe 45 i 55. Exemple. Les dades següents corresponen als pesos 1656, alumnes d’una de Amb aquestes dades70,farem 5 intervals de 70, la mateixa amplada i inclourem els extrems secundària: 55, 55,5, 60, 54,5, 54, 63, 54, 64, 56, 52, 62,5, 57, 45 i 55. Amb aquestes superiors en els intervals. dades farem 5 intervals de la mateixa amplada i inclourem els extrems superiors en els intervals. Amplada =

Pesos Pesos [45,50] (50,55] [45,50] (55,60] (50,55] (60,65] (65,70]

=

Marca de classe (x ) Marca de classe (xii) 47.5 52.5 47,5 57.5 52,5 62.5 67.5

=5

Freq. abs. (n ) Freq. abs. (nii) 1 16 4 63 2

12

1.5.2 Variable quantitativa discreta L’amplada dels intervals la podem calcular segons la fórmula següent: Amplada =

Valor màxim - Valor mínim + 1 Nombre d ' intervals

En aquest cas, l’amplada indicarà el nombre de valors que s’inclouran a cada interval. El primer interval començarà pel valor més petit i acabarà al valor obtingut de sumar el valor mínim amb l’amplada menys 1. El següent interval començarà al valor següent del valor amb què ha acabat l’interval anterior i acabarà al valor obtingut de sumar l’extrem inferior amb l’amplada menys 1. I així successivament. 17


l’amplada menys 1. El següent interval començarà al valor següent del valor amb què ha acabat l’interval anterior i acabarà al valor obtingut de sumar l’extrem inferior amb l’amplada menys 1.

Josep Maria Mateo Sanz

I així successivament.

Observacions • En aquest cas, no hi pot haver dubtes en l’assignació de freqüències absolutes • En ja aquest no hiinferior pot haver dubtes en l’assignació de freqüències absolutes ja que que cas, l’extrem d’un interval no coincideix amb l’extrem superior de l’extrem inferior d’un interval no coincideix amb l’extrem superior de l’interval anterior. l’interval anterior. • • Si l’amplada no dóna un nombre exacte,exacte, podempodem arrodonir-la per excésper a una quantitat Si l’amplada no dóna un nombre arrodonir-la excés a una quantitat adient i començar a fer del intervals abansi del valor mínim acabar desadient i començar a fer intervals abans valor mínim acabar després del ivalor màxim. prés del valor màxim.

Observacions

Exemple. Les dades següents corresponen mes què van néixer 20 alumnes Exemple. Les dades següents corresponen al mes enalquè vanennéixer 20 alumnes d’una classe

d’una classe d’universitat: 8, 2, 4, 3, 8, 9, 5, 10, 2, 11, 3,5,9,5,10,12,12, 12,Amb 4, 6,aquestes 1, 7 i 2.dades, Amb d’universitat: 8, 4, 8, 5, 2, 11, 12,2,11, 4, 11, 6, 1,5,75,i 2. aquestes dades, farem 4 intervals de la mateixa amplada. farem 4 intervals de la mateixa amplada.

=

Amplada =

=3

Mesos

Marca de classe (xi)

Freq. abs. (ni)

Mesos 1-3 1-3 4-6 4-6

Marca de classe (xi) 2 2 55

Freq. abs. (ni) 5 5 66

7-9 7-9 10-12 10-12

1.6 Mesures de posició

88 11 11

44 5 5

13

En els següents subapartats estudiarem les mesures de posició. La majoria d’aquestes mesures només té sentit aplicar-les sobre variables quantitatives. En els tres primers seran mesures de posició central, i el quart subapartat es dedicarà a mesures de posició no central. Les mesures de posició central tenen per objectiu resumir una sèrie de dades estadístiques en un sol nombre. Les mesures de posició no central són valors que divideixen la sèrie en parts iguals. Totes les mesures de posició agafen valors que estan entre el valor mínim i el valor màxim. Les mesures de posició central que veurem són: la mitjana, la mediana i la moda. 1.6.1 Mitjana aritmètica Definició. La mitjana aritmètica d’una sèrie estadística és la suma de totes les dades de la sèrie dividida pel nombre total de dades. Simplificant, l’anomenarem mitjana i la notarem amb x (o μ). La fórmula per trobar la mitjana és:

18


 Definició. La mitjana aritmètica d’una sèrie estadística és la suma de totes les dades de la sèrie  dividida pel nombre total de dades. Simplificant, l’anomenarem mitjana i la notarem amb (o Estadística pràctica pas a pas

   µ). La fórmula per trobar la mitjana és: 

                   Observació. Si les dades estan donades en intervals, hem de treballar amb les marques de classe. =

=

Observació. Si les dades estan donades en intervals, hem de treballar amb les mar-

 Exemple. Agafem les dades de l’exemple sobre el resultat del llançament d’un dau: ques de classe.

 Exemple. Agafem les dadesValor de l’e(xxemple sobre del llançament d’un dau: Freq. abs.el(nresultat i) i)

La mitjana serà: serà: La mitjana 

 1 (x ) Valor i 2 1 2 3 3 4 4 5 5 6 6

 Freq. 1abs. (ni) 8 1 8 1 1 5 5 2 2 3 3





= = 3,4      

  Josep Maria Mateo Sanz

Estadística pràctica pas a pas

Observació. Un altre concepte relacionat és el de mitjana ponderada, que es pro 14 dueix quan Un a cada de larelacionat sèrie li donem importància diferent. Observació. altrevalor concepte és el deuna mitjana ponderada, que esAquesta produeiximporquan a  tància es mesura segons una una ponderació de cada valor. La fórmula per trobar la mitjana cada valor de la sèrie li donem importància diferent. Aquesta importància es mesura segons ponderada és: una ponderació de cada valor. La fórmula per trobar la mitjana ponderada és:



=

=

Exemple. En una assignatura s’ha de presentar un treball que es valora en 1, s’han de lliurar uns problemes que esEn valoren en 2 i s’ha des’ha fer de un presentar examen queunestreball valora en Lavalora nota del és Exemple. una assignatura que3.es entreball 1, s’han

de lliurar uns problemes valoren és en 7.2 iPer s’hatrobar de fer quedeesfer valora en 3. 5, la dels problemes és 8 i que la deesl’examen la un notaexamen final hem la mitjana La nota delsegons treball és 5, la delsque problemes ésa8cada i la de l’examen és 7. Per trobar la nota fiponderada la importància s’ha donat part. nal hem de fer la mitjana ponderada segons la importància que s’ha donat a cada part. Valor (xi)

Ponderació (wi)

Valor 5 (xi) 5 8 8 77

Ponderació 1 (wi) 1 2 2 33

La mitjana ponderada serà: =

19

=7


Josep Maria Mateo Sanz

La mitjana ponderada serà: x =

5· 1 + 8· 2 + 7· 3 =7 1+ 2 + 3

1.6.2 Mediana Definició. La mediana és la dada que ocupa la posició del mig a la sèrie una vegada s’han ordenat les dades, de més petita a més gran, tenint en compte les repeticions. Observacions • Si hi ha un nombre senar de dades, hi haurà una única dada que estigui al mig. N +1 Aquesta dada és la que ocupa la posició 2

• Si hi ha un nombre parell de dades, n’hi haurà dues que seran al mig; en aquest cas, la mediana la trobarem fent la mitjana d’aquestes dues dades. Les dues N N i +1. dades ocupen la posició 2

2

• També es pot calcular la mediana quan les dades estan agrupades en intervals. Exemple. Agafem les dades de l’exemple sobre el resultat del llançament d’un dau: Valor (xi) 1 2 3 4 5 6

Freq. abs. (ni) 1 8 1 5 2 3

Freq. abs. ac. (Ni) 1 9 10 15 17 20

La mediana serà la mitjana dels valors que són a les posicions 10 i 11. Aquests valors són el 3 i el 4; per tant, la mediana és Me = 3.5.

1.6.3 Moda Definició. La moda és el valor de la dada que es repeteix més vegades a la sèrie. Aquesta mesura es pot aplicar tant a variables quantitatives com qualitatives. Observacions • Si les dades estan agrupades en intervals, parlarem de l’interval modal, que serà l’interval on hi ha més dades. 20


Estadística pràctica pas a pas

• Si hi ha empat en el nombre de repeticions entre dos o més valors, hi haurà més d’una moda. Exemple. Agafem les dades de l’exemple sobre el resultat del llançament d’un dau: Valor (xi) 1 2 3 4 5 6

Freq. abs. (ni) 1 8 1 5 2 3

La moda és el 2, ja que es repeteix 8 vegades. Mo = 2.

1.6.4 Mesures de posició no central: percentils Com s’ha comentat abans, les mesures de posició no central són les que divideixen la sèrie de dades en parts iguals. Entre aquestes trobem: • Els quartils, que són els tres valors que divideixen la sèrie en quatre parts iguals (a cada part hi haurà el 25% de la sèrie). • Els decils, que són els nou valors que divideixen la sèrie en 10 parts iguals (a cada part hi haurà el 10% de la sèrie). • Els centils o percentils, que són els 99 valors que divideixen la sèrie en 100 parts iguals (a cada part hi haurà l’1% de la sèrie). De fet, tot es pot reduir a percentils, ja que el primer quartil es correspon amb el percentil 25 o el quart decil es correspon amb el percentil 40 i així es pot fer amb els altres quartils i decils. La mediana es correspon amb el percentil 50. Per això, l’estudi més complet el farem sobre els percentils.

Procediment 1 (per a dades no agrupades en intervals) El percentil 1 (P1) és el valor que supera l’1% de les dades d’una sèrie i és superat pel 99% restant de les dades d’aquella sèrie. El percentil 2 (P2) és el valor que supera el 2% de les dades d’una sèrie i és superat pel 98% restant de les dades d’aquella sèrie. En general, el percentil i (Pi) és el valor que supera l’i% de les dades d’una sèrie i és superat pel (100 – i)% restant de les dades d’aquella sèrie. Per tant, si el percentil i ocupa la posició x cal que: 21


és el el valor valor que que supera supera el el 2% 2% de de les les restant de de les les dades dades d’aquella d’aquella sèrie. sèrie. El El percentil percentil 22 (P (P22)) és restant

dades d’una d’una sèrie sèrie ii és és superat superat pel pel 98% 98% restant restant de de les les dades dades d’aquella d’aquella sèrie. sèrie. En En general, general, el el dades

Josep MariaiiMateo percentil (P)) és ésSanz el valor valor que que supera supera l’i% l’i% de de les les dades dades d’una d’una sèrie sèrie ii és és superat superat pel pel (100 (100 –– i)% i)% percentil (P el ii

restant de de les les dades dades d’aquella d’aquella sèrie. sèrie. Per Per tant, tant, sisi el el percentil percentil ii ocupa ocupa la la posició posició xx cal cal que: que: restant

ja que que les les xx –– 11 dades dades que que són són superades superades per per la la dada dada que que ocupa ocupa la la posició posició xx han han de de representar representar ja

ja que les x – 1 dades que són superades per la dada que ocupa la posició x han de repreun i% i% de de les les dades dades de de la la sèrie sèrie sense sense comptar comptar la la mateixa mateixa dada dada que que ocupa ocupa la la posició posició xx (per (per això això un sentar un i% de les dades de la sèrie sense comptar la mateixa dada que ocupa la posició es divideix divideix entre entre NN –– 1). x es (per això es divideix1).entre N – 1). De l’expressió anterior, obtenim que la posició que ocupa el percentil i serà: De l’expressió l’expressió anterior, anterior, obtenim obtenim que que la la posició posició que que ocupa ocupa el el percentil percentil ii serà: serà: De

Observació. Si la posició marcada per algun percentil no coincideix exactament 17dades, es pot realitzar una interpolació per 17 amb la posició d’algun valor de la sèrie de determinar exactament el valor del percentil. Exemple. Agafem les dades de l’exemple sobre el resultat del llançament d’un dau:     

 

  Valor (xi) Freq. abs. (n ) i   1 1     8 2   3   1   5 4   2 5     3 6                    elquartil 1, podem  Si ens demanen buscar el percentil 25,P , ja queésel mateix.  25    = +  =   la posició  =  + (entre la posició 5 i la posició 6). Amb la sèrie El P25 ocupa   =     de dades ordenada veiem que la posició 5 correspon a un 2 i la posició 6 també corres   pon a un 2. Per tant, el percentil 25 seràigual  a 2 (P25 = 2).  , primer hem de mirar quina posició ocupa. El Si ens demanen el percentil 45,  P  45    la posició  9ilaposició 10). Amb lasèrie    = +  =  (entre P45 ocupa la posició   =  =                +  de dades ordenada veiem que la posició 9 correspon a un 2 i la 10 correspon a             posició                        un 3. Interpolant, agafem la diferència entre la posició x i l’enter més petit que x (9.55   – 9 = 0.55) i  la multipliquem per la diferència entre els dos valors marcats per les dues   posicions enteres al voltant de la posició x (3 – 2 = 1). Al resultat de la multiplicació     22    


posició

(entre la posició 9 i la posició 10). Amb la sèrie de dades

Estadística pràctica pas a pas ordenada veiem que la posició 9 correspon a un 2 i la posició 10 correspon a un 3.

Interpolant, agafem la diferència entre la posició x i l’enter més petit que x (9,55 – 9 = 0,55) i

(0.55 · 1 = 0.55) se hadiferència d’afegir elentre valor a la posició entera més petita que la multipliquem perli la elscorresponent dos valors marcats per les dues posicions enteres al voltant detrobar la posició = 1).P45Al=resultat de la (0,55 · 1 = 0,55) se li ha 2 + 0.55 = multiplicació 2.55. x per tal de el Px45.(3És– a2 dir,

d’afegir el valor corresponent a la posició entera més petita que x per tal de trobar el P45. És a dir, P45 = 2 + 0,55 = 2,55.

Procediment 2 (per a dades agrupades en intervals) Si les dades2estan en intervals, el percentil i (Pi) el trobarem mitjançant la Procediment (per aagrupades dades agrupades en intervals) fórmula: Si les dades estan agrupades en intervals, el percentil i (Pi) el trobarem mitjançant la fórmula: Pi = Lj–1 +

·aj

Josep Maria Mateo Sanz

Estadística pràctica pas a pas

18 la dada ononLj–1 xtrem inferior Lj–1ésésl’el’extrem inferior de de l’interval l’interval on on és és la dada

és la la freqüència freqüència , nj és

absoluta d’aquest interval, aj és l’amplada d’aquest interval i Nj–1 és la freqüència absoabsoluta d’aquest interval, aj és l’amplada d’aquest interval i Nj–1 és la freqüència absoluta

luta acumulada de l’interval anterior. acumulada de l’interval anterior. Exemple. Les dades següents corresponen a l’exemple dels pesos d’una classe de secundària. Busquem el P70.       Exemple. Les dades següents corresponen a l’exemple dels pesos d’una classe de secundària. Busquem el P70.

  (ni) Valor (xi) Freq. abs. 1 (n ) 45-50   Valor (xi) Freq. abs. i 4 50-55   55-60 45-50 15   4 60-65 50-55 4 2 65-70   55-60 5

Freq. abs.ac. (Ni) 1ac. (N ) Freq. abs. i 5  110  14 5 16  10

60-65

4 14 65-70   +2    16 

P70 =

1.7 Mesures de dispersió.

1.7 Mesures de dispersió

= 61,875

Les mesures de dispersió ens indiquen si les dades d’una sèrie estadística estan més o    1.7 Mesures de dispersió menys juntes. Aquestes mesures ensajuden a especificar millor la  sèrie de da         com és   des, ja que completen la informació facilitada per la mitjana o qualsevol altra mesura de  Les mesures de dispersió ensgran indiquen dades d’una sèrie estadística més ohimenys posició central. Com més sigui si el les valor d’aquestes mesures, mésestan dispersió haurà  entre les dades.mesures Totes aquestes mesures sempremillor prenencom valors positius. juntes. Aquestes ens ajuden a especificar és la sèrie de dades, ja que  completen la informació facilitada per la mitjana o qualsevol altra mesura de posició central.  Com més gran sigui el valor d’aquestes mesures, més dispersió hi haurà entre les dades. Totes 23  aquestes mesures sempre prenen valors positius.  Exemple. Si calculem la nota mitjana de dos alumnes que han fet dos exàmens cadascú, en els


Josep Maria Mateo Sanz

Exemple. Si calculem la nota mitjana de dos alumnes que han fet dos exàmens cadascú, en els quals el primer alumne ha tret dos 5 i el segon alumne ha tret un 0 i un 10, veiem que la nota mitjana és 5 en els dos casos. Però la dispersió de les notes és molt més gran en el segon alumne.

1.7.1 Recorregut Josep Maria Mateo Sanz pràctica pas a passèrie Definició. El recorregut és la diferència entre el valor màxim iEstadística el valor mínim d’una Josep Maria Mateo Sanz estadística.

Estadística pràctica pas a pas

1.7.2 Desviació mitjana 1.7.2 Desviació mitjana 1.7.2 Desviació mitjana

Definició. La desviació mitjana és la mitjana dels valors absoluts de les diferències entre els valors de la sèrie i la mitjana. La fórmula per trobar-la és:

Definició. La desviació mitjana és la mitjana dels valors absoluts de les diferències entre els

Definició. La desviació mitjana és la mitjana dels valors absoluts de les diferències entre els valors de la sèrie i la mitjana. La fórmula per trobar-la és: valors de la sèrie i la mitjana. La fórmula per trobar-la és: =

= Observació. Si les dades estan agrupades en intervals,enagafarem com a xi la marca Observació. Si les dades estan agrupades intervals, agafarem comdea classe. x la marca i

Observació. de classe. Si les dades estan agrupades en intervals, agafarem com a xi la marca de classe.

1.7.3 Variància 1.7.3Variància Variància 1.7.3

Definició. La variància és la mitjana dels quadrats de les diferències entre els valors de la sèrie i

Definició. La variància és la mitjana dels quadrats de les diferències entre els valors de la sèrie i la mitjana. La fórmula per trobar-la és:

Lafórmula variància la mitjana laDefinició. mitjana. La peréstrobar-la és: dels quadrats de les diferències entre els valors de la sèrie i la mitjana. La fórmula per trobar-la és: !2 =

Observacions

=

! =

=

2

k

"x #

i=1

2 i

N

ni

$x

2

Observacions • Si les dades estan agrupades en intervals, agafarem com a xi la marca de classe.

Siellesconjunt dades estan agrupades intervals, agafarem com aaxuna ••Si de dades sobre elenqual es treballa correspon mostradedeclasse. la població que Observacions i la marca ! la marca classe.que dades estan agrupades en intervals, agafarem com xmostra • Si Si elvol conjunt de la dades sobrerep el qual es treballa correspon a una lade població esles estudiar, variància el nom de variància mostral iaes calcula segons la i nota i de

Sifórmula elvol conjunt de ladades sobre correspon la poes estudiar, variància repelelqual nom es de treballa variància mostral i aesuna notamostra i calculade segons la següent: blació que es vol estudiar, la variància rep el nom de variància mostral i es nota i calcula fórmula següent: segons la fórmula següent: s2 =

s2 =

1.7.4 Desviació típica o estàndard 1.7.4 Desviació típica o estàndard

24

Definició. La desviació típica o estàndard és l’arrel quadrada de la variància. D’aquesta


• Si les dades estan agrupades en intervals, agafarem com a xi la marca de classe. • Si el conjunt de dades sobre el qual es treballa correspon a una mostra de la població que Estadística pràctica pas a pas

es vol estudiar, la variància rep el nom de variància mostral i es nota i calcula segons la fórmula següent: s2 =

1.7.4 Desviació típica o estàndard

1.7.4 Desviació típica o estàndard

Definició. La Ladesviació desviació típica típica ooestàndard estàndard ésésl’al’arrel quadrada de delalavariància. variància.D’ D’aquesta Definició. rrel quadrada aquesta manera s’obté enen lesles mateixes unitats que les dades. La notarem amb !. amb σ. manera s’obté una unamesura mesura mateixes unitats que les dades. La notarem Observació. Si el conjunt de dades sobre el qual es treballa correspon a una mostra de la població es vol de estudiar, la desviació el noma de Observació. Si que el conjunt dades sobre el qual estàndard es treballa rep correspon unadesviació mostra deesla tàndard i es nota amb la lletra s i es calcula fent l’arrelEstadística quadrada de lapas variància Josep Mariamostral Mateo Sanz pràctica a pas població que es vol estudiar, la desviació estàndard rep el nom de desviació estàndard mostral mostral. i es nota amb la lletra s i es calcula fent l’arrel quadrada de la variància mostral.

1.7.5Coeficient Coeficient de variació 1.7.5 de variació

20

Definició. El de variació ésel el quocient quocient entre típica mitjana. Definició. El coeficient coeficient de és entre laladesviació típica i lai lamitjana. A   variació     desviació  A diferència anteriors, aquesta és una mesura de dispersió relativa; les anteriors diferència de de lesles anteriors, aquesta és una mesura de dispersió relativa; les anteriors eren eren mesures de dispersió absolutes. La fórmula per trobar-lo és:

mesures de dispersió absolutes. La fórmula per trobar-lo és:  V=   Exemple. Calculem totes lestotes mesures de dispersió les dadesdedeles l’exemple sobre el resultat del Exemple. Calculem les mesures de de dispersió dades de l’exemple sobre

d’unllançament dau: elllançament resultat del d’un dau: 

  

Recorregut = 6 – 1 = 5

 Valor (xi) Valor (x i) 1 21  3  2 4  53 64 

 Freq. abs. (ni) Freq. abs.  (ni) 1 81  1  8 5  21 35 

5

2

6

3

 +   Recorregut   = 6 – 1 = 5      =      = =3,4        25   


  +      Josep Maria Mateo Sanz   

   

            

 

                  

                     

  

 



       

Exemple. Calculem totes de dispersió de  les dades del’exemple corresles mesures   ponent als pesos d’una classe de secundària.   



Pesos Marca de classe (xi) 47.5 45-50  52.5 50-55   57.5 55-60  62.5 60-65 67.5 65-70



Freq. abs. (n i) 1  4  5 4  2

 

Recorregut = 70 – 45 = 25

 

     

   

            

 

             

 

26

 

    


          Estadística pas a pas    pràctica   

Josep Maria Mateo Sanz

Estadística pràctica pas a pas

 s = 5,74  

         V =   = 0,09557      

1.8 Funcions d’Excel per calcular mesures estadístiques

 Farem unes consideracions generals sobre quines funcions té Excel que facin operacions    estadístiques i com s’han d’introduir aquestes funcions.  

Abans d’usar una funció, generalment haurem d’haver posat les dades sobre les quals

1.8 Funcions d’Excel per calcular mesures estadístiques. 1.8 Funcions d’Excel per calcular mesures estadístiques aplicarem la funció; per exemple, abans d’usar la funció que calcula la mitjana d’una sèrie de

 dades haurem d’haver posat lesgenerals dades a sobre Excel. quines funcions té Excel que facin operaciFarem unes consideracions

ons estadístiques i com s’han d’introduir aquestes funcions. Abans una d’usar unaa funció, generalment haurem lesi anem dadesasobre les Per introduir funció Excel cal que ens trobem en unad’haver casella posat en blanc “Insertar   quals aplicarem la funció; exemple, es abans d’usar la funció calcula En la mitjana –> Función”. Veurem que per les funcions troben agrupades en que categories. aquesta d’una sèrie de dades haurem d’haver posat les dades a Excel. assignatura usarem bàsicament les funcions de la categoria “Estadísticas”. Per introduir una funció a Excel cal que ens trobem en una casella en blanc i anem a “Insertar –> Función”. Veurem que les funcions es troben agrupades en categories. En Cada funció necessitausarem uns arguments a partir quals de donarà el resultat; per exemple, a la aquesta assignatura bàsicament les dels funcions la categoria “Estadísticas”. funcióCada que calcula mitjana uns d’una sèrie de dades cal dels introduir-hi com a el argument funció la necessita arguments a partir quals donarà resultat;sobre per exemple, a lacal funció que calcula la mitjana d’una sèrie de dades cal introduir-hi com a quines dades que calculi la mitjana. argument sobre quines dades cal que calculi la mitjana. Una vegada s’han introduït els arguments d’una funció, el programa retorna el Una vegada s’han introduït els arguments d’una funció, el programa retorna el resultat del resultat del càlcul demanat. càlcul demanat.

MESURES ESTADÍSTIQUES MESURES ESTADÍSTIQUES Mitjana, Mitjana, x Mediana Mediana Moda Moda Desviació mitjana, 2 Variància Variància poblacional, poblacional, σ!2 Desviació poblacional,σ! Desviació estàndard estàndard poblacional, Variància mostral,ss22 Variància mostral, Desviació mostral,ss Desviació estàndard estàndard mostral, Percentil, Percentil, PPkk

27

23

FUNCIONS D’EXCEL FUNCIONS D’EXCEL PROMEDIO PROMEDIO MEDIANA MEDIANA MODA MODA DESVPROM DESVPROM VARP VARP DESVESTP DESVESTP VAR VAR DESVEST DESVEST PERCENTIL PERCENTIL



2. Variables aleatòries

2.1 Experiments aleatoris. Espai mostral. Successos Definició. Es diu que un experiment és aleatori, estocàstic o estadístic si, quan es repeteix indefinidament en les mateixes condicions, no és possible predir el resultat, encara que coneguem les condicions inicials. En un experiment aleatori no coneixem el resultat fins que s’ha realitzat la prova. Exemples. Són experiments aleatoris: • L’extracció d’una carta de la baralla. • El llançament d’un dau. • L’extracció d’una bola de la loteria. • El llançament d’una moneda. No són experiments aleatoris: • El resultat d’una reacció química. • La velocitat d’arribada d’un cos a terra quan el deixem caure des d’una torre. Definició. El conjunt de tots els resultats possibles que es poden obtenir amb un experiment aleatori s’anomena espai mostral. El notarem amb Ω. Exemples. Considerarem ara diversos experiments i definirem els corresponents espais mostrals: • Llançar una moneda i observar el costat que apareix. Ω = {C,X} • Llançar 2 monedes i observar els costats que apareixen. Ω = {CC,CX,XC,XX} 29


Josep Maria Mateo Sanz

Observem que en aquest experiment el conjunt de resultats possibles consta de quatre elements. Així, CC és un sol resultat que té dos components, el mateix amb CX, etc. • Llançar 3 monedes i observar els costats que surten. Ω = {CCC,CCX,CXC,XCC,CXX,XCX,XXC,XXX} • Llançar un dau i observar la puntuació que apareix. Ω = {1,2,3,4,5,6} • Llançar dos daus i observar la suma de les puntuacions que apareixen. Ω = {2,3,4,5,6,7,8,9,10,11,12} • Comptar el nombre de persones que baixen d’un autobús en una parada determinada. Ω = {0,1,2,3,...,N} • Extreure un nombre a l’atzar de l’interval (0,1). Ω = { x / x ∈ (0,1) } Definició. Un succés és qualsevol subconjunt del conjunt de resultats possibles Ω. Un subconjunt que conté un sol punt mostral s’anomena succés elemental.

2.2 Concepte de probabilitat Donats uns successos, cal assignar valors numèrics a les diferents possibilitats d’ocurrència dels distints successos. Aquests valors numèrics seran la probabilitat de tals successos. Operacions elementals amb la probabilitat. Notarem amb P(A) la probabilitat d’un succés A. A continuació mostrem un conjunt de resultats referents a les operacions que es poden realitzar amb les probabilitats. a) 0 ≤ P(A) ≤ 1. b) P(Ω) = 1. c) Sent Ø el conjunt buit o succés impossible, llavors P(Ø) = 0. d) Si Ac és el conjunt (succés) complementari d'A, llavors: P(A) + P(Ac) = 1. e) Si A i B són successos qualssevol, aleshores P(A∪B) = P(A) + P(B) – P(A∩B).

30


Estadística pràctica pas a pas

2.3 Concepte de variable aleatòria Definició. Sigui Ω un espai mostral. Una variable aleatòria X és una funció definida sobre Ω de manera que a cada succés elemental de Ω li fa correspondre un nombre real. Exemples. En cada cas, Ω serà l’espai mostral que s’obté en fer l’experiment aleatori corresponent: • Llançar una moneda i observar el costat que apareix. X: Ω → ℜ C → 1 X → 0 • Llançar 2 monedes i observar els costats que apareixen. X: Ω → ℜ CC → 1 CX → 2 XC → 3 XX → 4 • Llançar un dau i observar la puntuació que apareix. X: Ω → ℜ 1 → 1 2 → 2 3 → 3 4 → 4 5 → 5 6 → 6 • Llançar dos daus i observar la suma de les puntuacions que apareixen. X: Ω → ℜ (1,1) → 2 … (6,6) → 12 • Comptar el nombre de persones que baixen d’un autobús en una parada determinada. X: Ω → ℜ 0 → 0 1 → 1 … • Extreure un nombre a l’atzar de l’interval (0,1). X: Ω → ℜ x → x

31


Josep Maria Mateo Sanz

Observació. Normalment, si l’espai mostral és quantitatiu, la variable aleatòria assigna els valors que es corresponen amb el succés. Si l’espai mostral és qualitatiu, l’assignació que fa la variable aleatòria és més arbitrària. Definició. Una variable aleatòria X és discreta si el nombre de valors que pot agafar és numerable (pot ser finit o infinit). Això vol dir que els valors es poden comptar i que sempre sabem quin valor va després d’un altre. En els cinc primers exemples anteriors ens trobem amb variables aleatòries discretes. Definició. Una variable aleatòria X és contínua si els seus valors són un o més intervals de la recta real. L’últim exemple anterior és una variable aleatòria contínua.

2.4 Variables aleatòries discretes: funció de probabilitat Cada valor d’una variable aleatòria discreta té associada una probabilitat. En el primer exemple de l’apartat anterior, P(X = 1) és la probabilitat que la variable aleatòria agafi el valor 1 o, dit d’una altra manera, la probabilitat que surti cara quan llancem la moneda. Definició. Si X és una v. a. discreta, P(X = x) és una funció de probabilitat de la v. a. X si es compleixen les propietats següents: • P(X = x) ≥ 0 per a tots els valors x que pren la v. a. X. • ∑xP(X = x) = 1 (la suma de les probabilitats per a tots els valors que pren la v. a. X és 1). Exemple. Considerem el llançament de dos daus i la v. a. X que representa la suma de les cares dels dos daus. Aquesta v. a. és discreta. Aleshores, l’assignació de la v. a. i la funció de probabilitat queden: Succés elemental (1,1) (1,2), (2,1) (1,3), (2,2), (3,1) (1,4), (2,3), (3,2), (4,1) (1,5), (2,4), (3,3), (4,2), (5,1) (1,6), (2,5), (3,4), (4,3), (5,2), (6,1) (2,6), (3,5), (4,4), (5,3), (6,2) (3,6), (4,5), (5,4), (6,3) (4,6), (5,5), (6,4) (5,6), (6,5) (6,6)

Valor de la v. a. 2 3 4 5 6 7 8 9 10 11 12

32

Funció de probabilitat 1 / 36 2 / 36 3 / 36 4 / 36 5 / 36 6 / 36 5 / 36 4 / 36 3 / 36 2 / 36 1 / 36


D’aquesta manera P(X = 2) és la probabilitat que la v. a. prengui el valor 2, que la suma de les cares dels daus sigui 2, i=val que un casque favorable possibles daus D’aquesta manera P(X 2) 1/36 és la ja probabilitat la v. a.d’entre prenguielsel36 valor 2, que(si la els suma desón les cares dels daus sigui 2, i val 1/36 ja que un cas favorable d’entre els 36 possibles (si els daus són perfectes). El mateix comentar sobre els altres d’entre valors de a. X. Observem quesón la cares dels daus sigui 2,podríem i val 1/36 ja que un cas favorable elsla 36v.possibles (si elspas daus Estadística a pas perfectes). El mateix podríem comentar sobre els altres valors de la v. a.pràctica X. Observem que la suma de lesEl probabilitats de totscomentar els valorssobre és 1. els altres valors de la v. a. X. Observem que la perfectes). mateix podríem suma de les probabilitats de tots els valors és 1. sumaD’ deaquesta les probabilitats tots=els és 1. manerade P(X 2)valors és la probabilitat que la v. a. prengui el valor 2, que la Definició. Si X és una v. a. discreta quantitativa, la funció de distribució de X en un punt x és la suma de les cares dels 2, iquantitativa, val 1/36 ja laque hi hadeun cas favorable els x36és la Definició. Si X és unadaus v. a.sigui discreta funció distribució de X d’ enentre un punt probabilitat fins a x. possibles els són El mateixla podríem elsun altres Definició.(si Siacumulada X ésdaus una v. a. perfectes). discreta quantitativa, funció decomentar distribuciósobre de X en puntvalors x és la probabilitat acumulada fins a x. de la v. a. X.acumulada Observemfins que probabilitat a x.la suma de les probabilitats de tots els valors és 1.

Definició. Si X és una v. a. discreta quantitativa, la funció de distribució de X en 2.5punt Variables aleatòries contínues: un x és la probabilitat acumulada fins a x.funció de densitat 2.5 Variables aleatòries contínues: funció de densitat 2.5 Variables aleatòries contínues: funció de densitat

En el cas discret, assignàvem una probabilitat concreta a cada valor de la v. a. En el cas de v. a. En el cas discret, assignàvem una probabilitat concreta a cada valor de la v. a. En el cas de v. a. contínues, el nombre de possibles valors és funció infinit node la la probabilitat la v. 2.5 Variables aleatòries contínues: densitat En el cas discret, assignàvem una probabilitat concreta anumerable cada valori de v. a. En elque cas de v. a. a. contínues, el nombre de possibles valors és infinit no numerable i la probabilitat que la v. a. prengui un el valor determinat és 0. Pervalors tant, en cas podem assignar probabilitats alavalors contínues, nombre de possibles és aquest infinitconcreta no no numerable i valor la probabilitat que v. a. En el cas discret, assignàvem una probabilitat a cada de la v. a. En prengui un valor determinat és 0. Per tant, en aquest cas no podem assignar probabilitatsela cas valors individuals de la determinat v. a. i hemésde0.treballar intervals. Això ho farem mitjançant la funció de prengui un valor Per tant,amb en valors aquest casinfinit no podem assignar probabilitats a valors de v.individuals a. contínues, el nombre de possibles és no numerable i la probabilitat de la v. a. i hem de treballar amb intervals. Això ho farem mitjançant la funció de densitat. que la v. a. prengui determinat és 0.intervals. Per tant, en aquest casmitjançant no podem individuals de la v. un a. i valor hem de treballar amb Això ho farem la assignar funció de densitat. probabilitats a valors individuals de la v. a. i hem de treballar amb intervals. Això ho densitat. farem mitjançant la de funció de densitat. Definició. La funció densitat, f(x), d’una v. a. contínua X és la funció que compleix: Definició. La funció de densitat, f(x), d’una v. a. contínua X és la funció compleix: Definició. La funció de densitat, f(x), d’una v. a. contínua X és laque funció que coma) f(x) ( 0, –*<x<* Definició. La funció de densitat, f(x), d’una v. a. contínua X és la funció que compleix: pleix: a) f(x) ! 0, –"<x<" a) f(x) (≥0,0,–*<x<* a) f(x) dx =–∞<x<∞ 1 b) f(x) b) f(x) dx = 1 b) f(x) b) f(x)dxdx==1 1 c) P (a + X + b) = f(x) dx

f(x)dx dx P (a c) c) P (a ≤ #XX≤#b)b)== f(x)

c) P (a + X + b) = f(x) dx Exemple. La v. a. X representa el temps (en minuts) que hi ha entre dues arribades consecutives Exemple. X representa temps (en que minuts) ha entre duesconsecutives arribaExemple. La La v. a.v.Xa.representa el tempsel(en minuts) hi ha que entrehidues arribades aExemple. una botiga i la seva funció de densitat és donada per: La v. a. aXuna representa temps minuts) hi ha és entre dues arribades desaconsecutives botigaeli la seva(en funció de que densitat donada per: consecutives una botiga i la seva funció de densitat és donada per: a una botiga i la seva funció de densitat és donada per: f(x) = f(x) = f(x) =

Ens demanen: a) El valor de k perquè f(x) sigui una28 funció de densitat. 28 b) La probabilitat que una persona arribi 28 entre 2 i 6 minuts després de l’anterior. c) La probabilitat que una persona arribi abans que passin 8 minuts des que ha arribat l’anterior.

33


c)La Laprobabilitat probabilitatque queuna unapersona personaarribi arribientre abans22que passin després 8després minutsde des que ha arribat l’anterior. b) La probabilitat que una persona arribi entre minuts de l’anterior. b) ii66minuts l’anterior.   c)La Laprobabilitat probabilitatque queuna unapersona personaarribi arribiabans abansque quepassin passin88minuts minutsdes desque queha haarribat arribatl’anterior. l’anterior. c)   Josep Maria Mateo Sanz

Solució

a) f(x) compleix la primera propietat de les funcions de densitat. Per complir la segona ha de Solució Solució

 Solució

a) f(x) f(x) compleix la primera primera propietat de les les funcions de densitat. Per complir la segona segona ha de de a) compleix la propietat de funcions de densitat. Per complir la          ha           a) f(x) compleix la primera de les0 dx funcions Per complir f(x) dxpropietat = 1, és a dir, + ke–x/2dedxdensitat. = 1. La primera integrallaés 0, per tant passar que 

∞

∞

–x/2 –x/2  dx f(x) dx == 1, 1,, és és aaa dir, dir,  dx == 1. 1..La La primera integral és 0, 0, per per tant tant passar que és dx és passar que dir, Laprimera primeraintegral integral segona ha de passar que       f(x)  00dxdx++ keke   

∞

s’ha complirque que ke–x/2 dx = 1 , –2ke–x/2 = 0 + 2k = 2k = 1 , k = 1/2. és 0, per tant s’ha dedecomplir ∞

  

–x/2 –x/2 –x/2 –x/2  que s’ha de complir que ke dx==11, , –2ke =00++2k 2k==2k 2k==11, , 1/2. s’ha de complir ==1/2. dx  –2ke  = kk        ke



 –x/2

  b) Aquest apartat ens ens demana b) Aquest apartat demana P(2 < X < 6) =

e

dx = – 2e–x/2 = –e–x/2 = –e–3 + e–1 = 

  –x/2 –x/2 –x/2  6)  P(2 –– 2e   ens  b) Aquest Aquest apartat apartat ens demana demana P(2 < X < 6) dx 2e–x/2 –e–x/2 –e–3–3++ ee–1–1 == ee–x/2 dx == –e == –e b) < X < == ==                  0,3181.         

0,3181.  0,3181.   –x/2  0    –4+e  P(X  < 8) =  e–x/2 dx = –e = –e = –e–4+1 = 0,9817. c) Busquem        c)     Busquem       –x/2   –x/2 –x/2  dx==–e –e –e–4–4+e +e00==–e –e–4–4+1 +1==0,9817. 0,9817. c) Busquem Busquem P(X<<8) 8) c) P(X == ee–x/2 dx ==–e  Definició. Si X és una v. a. contínua, la funció de distribució de X en un punt x és Definició. Si X ésfins una av.x.a. contínua, la funció de distribució de X en un punt x és la probabilitat       la probabilitat acumulada 

 



acumulada x. Definició. Sifins ésa una una v. v.a.a.contínua, contínua,la la funció funcióde dedistribució distribució de deXXen en un un punt puntxxés és la la probabilitat probabilitat Definició. Si XXés  

acumuladafins finsaa x.x. acumulada

2.6 Esperança matemàtica

Esperança matemàtica 2.6 2.6 Esperança matemàtica. sperança matemàtica. L’esperança matemàtica és un concepte que es correspon amb el concepte de mitjana  2.6 2.6 Esperança Esperança matemàtica matemàtica estudiat al tema d’estadística descriptiva. En aquest cas, treballem amb variables aleatòL’esperança matemàtica és un concepte que es correspon amb el concepte de mitjana estudiat al   ries i l’esperança matemàtica serà el valor mitjà teòric de tots els valors que pot prendre tema d’estadística descriptiva. En aquest treballem variables aleatòries i l’esperança L’esperança matemàtica és un un concepte quecas, es correspon correspon amb el concepte demitjana mitjana estudiat al al L’esperança matemàtica concepte que es amb el concepte de estudiat                       la v. a. L’ esperança matemàtica noésha de coincidir necessàriament amb la  mitjana d’una matemàtica serà valor mitjà de tots els valors que pot prendre la a.ii l’esperança L’esperança tema d’estadística descriptiva. En aquest cas, treballem amb variables aleatòries l’esperança tema d’estadística aquest cas, treballem amb variables                        de     sèrie de dades obtingudes aeldescriptiva. partir laEn v.teòric a. que estem estudiant, encara que,aleatòries si el v. nommatemàtica no de coincidir necessàriament amb lagran, mitjana d’una sèrie obtingudes a matemàtica serà valor mitjàés teòric de tots els els valors que pot prendre la dades v. L’esperança matemàtica valor mitjà teòric tots valors que prendre la v. a.a. L’esperança bre de  vegades que esserà fa ha l’eleelxperiment cadade vegada més la pot mitjana de de les dades  tendirà al valor de l’laeno sperança. partir de v. a. estem estudiant, encara que, sila elmitjana nombre de  vegades que es faobtingudes l’experiment matemàtica no haque de coincidir coincidir necessàriament amb la mitjana d’una sèrie de dades obtingudes matemàtica ha de necessàriament amb d’una sèrie de dades               aa              

és cada més gran, la mitjana encara de les dades tendirà al valor de l’esperança. partir de vegada la v. v. a.a. que que estem estem estudiant, encara que, sisi el nombre nombre de vegades vegades que es es fa fa l’experiment l’experiment partir de la estudiant, que, el de que  

Maria Mateo Sanz aria Mateo Sanz

Definició. L’esperança matemàtica, E(X), d’unatendirà variable aleatòria X és el valor éscada cadavegada vegadamés mésgran, gran,la lamitjana mitjanade deles lesdades dadestendirà alvalor valorde del’esperança. l’esperança. al  és Estadística pràctica pas a pas mitjà teòric de X i es calcula mitjançant les fórmules següents: Estadística pràctica pas a pas

Definició. L’esperança matemàtica, E(X), d’una variable aleatòria X és el valor mitjà teòric de      E(X) x · L’esperança p(x) si X és discreta X=i es calcula mitjançant les fórmulesE(X), següents: Definició. L’esperança matemàtica, E(X), d’una variable variable aleatòria aleatòria XX és és el el valor valor mitjà mitjà teòric teòric de de Definició. d’una   E(X) = x · p(x) sisiXX ésmatemàtica, discreta és discreta escalcula calcula mitjançantles les fórmules següents: següents: XXiies mitjançant fórmules     

E(X) =  x · f(x) dx E(X) = ∞ x · f(x) dx

 sisiXXésés contínua contínua si X és contínua∞

29

      29 29 ) i f(x) són les funcions de probabilitat i de densitat, respectivament. funcions de probabilitat i de densitat, respectivament. ∞ ∞ i f(x) són i f(x) són les funcionson de p(x) probabilitat i de les densitat, respectivament.

  Notació. L’esperança ió. L’esperança matemàtica també la notaremmatemàtica amb la lletratambé grega µ.la notarem amb la lletra grega μ. ó. L’esperança matemàtica també la notarem amb la lletra grega µ.   

ple 1. Agafem la v. a. X, que representa la suma de les cares de dos daus, i busquem la le 1. Agafem la v. a. X, que representa la suma de les cares de dos daus, i busquem la sperança. En aquest cas, X és discreta i hem d’aplicar la fórmula corresponent: perança. En aquest cas, X és discreta i hem d’aplicar la fórmula corresponent: 34

x · p(x) = 2 · (1 / 36) + 3 · (2 / 36) + 4 · (3 / 36) + … + 11 · (2 / 36) + 12 · (1 / 36) = 7 x · p(x) = 2 · (1 / 36) + 3 · (2 / 36) + 4 · (3 / 36) + … + 11 · (2 / 36) + 12 · (1 / 36) = 7


n p(x) i f(x) són les funcions de probabilitat i de densitat, respectivament. on p(x) i f(x) són les funcions de probabilitat i de densitat, respectivament. on p(x) i f(x) són les funcions de probabilitat i de densitat, respectivament. Estadística pràctica pas a pas

otació. L’esperança matemàtica també la notarem amb la lletra grega µ. Notació. L’esperança matemàtica també la notarem amb la lletra grega µ. Notació. L’esperança matemàtica també la notarem amb la lletra grega µ.

Exemple 1. Agafem la v. a. X, que representa la suma de les cares de dos daus, i

xemple 1. Agafem la v. a. X, que representa la suma de les cares de dos daus, i busquem la Exemple la 1. seva Agafem la v. a. X, representa laéssuma de les caresd’de dos daus, i busquem la busquem esperança. Enque aquest cas,laXsuma discreta i hem aplicar Exemple 1. Agafem la v. a. X, que representa de les cares de dos daus,lai fórmula busquem corla va esperança. En aquest cas, X és discreta i hem d’aplicar la fórmula corresponent: seva esperança. En aquest cas, X és discreta i hem d’aplicar la fórmula corresponent: responent: seva esperança. En aquest cas, X és discreta i hem d’aplicar la fórmula corresponent: µ= x · p(x) = 2 · (1 / 36) + 3 · (2 / 36) + 4 · (3 / 36) + … + 11 · (2 / 36) + 12 · (1 / 36) = 7 x · p(x) = 2 · (1 / 36) + 3 · (2 / 36) + 4 · (3 / 36) + … + 11 · (2 / 36) + 12 · (1 / 36) = 7 µ= µ= x · p(x) = 2 · (1 / 36) + 3 · (2 / 36) + 4 · (3 / 36) + … + 11 · (2 / 36) + 12 · (1 / 36) = 7 xemple 2. Agafem la v. a. X, que representa el temps entre dues arribades consecutives en una Exemple 2. Agafem la v. a. X, que representa el temps entre dues arribades consecutives en una ExempleExemple 2. Agafem la v. a. X,laque el temps entre dues arribades consecutives una 2. Agafem a.representa X,X que representa el temps entre dues arribadesenconseotiga, i busquem la seva esperança. En aquestv.cas, és contínua i hem d’aplicar la fórmula botiga, i busquem la seva esperança. En aquest cas, X és contínua i hem d’aplicar la fórmula botiga, i busquem la seva iesperança. aquest cas, X és En contínua d’aplicar la fórmula cutives en una botiga, busquem En la seva esperança. aquesti hem cas, X és contínua i hem orresponent: d’corresponent: aplicar la fórmula corresponent: corresponent: µ=

x · f(x) dx = x · e–x/2 dx = (per parts) = –xe–x/2 + e–x/2 dx = 0–x/2 – 2e–x/2 –x/2 =2 µ = x · f(x) dx = x · –x/2e–x/2 dx = (per parts) = –xe + e dx = 0 – 2e–x/2 = 2 –x/2 + e–x/2 dx = 0 – 2e–x/2 = 2 µ = x · f(x) dx = x · e dx = (per parts) = –xe

.7 Variància 2.7 Variància 2.7 2.7Variància Variància

a variància d’una v. a. és un concepte que es correspon amb el concepte de variància estudiat Lavariància variànciad’una d’una v. v. a. a. és és un que es es correspon ambamb el concepte de variància estudiat unconcepte concepte correspon el concepte de variància LaLa variància d’una v. a. és un concepte que esque correspon amb el concepte de variància estudiat tema d’estadística descriptiva. En aquest cas, treballem amb variables aleatòries i la variància al tema al d’estadística descriptiva. En aquest cas, treballem variablesamb aleatòries i la variància tema d’descriptiva. estadística descriptiva. aquest cas,amb treballem variables aleatòalestudiat tema d’estadística En aquest cas,En treballem amb variables aleatòries i la variància una v. a. mesura la dispersió mitjana dels valors d’una v. a. respecte de la seva esperança. d’una a. mesura la dispersió mitjana valorsmitjana d’una v.dels a. respecte de la seva esperança. ries i la v.variància d’una v. a. mesura la dels dispersió valors d’una v. a. respecte d’una v. a. mesura la dispersió mitjana dels valors d’una v. a. respecte de la seva esperança. ual que passavadeamb l’esperança, la variància d’una v. a. no ha de coincidir necessàriament la seva Igual que passava amb l’esperança, d’una v.necessàriament a. no ha de Igual queesperança. passava amb l’esperança, la variància d’una v. a.lanovariància ha de coincidir Igual que passava amb l’esperança, la variància d’una v. a. no ha de coincidir necessàriament mb la variància coincidir d’una sèrienecessàriament de dades obtingudes a partir de la v. a. que estem estudiant, encara a partir de la amb variància d’una amb la variància d’una sèrie de la dades obtingudes a sèrie partir de de dades la v. a.obtingudes que estem estudiant, encara amb laque variància d’una sèrie deencara dades que, obtingudes a partir de v. a. queque estem estudiant, encaraés estem estudiant, el nombre delavegades esles fa l’experiment ue, si el nombrev.dea.vegades que es fa l’experiment és cadasivegada més gran, la variància de que, si el nombre de vegades que es fa l’experiment és cada vegada més gran, la variància de les que, si el nombre de gran, vegades es fa l’experiment cada vegada mésde gran, la variància cada més la a.que variància de les dadeséstendirà al valor la variància dedelales v. a. ades tendirà al valor devegada la variància de la v. dades tendirà al valor de la variància de la v. a. dades tendirà al valor de la variància de la v. a.

Definició. La variància d’una v. a., Var(X), d’una variable aleatòria X és l’esperança

efinició. La variància d’una v. a., Var(X), d’una variable aleatòria X és l’esperança de la nova 2 Definició. Laa.variància d’una v. calcula a., Var(X), d’una variable aleatòria X és l’esperança de la nova i es mitjançant lesaleatòria fórmules: de la nova v. [X – E(X)] Definició. La variància d’una v. a., Var(X), d’una variable X és l’esperança de la nova a. [X – E(X)]2 i es calcula mitjançant les fórmules: 2 i es calcula mitjançant les fórmules: v. a. [X – E(X)] 2 v. a. [X – E(X)] i es calcula mitjançant les fórmules: Estadística pràctica pas a pas osep Maria Mateo Sanz [x – E(X)]2 · p(x) sisiXXésésdiscreta Var(X) = 2discreta Var(X) = [x – E(X)] · p(x) si X és discreta 2 Var(X) = [x – E(X)] · p(x) si X és discreta Var(X) =

[x – E(X)]2 · f(x) dx

sisi X éscontínua contínua X és

on p(x) i f(x) són les funcions probabilitat de densitat, on p(x)dei f(x) són lesifuncions derespectivament. probabilitat i de densitat, respectivament. 30 30 30 Definició. La desviació típica d’una és l’arrel quadrada de la vaDefinició. La desviació típica o estàndard d’una v. a. oésestàndard l’arrel quadrada dev.laa. variància.

riància. Notació. La variància d’una v. a. també la notarem amb la lletra grega σ2, i la desNotació. La variància d’una v. a. també la notarem amb la lletra grega !2, i la desviació típica, viació típica, amb σ.

amb !.

Fórmula alternativa

La variància d’una v. a. X també la podem obtenir fent: Var(X) 35 = E(X2) – [E(X)]2. En aquest cas,

es fórmules per calcular la variància serien:


Definició. La desviació típica o estàndard d’una v. a. és l’arrel quadrada de la variància.

Notació. La variància d’una v. a. també la notarem amb la lletra grega !2, i la desviació típica, Notació. La variància d’una v. a. també la notarem amb la lletra grega !2, i la desviació2 típica, Notació. variància amb !. Josep MariaLaMateo Sanz d’una v. a. també la notarem amb la lletra grega ! , i la desviació típica, amb !.         amb !.

Fórmula alternativa Fórmula alternativa  Fórmula alternativa 2 2  aquest  2) – [E(X)]2. Fórmula Laa.alternativa variància d’una v. a.obtenir X també podem obtenir fent: Var(X) = E(X La variància d’una v. X també la podem fent:laVar(X) = E(X cas,  2 ) – [E(X)] 2 . En La variància d’una v. a. X també la podem obtenir fent: Var(X) = E(X ) – [E(X)] . En 2aquest cas,2  En aquest lacas, les v.fórmules perlacalcular la variància serien:= E(X ) – [E(X)] . En aquest cas, Lacalcular variància d’una a.serien: X també podem obtenir fent: Var(X) les fórmules per variància les fórmules per calcular la variància serien: 2 la variància  2 les fórmules per=calcular serien:  Var(X) [x · p(x)]  – [E(X)] si X és discreta    2 2 Var(X) = [x · p(x)] – [E(X)] si X és discreta si X és discreta 2 2  Var(X) = [x · p(x)] – [E(X)] si X és discreta ∞

2   contínua Var(X) = [x2 · f(x)] dx –[E(X)] sisiXXXéséséscontínua contínua   2 Var(X) = [x2  · f(x)] dx – [E(X)] si 2 2  ∞ Var(X) = [x · f(x)] dx – [E(X)] si X és contínua

Exemple 1. Agafem la v. a. X, que representa la suma de les cares de dos daus, i Exemple 1. Agafem la v. a.seva X, que representa la suma cas, de les cares de dosidaus, id’busquem  busquem variància. és discreta hemi busquem aplicarlalalafórmula corExemple 1. Agafem la v. la a. X, que representaEnla aquest suma de lesXcares de dos daus, Exemple 1. cas, Agafem la v. a. X, qued’aplicar representa la sumacorresponent: de les cares de dos daus, i busquem la seva variància.responent: En aquest X és discreta i hem la fórmula 

seva variància. En aquest cas, X és discreta i hem d’aplicar la fórmula corresponent: seva variància. En aquest corresponent:  cas, X és discreta i hem d’aplicar la fórmula  2 2 2  2 2  72 =  [x – E(X)] ·p(x) = E(X – [E(X)] =    2    2! = 2  2 )  2 2x ·p(x) – [x – E(X)] ·p(x) = E(X ) – [E(X)] = x ·p(x) – 7 = ! = !2 =  [x – E(X)]2 ·p(x) = E(X2) – [E(X)]2 =  x2 ·p(x) – 72 =  / 36) + 42 ·(3 / 36) + …  + 112 · (2 / 36) + 122 · (1 / 36)  – 49 = 54,83 – 49 = = 22 · (1 / 36) + 32 · (2  2 = 22 · (1 / 36) + 32  · 2(2 / 36) + 42 · 2(3  / 36) + … +2 112 · (2 /… 36) + 12 ·2 (1 / 36) – 49 =2 54,83 – 49 = = 2 · (1 / 36) + 3 · (2 / 36) + 4 · (3 / 36) + … + 11 · (2 / 36) + 12 · (1 / 36) – 49 = 54,83 – 49 = = 5,83  = 5,83 = 5,83 Exemple 2. Agafem v. a. X, que representa el temps entre dues arribades consecutives a una   lalav.  representa   entre  arribades     a Exemple 2. Agafem a. X, que el temps dues consecutives una Exemple 2. Agafem la v. a. X, que representa el temps entre dues arribades aconExemple 2. Agafem la v. a. X, que representa el temps entre dues arribades consecutives una botiga, i busquem la seva variància. En aquest cas, X és contínua i hem d’aplicar la fórmula  botiga, i busquem la seva variància. En aquest cas, X és contínua i hem d’aplicar la fórmula secutives a una botiga, i busquem la seva variància. En aquest cas, X és contínua i hem En aquest cas, ∞X és contínua i hem d’aplicar la fórmula ∞ corresponent: botiga, i busquem la seva variància. corresponent: d’aplicar lafórmula   corresponent:       corresponent:             2 = 2x2 ·f(x) dx – 22∞2 = 2x2 · –x/2 e–x/2 dx – 4 = (per parts) = !2 = E(X2) – [E(X)] 2 !2 = E(X2) – [E(X)] = x ·f(x) dx – 2 = x · e dx – 4 =2 (per–x/2 parts) = ∞ ∞ 2 ∞ 2 ∞ 2 2 !2 = E(X ) – [E(X)] = x ·f(x) dx – 2 = x · e dx – 4 = (per parts) =          2 –x/2 –x/2 –x/2 = –x e + 2 xe dx– 4 =(per parts) = 0 – 4xe + 4 –x/2 e–x/2 dx – 4 =  2 –x/2 –x/2 –x/2 = –x e + 2 xe 2 dx – 4 = (per parts) = 0 – 4xe ∞ + 4 e dx–x/2– 4 = = –x e–x/2 + 2 xe–x/2 dx – 4 = (per parts) = 0 – 4xe + 4 e–x/2 dx – 4 =   

–x/2 = 0 + 0 –8e – 4 = 8 – 4 = 4 –x/2 = 0 + 0 –8e –4=8–4=4 = 0 + 0 –8e–x/2 – 4 = 8 – 4 = 4

31 31

31

36 


3. Models de distribució de probabilitats

3.1 Distribucions discretes Donarem en aquest apartat uns models de distribucions de probabilitats que tenen com a base variables aleatòries discretes.

3.1.1 Distribució de Bernouilli Definició. Direm que una v. a. X segueix una distribució de Bernouilli quan la v. a. només pot prendre 2 valors diferents (0 i 1). Exemples. En cada cas, Ω serà l’espai mostral que s’obté en fer l’experiment aleatori corresponent: • Llançar una moneda i observar si surt cara o no: X: Ω → ℜ C → 1 X → 0 • Llançar un dau i observar si surt múltiple de 3 o no: X: Ω → ℜ 3, 6 → 1 1, 2, 4, 5 → 0 • Agafar un iogurt i veure si està caducat o no: X: Ω → ℜ caducat → 1 no caducat → 0 • Mirar la nota d’un alumne i veure si ha aprovat o no: 37


Josep Maria Mateo Sanz

X: Ω → aprovat → no aprovat →

ℜ 1 0

Si p és la probabilitat que la v. a. X prengui el valor 1, la funció de probabilitat d’una v. a. que segueix una distribució de Bernouilli és: p(1) = p p(0) = 1– p = q Propietats 1) L’esperança d’una Bernouilli és p ja que: E(X) = 1 · p + 0 · q = p 2) La variància d’una Bernouilli és pq ja que: Var(X) = E(X2) – [E(X)]2 = 12 · p + 02 · q – p2 = p – p2 = p · (1 – p) = pq

3.1.2 Distribució binomial Definició. Una v. a. X segueix una distribució binomial si es repeteix n vegades (de manera independent) una experiència de tipus Bernouilli. La v. a. X és el nombre de vegades que apareix el valor 1 en una Bernouilli i, per tant, els valors que pot prendre X estaran entre 0 i n. Exemples. En cada cas, Ω serà l’espai mostral que s’obté en fer l’experiment aleatori corresponent: • Llançar 10 monedes i observar quantes cares surten: X: Ω → ℜ 0 cares → 0 1 cara → 1 … 10 cares → 10 • Llançar 6 daus i observar quants múltiples de 3 apareixen. • Agafar 20 iogurts i veure quants estan caducats. • Mirar les notes d’una classe de 30 alumnes i veure quants han aprovat. La funció de probabilitat d’una v. a. que segueix una distribució binomial amb paràmetres n i p (n és el nombre de vegades que es repeteix l’experiència Bernouilli i p és la probabilitat d’obtenir el valor 1 en una sola experiència Bernouilli), és:

38


La funció de probabilitat d’una v. a. que segueix una distribució binomial amb paràmetres n i p

Estadística pràctica pas a pas

(n és el nombre de vegades que es repeteix l’experiència Bernouilli i p és la probabilitat d’obtenir el valor 1 en una sola experiència Bernouilli), és: p(k) = P(X = k) =

pk(1 – p)n–k

k = 0, 1, ..., n

Notació. Una v. a. X que segueixi una binomial amb paràmetres n i p la notarem amb B(n,p).

Notació. Josep Maria MateoUna Sanz v.

a. X que segueixi una binomial amb paràmetres n i p lapasnotarem Estadística pràctica a pas

33 amb B(n,p).         Propietats Propietats 1) L’esperança d’una B(n,p) és np ja que és la suma de n Bernouilli independents                (cadascuna amb esperança p).np ja que és la suma de n Bernouilli independents (cadascuna 1) L’esperança d’una B(n,p) és  E(X) = np amb esperança p).  2) La variància d’una B(n,p) és npqE(X) ja que = npés la suma de n Bernouilli independents  (cadascuna amb variància 2) La variància d’una B(n,p) pq). és npq ja que és la suma de n Bernouilli independents (cadascuna  Var(X) = npq amb variància pq). 

 Var(X) = npq

Exemple. Agafem la situació del tercer exemple anterior on es miren 20 iogurts i

            observem quants estan caducats; suposem que històricament hi haun 15% de iogurts Exemple. Agafem la situació del tercer exemple anterior on es miren 20 iogurts i observem            i  caducats. Aquesta v. a. segueix una binomial de paràmetres p= 0.15 n = 20, ja que quants estan caducats; suposem que històricament hi ha un 15% de iogurts caducats. Aquesta 0.15 és la probabilitat que un iogurt estigui caducat. Si ens preguntem per la probabi v. a. segueix una els binomial de paràmetres p =n’hi 0,15hagi i n =420, jacaducats, que 0,15 és la probabilitat que un litat entre 20 iogurts observats, apliquem la funció de  que,        de       probabilitat B(20,0.15) per a k = iogurt estigui d’una caducat. Si ens preguntem per4:la probabilitat que, entre els 20 iogurts observats,  n’hi hagi 4 de caducats, apliquem la funció de probabilitat d’una B(20,0,15) per a k = 4:        p(4) = P(X = 4) =    · 0,154 · 0,8520–4 = 0,1821  L’esperança és: E(X) np = 20 0,15 = 3.· 0.15 = 3. L’esperança és:=E(X) = ·np = 20  La variància és: Var(X) = npq = 20 · 0,15 · 0,85 = 2,55. 

La variància és: Var(X) = npq = 20 · 0.15 · 0.85 = 2.55.

3.1.3 Distribució de Poisson. 3.1.3 Distribució de Poisson 

3.1.3 Distribució de  Poisson                Definició. Una v. a. X segueix una distribució de Poisson amb paràmetre # si la funció de

 Definició. Una v. a. X segueix una distribució de Poisson amb paràmetre λ si la funció probabilitat és donada per:  de probabilitat és donada per:  λ   

 p(k) = P(X = k) = e–# k = 0, 1, 2, ...  Propietats. Si X ésSi una paràmetre #: Propietats. XPoisson és una de Poisson de paràmetre λ: 

1)=E(X) 1) E(X) #. = λ.  2)  Var(X) = λ. 2) Var(X) = #.   

a. independents de Poisson de paràmetres #1 i #2, respectivament, la variable 3) Si X 1 i X2 són v.   

39 Poisson de paràmetre # = # + # . suma X = X1 + X2 segueix una distribució de 1 2




Josep Maria Mateo Sanz

3) Si X1 i X2 són v. a. independents de Poisson de paràmetres λ1 i λ2, respectivament, la variable suma X = X1 + X2 segueix una distribució de Poisson de paràmetre λ = λ 1 + λ 2. Exemple. Suposem que el nombre de cotxes que passen per una cruïlla en un minut segueix una Poisson de paràmetre λ = 10. Si ens preguntem per la probabilitat que pas     funció  de probabilitat  sin 7 cotxes en un minut per la cruïlla, apliquem la per a k = 7:     

 

 

 

 



 

  

          L’esperança és: E(X) = λ = 10. La variànciaés: Var(X) = λ = 10.      

Si ens demanen la probabilitat que passin per la cruïlla 19 cotxes en 2 minuts,             hem   d’ aplicar la tercera (ja que nombre cotxesque passenen2 minuts la  propietat    el de     és                     suma de dues distribucions de Poisson de paràmetre 10 per a cadascuna) i obtenim que    el nombre de cotxes que passen en 2 minuts segueix una Poisson de paràmetre 20:                     

3.1.4 Distribució uniforme discreta. 

3.1.4Distribució Distribució uniforme discreta. 3.1.4 uniforme discreta 3.1.4 Distribució uniforme discreta.

   Definició. Una v. a. X segueix una distribució uniforme discreta si la v. a. pot prendre n       valors diferents amb la mateixa probabilitat. Els valors els podem ordenar des d’1 fins a   

n i obtenim la funció de probabilitat:

       1   = 1, 2, ..., n. p(k) = P(X = k) =    k       n     Si X és una uniforme discreta: Propietats.     1  n+   = 1) E(X)    2            2) Var(X)  =    

3.2 Distribucions contínues.  3.2 Distribucions contínues. 3.2 Distribucions contínues.

         

40

3.2.1 Distribució uniforme contínua.


Estadística pràctica pas a pas

3.2 Distribucions contínues Donarem en aquest apartat uns models de distribucions de probabilitats que tenen Josep Maria Mateo Sanz Estadística pràctica pas a pas com a Josep base variables aleatòries contínues. Maria Mateo Sanz Estadística Josep Maria Mateo Sanz Estadística pràcticapràctica pas a paspas Josep Maria Mateo Sanz Estadística pràctica pas aa pas pas 3.2.1Maria Distribució Josep Mateo Sanz

uniforme contínua

Estadística pràctica pas a pas

3.2.1 Distribució uniforme contínua 3.2.1 uniforme contínua 3.2.1Distribució Distribució uniforme contínua 3.2.1 Distribució uniforme contínua

3.2.1 Distribució Definició. Una segueix distribució uniforme contínua si éssielés resultat d’escollir un Definició. Unav.v. a. a. X Xuniforme segueixuna unacontínua distribució uniforme contínua el resultat d’esco-

Definició. a. una uniforme contínua és d’escollir un Definició. Una v.Una a. Xv. una distribució uniforme contínua si és elsi d’escollir un Definició. Una v.segueix a. X X segueix segueix una distribució distribució uniforme contínua siresultat és el el resultat resultat d’escollir un dins d’un interval (a,b). La de nombrenombre a l’atzar dins (a,b). La funció de densitat és: siés: nombre l’atzar dinsinterval d’un interval (a,b). La funció funció de densitat densitat és: Definició. Una aav.l’atzar a. Xd’un segueix una distribució uniforme contínua és el resultat d’escollir un   dins  d’un  La funció (a,b). densitat  és:de densitat  llir un nombre a l’atzar interval funció és: nombre a l’atzar dins d’un interval (a,b). deLa

 ∈    nombre a l’atzar dins d’un interval (a,b). f(x) = Lafunció de densitat és:    = f(x) = f(x) f(x) =     ∉  f(x) =  Propietats. Si X ésSi una uniforme contínua: contínua: Propietats. Xés ésuna unauniforme uniforme  Propietats. X contínua: Propietats. Si X ésSi una uniforme contínua: Propietats. Si X és una uniforme contínua: 1) E(X) =  Propietats. Si X= ésuna uniforme contínua:  1) 1) E(X) 1)=E(X) E(X) 1) = 1) = =   2) E(X) Var(X)  2) 2) = 2) Var(X) = 2) Var(X) Var(X) =  

2) Var(X) = Exemple. a la parada d’un autobús sé queunpassa un autobús, manera reguExemple. Sóc a Sóc la parada d’un autobús i sé que ipassa autobús, de manerade regular, cada 20  Exemple. Sóc aaSuposant la d’un autobús que passa un de regular, Exemple. Sócminuts. a la parada d’un autobús i sé que passa ded’improvís manera regular, cada 20cada lar, cada 20 que a iilasé parada d’autobús, autobús i sense saber Exemple. Sóc la parada parada d’un arribo autobús sé que un passa un autobús, autobús, de manera manera regular, cada 20 20 minuts. Suposant que arribo a la parada d’autobús d’improvís i sense saber l’horari de pas, el  l’horari deSóc pas, temps d’arribo variable aleatòria una distribució minuts. que aa és la d’autobús d’improvís iimanera sense saber l’horari minuts. Suposant arribo aespera laautobús parada d’autobús d’improvís i que sense saber de pas,de minuts. Suposant que arribo la una parada d’autobús d’improvís sense l’horari saber l’horari deel pas, pas, el el Exemple. aSuposant laelque parada d’un iparada séque que passa un desegueix regular, temps d’espera és una variable aleatòria segueix unaautobús, distribució uniforme entrecada 0 i 20 20 uniforme entre 0 iuna 20és minuts. Si vullaleatòria saber la probabilitat quedistribució hagi d’esperar menys de temps      segueix  distribució    i 20  20 d’espera una que segueix una uniforme entre temps d’espera és que una uniforme entre temps d’espera ésvariable unaa variable variable aleatòria que segueix una distribució uniforme entre minuts. Suposant quelaarribo la aleatòria parada d’autobús d’improvís i7sense saber l’horari de 0pas, el 00 ii 20 minuts. Si vull saber probabilitat que hagi d’esperar menys de minuts he de fer: 7 minuts he de fer: saber la probabilitat que hagi d’esperar menys de 7 minuts he de fer: minuts.minuts. Si vull Si saber lasaber probabilitat que hagi d’esperar menys de 7 minuts he de fer: minuts. Si vull la probabilitat que hagi d’esperar de 7 minuts he entre de fer:0 i 20 temps d’espera ésvull una variable aleatòria que segueix una menys distribució uniforme

  P(X<7) = dx =  menys =  de = 70,35  d’esperar minuts. Si vull saber la probabilitat que hagi minuts he de fer:     = dx = = 0,35  P(X<7)P(X<7) = dx = = = 0,35  P(X<7) = dx = = = 0,35      Si agafo l’autobús moltesP(X<7) vegades, = em puc dx =preguntar = pel= temps 0,35 mitjà d’espera; això és  Si l’autobús vegades, em puc pel mitjà Si agafo l’autobús moltesmoltes vegades, em puc pel temps mitjà d’espera; això ésaixò Si agafo agafo l’autobús moltes vegades, empreguntar puc preguntar preguntar pel temps temps mitjà d’espera; d’espera; això és és equivalent a buscar l’esperança de la v. a. temps d’espera i hem de fer: Si agafo l’autobús moltes em preguntar pel temps mitjà d’espera; això  equivalent aa buscar v. temps d’espera ii hem de fer: equivalent a buscar l’esperança devegades, la v.de a. la temps d’espera i hem fer: equivalent buscar l’esperança de la v. a. a.puc temps d’espera hem de fer: Si agafo l’autobús moltesl’esperança vegades, em puc preguntar pel de temps mitjà d’espera; això és

és equivalent a buscar l’esperança d’e=spera E(X)de= lav. 10 i hem de fer: a.  =temps  equivalent a buscar l’esperança deE(X) la v. =a.E(X) temps d’espera i hem de= fer:    = 10 E(X) = == = = 10 = 10 E(X) =

=

= 10

3.2.2 Distribució exponencial 3.2.23.2.2 Distribució exponencial. Distribució exponencial 3.2.2 Distribució exponencial 3.2.2 Distribució exponencial

3.2.2 Distribució exponencial 

3.2.2 Distribució exponencial Definició. Una v. a. X segueix una distribució exponencial si la seva funció de densitat és:

   Definició. a. una exponencial si la seva funció densitat és: Definició. Una v. a. segueix una exponencial si lasiseva de densitat és: és: Definició. Una v. a. X X segueix segueix una distribució distribució exponencial si seva lafunció seva funció dedensitat densitat és: Definició. Una v.Una a. XXv. segueix unadistribució distribució exponencial la funció dede

λ λ   si la seva funció de densitat és: f(x) = exponencial Definició. Una v. a. X segueix una distribució    = f(x) = f(x) f(x) =   ≤   Aquesta funció depèn d’un paràmetref(x) #. =  #.  Aquesta depèn d’un Aquesta funció funció depèn d’un #. Aquesta funció depènparàmetre d’un paràmetre paràmetre #.  41 Aquesta funció depèn d’un paràmetre #.   

λ


Josep Maria Mateo Sanz Josep Maria Mateo JosepMateo MariaSanz Mateo Sanz Sanz Josep Josep Maria Maria Mateofunció Sanz depèn d’un Aquesta Josep Maria Mateo Sanz

Estadística pas Estadística pràctica pràctica pas aa pas pas Estadística Estadística pràctica pràctica pas pas aa pas pas Estadística pràctica pas a pas

paràmetre λ. Propietats. Si XXésésuna unav.v.a.a.exponencial: exponencial: Propietats. Si

Propietats. X v. és una v. a. exponencial: Propietats. Si una exponencial: Propietats. Si X X és ésSi una v. a. a. exponencial: Propietats. Si X és una v. a. exponencial: 1)= E(X) = 1) 1) 1) E(X) E(X) = 1) E(X) = 2) Var(X) = 2) 2) 2) Var(X) Var(X) == 2) Var(X) =

Exemple. Suposem que el temps que es tarda, en minuts, en canviar una roda seExemple. Suposem queamb el temps que es tarda, enLlavors minuts, en paràmetre canviar unade roda una v. a. gueix una v. a. exponencial mitjana 5 en minuts. el la v.segueix a. expoExemple. Suposem que es una una v. Exemple. Suposem que el el temps temps que que es tarda, tarda, en minuts, minuts, en en canviar canviar una roda roda segueix segueix una v. a. a. Exemple. Suposem que el temps que es tarda, en minuts, en canviar una roda segueix una v. a. nencial serà λ = 1/5. Si busquem la probabilitat que una persona tardi més de 6 minuts exponencialmitjana amb mitjana 5 minuts. Llavors el paràmetre de laexponencial v. a. exponencial serà # Si = 1/5. Si exponencial exponencial amb amb mitjana 55 minuts. minuts. Llavors Llavors el el paràmetre paràmetre de de la la v. v. a. a. exponencial serà serà #! == 1/5. 1/5. Si exponencial amb mitjana 5 minuts. Llavors el paràmetre de la v. a. exponencial serà # = 1/5. Si a canviar una roda, hem de fer: busquem la probabilitat una persona tardi de 6 minuts a canviar unahem roda, busquem la probabilitat que unaque persona tardi més demés 6 minuts a canviar una roda, dehem fer: de fer: busquem la probabilitat que una persona tardi més de 6 minuts a canviar una roda, hem de fer: busquem la probabilitat que una persona tardi més de 6 minuts a canviar una roda, hem de fer: " x# 1 x P(X 06 + 0.3 = 0,3 P(X>>6) 6) P(X == #> 6)e=$ 5dx dx== - edx" 5=| ==00++ = e " 5==0,3 P(X > 6) = dx =0+ = 0,3 6 = 6 5 !

! N(µ,!) ! general: 3.3 normal Llei normal 3.3 Llei normal general: N(µ,!) 3.3 Llei general: N(μ,σ) 3.3 Llei normal general: N(µ,!)

Definició. Unavariable variable aleatòria contínua XX es queesesdistribueix distribueix normalment, Definició. Una variable aleatòria contínua es diu diu que normalment, o que o segueix Definició. Una aleatòria contínua X es diu que es distribueix normalment, o que segueix Definició. variable aleatòria contínua es diu que que segueix lleiUna normal, la seva deXdensitat ésesdedistribueix la forma:normalment, o que segueix lleiuna normal, si la sevaside funció defunció densitat de la forma: una lleiuna normal, si la seva funció densitat és de laésforma: una llei normal, si la seva funció de densitat és de la forma: f(x)= La notarem N (µ, !). La notarem amb N amb (µ, !). "). La notarem amb N (µ, !).

La notarem amb N (μ, σ).

Propietats Propietats Propietats 2 Propietats 2, que són la seva esperança i variància, 1) La distribució depèn dos paràmetres i !són 1) La distribució normalnormal depèn de dos de paràmetres µ i !"22, µ que la seva esperança i variància, 2 2 1) distribució La distribució normaldepèn depèn de de dos dos paràmetres paràmetres µμi i!σ , que la la seva esperança 1) La normal , quesón són seva esperan-i variància, respectivament. respectivament. ça i variància, respectivament. respectivament. 22 = !22 E (X) =Eµ(X) = µ Var (X)Var = !"(X) 2 E (X) = μE (X) = µ Var (X) = σVar (X) = !2 2) La distribució normal és simètrica de la seva esperança µ. 2) La distribució normal és simètrica respecterespecte de la seva esperança µ. 2) La distribució normal és simètrica respecte de la seva esperança 2) La distribució normal és simètrica respecte de la seva esperança µ. μ. X és normal i a una - 0 constant, és una constant, · X és µ, |a| · !). ")N(µ, "). 3) Si X3) ésSi normal N(µ, !) i a -!!) 0 és a · X ésaN(a · µ,N(a |a| ·· !). 3) Si3)XSiésX normal N(μ, σ) i a ≠ 0 és una constant, a · X és |a| · σ). és normal N(µ, !) i - 0 és una constant, a · X és N(a N(a · µ, |a|· μ, · !). 4) Si X i X són normals N(µ , ! ) i N(µ , ! ) i independents, llavors X + X22 també és 11 22 2 normals N(µ11, !"11) i 11 N(µ11 22, !"22) i 22 independents, llavors X = X11 +=XX és 4) Si X11 i X22 són 2 1també 22 1 i X són normals N(µ , ! ) i N(µ , ! ) i independents, llavors X = X + X també és 4) Si X 4) Si X1 i X són normals N(μ1,1 σ1)1 i N(μ22, σ22) i independents, llavors X =1 X1 +2 1 2 2 +µ , ). D’aquesta propietat podem deduir el teorema següent: normal: N(µ normal: N(µ11+µ22, 11 22 ). D’aquesta propietat podem deduir el teorema següent: D’aquestapropietat propietat podem deduir el teorema X2 també és normal: normal: N(µ1+µ2, ).. D’aquesta podem deduir el teorema següent: Teorema de l’addició. Si una variable aleatòria, X, ésde suma de n variables independents, Teorema de l’addició. Si una variable aleatòria, X, és suma n variables normalsnormals independents, següent: Teorema de l’addició. Si22 una variable aleatòria, X, és suma de n variables normals independents, , amb mitjanes µii i variàncies !ii22distribuirà , X es distribuirà també normalment amb mitjana Xii, ambXiimitjanes µii i variàncies !"ii , X es també normalment amb mitjana igual aigual la a la 2 Xi, amb mitjanes µi i variàncies !i , X es distribuirà també normalment amb mitjana igual a la suma de mitjanes i variància a lade suma de variàncies, suma de mitjanes i variància igual a igual la suma variàncies, és a dir,és a dir, suma de mitjanes i variància igual a la suma de variàncies, és a dir, 42

37 37

37


Estadística pràctica pas a pas

Teorema de l’addició. Si una variable aleatòria, X, és suma de n variables normals intambé normalment amb dependents, X , amb mitjanes μi i variàncies σi2, X es distribuiràEstadística Josep Maria Mateoi Sanz pràctica pas a pas mitjana igual a la suma de mitjanes i variància igual a la suma de variàncies, és a dir, ,

X.N(

)

Exemple. Suposem que Noè ja ha embarcat quasi tots els animals a la seva arca i que només li

ja ha quasique totselselspesos, animals a la seva arca i falten Exemple. una parellaSuposem d’elefantsque i unaNoè parella deembarcat girafes. Sabem en quilos, d’aquests

que només li falten una parella d’elefants i una parella següents: de girafes. Sabem que els pesos, animals segueixen distribucions normals amb els paràmetres enXquilos, d’~aquests animals segueixen distribucions normals amb els paràmetres seN(5.150 , 400) elefant mascle güents: Xelefant femella ~ N(2.950 , 200)

Xgirafa , 150) , 400) ~ N(5150 Xmascle ~ N(1.200 elefant mascle

Xgirafa , 100) , 200) Xfemella ~ N(850 ~ N(2950 elefant femella

Si l’arca només té marge per augmentar en 11.000 quilos el seu pes de càrrega, quina distribució

Xgirafa mascle ~ N(1200 , 150)   té la variable que ~ modela el pes conjunt dels quatre animals? Xgirafa femella N(850 , 100)



Solució

  La variable que volem estudiar és elper pesaugmentar total dels quatre animals,quilos X. La variable X ésde la suma de Si l’arca només té marge en 11000 el seu pes càrrega,    , Xelefant femella Xgirafaconjunt quals segueixen distribucions les 4 variables Xelefanttémascle quina distribució la variable que, Xmodela dels quatre animals? girafa mascleeli pes femella, les  normals. Com que: 

Solució  La variable que volem estudiar és el pes total dels quatre animals, X. La variable X 5.150 + 2.950 + 1.200 + 850 = 10.150 i  és la suma de les 4 variables Xelefant mascle, Xelefant femella, Xgirafa mascle i Xgirafa femella, les quals seguei,  que:               xen distribucions normals.Com   la variable X seguirà una distribució normal amb els paràmetres següents: X ~ N(10.150 ,

482,18) i cal buscar P(X < 11.000).   +   +   +   =  

            

la variable X seguirà una distribució normal amb els paràmetres següents: X ~ N(10150,  482.18) i cal buscar P(X <  11000).

3.3.1 La normal estàndard: N(0,1)

Definició. La normal estàndard és la normal N(0,1) de mitjana 0 i desviació estàndard 1.

3.3.1 La normal estàndard: N(0,1).

També repnormal els noms de normal tipificada i de normal reduïda. Generalment és la normal que  N(0,1) 3.3.1 La estàndard:

es troba en les taules estadístiques. Al llarg del text la notarem amb Z.  

Definició. La normal estàndard és la normal N(0,1) de mitjana 0 i desviació estàndard  1. També rep els noms de normal tipificada i de normal reduïda. Generalment és la Qualsevol altra variable normal X que sigui N(µ,!) pot passar a normal reduïda fent el canvi: normal que es troba en les taules estadístiques. Al llarg del text la notarem amb Z. 

 43

D’aquesta manera obtenim: P(x1 + X + x2) = P(z1 + Z + z2) on

 

 µ

σ


Definició. La normal estàndard és la normal N(0,1) de mitjana 0 i desviació estàndard 1. Definició. La normal estàndard és la normal N(0,1) de mitjana 0 i desviació estàndard 1. També rep els noms de normal tipificada i de normal reduïda. Generalment és la normal que També rep els noms de normal tipificada i de normal reduïda. Generalment és la normal que Josep Maria Mateo Sanz en les taules estadístiques. Al llarg del text la notarem amb Z. es troba es troba en les taules estadístiques. Al llarg del text la notarem amb Z.

Qualsevol altra variable normal X que sigui N(μ,σ) passara anormal normal reduïda Qualsevol altra variable normal X que sigui N(µ,!) pot pot passar reduïda fent el canvi: Qualsevol altra variable normal X que sigui N(µ,!) pot passar a normal reduïda fent el canvi: fent el canvi:

Josep Maria Mateo Sanz

Estadística pràctica pas a pas

D’aquesta manera obtenim: Xx+ )x= P(z1≤+ Z Z +≤zz2)) on on D’aquesta manera obtenim: P(x P(x ≤X P(z 1 +≤ 2) = 1 2 D’aquesta manera obtenim: P(x on 1 + X + x2) 1= P(z1 + Z2 + z2) Exemple: suposem que el pes, en quilos, de les persones de certa població segueix una distribució normal N(72 18) i volem trobar la probabilitat una persona triada a l’atzar Exemple: suposem que Xel~pes, en, quilos, de les persones de certaque població segueix 38 38 pesi entre 65 i X 75~quilos. buscar aquesta probabilitat sique hemuna de treballar una distribució normal N(72Com , 18)caldria i volem trobar la probabilitat personaamb la taula triada a l’atzar entre 65 i 75 quilos. Com caldria buscar aquesta probabilitat si hem de lapesi normal estàndard? de treballar amb la taula de la normal estàndard? Solució

Solució Cal estandarditzar valors mitjançant transformació .. En En aquest cas, Cal estandarditzar els els valors i 75i 75 mitjançant    65 65   lalatransformació  aquest cas, tindrem: tindrem:

  = −     =     i ≤≤≤≤ Per és tant, el mateix buscar P(65 75) que que buscar + Z≤+Z0,17). Per tant, el és mateix buscar P(65 ≤ +XX≤+75) buscarP(–0,39 P(–0.39 ≤ 0.17). 

 

3.4 Distribucions deduïdes de la normal. 3.4 Distribucions  3.4 Distribucions deduïdes dededuïdes la normalde la normal 3.4.1 khi khi-quadrat. quadrat 3.4.1 Distribució Distribució

3.4.1 Distribució khi quadrat

χm2 = Definició. Siguin Z1, ..., Zm v. a. N(0,1) independents i considerem la variable         2 2 2 +...+ Z . Es diu que χ és la v. a. amb distribució khi quadrat amb m graus de Z 1 m  Siguin Zm1, ..., Zm v. a. N(0,1) independents i considerem lavariable $m2 = Z12 +...+ Zm2.  Definició. llibertat. 2  Es diu que $m és la v. a. amb distribució khi quadrat amb m graus de llibertat.

  Propietats     E (χ  2) = m Var (χ 2) = 2m    Propietats 1) m m        2 = mindependents Var ($m2) = 2m  2) Si χ1) 2Ei ($ χm2 )són amb m i n graus de llibertat, llavors χ 2 = χ

m

n

m+n

2

m

+

$ i $ són independents amb m i n graus de llibertat, llavors $ = $ + $n , és a dir, la  2 , és a dir,2)laSisuma χ és una altra khi quadrat amb graus de llibertat la suma dels graus n

de llibertat.

2 m

2 n

2 m+n

2 m

2

suma és una altra khi quadrat amb graus de llibertat la suma dels graus de llibertat.

3.4.2 Distribució t de Student. 

    3.4.2 Distribució t de Student



Definició. Sigui Z una v.  a. amb distribució N(0,1). Sigui $m2 una altra variable amb distribució  khi quadrat amb m graus de llibertat.Suposem Z i $m2 independents. Es defineix la distribució t    de Student amb m graus de llibertat  la que segueix la v. a. χ44 com




Estadística pràctica pas a pas

3.4.2 Distribució t de Student Definició. Sigui Z una v. a. amb distribució N(0,1). Sigui χm2 una altra variable amb distribució khi quadrat amb m graus de llibertat. Suposem Z i χm2 independents. Es deJosep Maria Mateo Sanz Estadística pràctica pas a pas fineix la distribució t de Student amb m graus de llibertat com la que segueix la v. a.

Josep Maria Mateo Sanz

Estadística pràctica pas a pas

Propietats Propietats 1) L’esperança Propietatsi variància existeixen per a m > 1 i m > 2, respectivament.

1) L’esperança i variància existeixen am 1 >i m 1) L’esperança i variància existeixen per 1 isim > 2,>m respectivament. E(t) = 0a m >per 1 > 2, respectivament. E(t) 0/ 0 1 >2 Var(t) ==m= (m – 2) E(t) sisi si mm>>1m

Var(t) (m Var(t) =m m //és (m ––2)2) si si 2) La distribució límit de t, per am= & *, N(0,1).

mm > 2> 2

2) La distribució límit de t,límit per ade m t, &per *, és N(0,1). 2) La distribució am → ∞, és N(0,1).

3.4.3 Distribució F de Fisher-Snedecor 3.4.3 Distribució de Fisher-Snedecor 3.4.3 Distribució F deFFisher-Snedecor

Definició. Sigui U una v. a. amb distribució $m2 i V una altra v. a. amb distribució $n2. Suposem

2 χ 2 i Valtra unav. v.ma. amb distribució χnal. Definició. Sigui unav. v.a. a.amb amb distribució Definició. una distribució Vmuna a. amb distribució . Suposem que U i VSigui sónUU independents. Es defineix $la Faltra amb graus de$nllibertat m idistribució

2

2

Suposem que U i V són independents. Es defineix la distribució F amb m graus de llibertat al numerador i n graus de llibertat al denominador com a:

que U i V són independents. Es aldefineix la distribució numerador i n graus de llibertat denominador com a: F amb m graus de llibertat al numerador i n graus de llibertat al denominador com a: F= U/m F == F V / n g. l. i es nota com a Fm,n. També es diu que F té m i n graus de llibertat o (m,n)

. com a F . TambéTambé es diu que F téque m i nFgraus o (m,n) g. l. ioes nota com Fm,n es diu té m de i nllibertat graus de llibertat (m,n) g. l. iaes nota m,n Propietats

Propietatsi variància existeixen per a n > 1 i n > 4, respectivament. Propietats 1) L’esperança

1) L’esperança i variància existeixen per a>n4, 1) L’esperança i variància existeixen per =a n > 1 i–n2) E(F) / (n si>respectivament. n2>i 2n > 4, respectivament. E(F) = n / (n – 2) si n > 2 si n > 4 Var(F) = Var(F) = si n > 4 2) Si F té distribució Fm,n, llavors 1/F té la distribució Fn,m. La relació entre Fm,n i Fn,m és:

Fn,m=. P(F La relació entre Fm,n i Fn,m és: 2) Si F té distribució Fm,n, llavors P(Fm,n +1/F x) té = 1la–distribució P(Fn,m + 1/x) n,m > 1/x)

2) Si F té distribució Fm,n, llavors 1/F té la distribució Fn,m. La relació entre Fm,n 2 – P(F + 1/x) = P(Fn,m > 1/x) distribució límit de FP(F n =&1 * és $n,m m,n + x) m,n quan m . és: i3)FLa n,m 2 3) La distribució límit de quan n& és $n,m x) = 1 –*P(F P(FFm,n m,n ≤ m . ≤ 1/x) = P(Fn,m > 1/x) quan n → ∞ és χm2. del límit central La distribució límit Fm,nnormal: 3.5 3) Convergència a lade llei teorema 3.5 Convergència a la llei normal: teorema del límit central

Enunciarem un teorema que, sota certes condicions, permet realitzar la substitució d’una variable aleatòria binomial per una de normal. Aquest teorema rep el nom de teorema de Enunciarem un teorema que, sota certes condicions, permet realitzar la substitució d’una 45 Laplace - De Moivre. variable aleatòria binomial per una de normal. Aquest teorema rep el nom de teorema de Laplace - De Moivre.


Josep Maria Mateo Sanz

3.5 Convergència a la llei normal: teorema del límit central

Enunciarem un teorema que, sota certes condicions, permet realitzar la substitució d’una variable aleatòria Josep binomial per una deMateo normal. de Estadística Josep Maria SanzAquest teorema rep el nom de teoremaEstadística pràct JosepMateo Maria Mateo Sanz pa Maria Sanz Estadística pràcticapràctica pas a pas Laplace - De Moivre.

Teorema de Laplace - De Moivre. Sigui Xn una variable aleatòria binomial de pa

Teorema de Laplace - De Moivre. Xvariable aleatòria binomial de paràme - De Moivre. Sigui XSigui aleatòria binomial de paràmetres n n una variable n unaaleatòria variable binomial de paràTeorema de Teorema Laplace -deDeLaplace Moivre. Sigui Xn una

(per tant, amb mitjana np i desviació típica). La distribució La de distribució la variab ). La ). distribució de la de variable ale la variable aleatòria

(peramb tant, amb np mitjana np i desviació mitjana npi desviació i desviació típica típica metres n i p (per (per tant,tant, amb mitjana típica

. La distribució de la

tendeix una normal )que a mesura que nacap a infin tendeix unaanormal normal N(np,N(np, ) a mesura ) aa mesura mesura que fem na ncap infinit ma aanormal una que femtendir tendir variable aleatòriatendeix Xn tendeix a una N(np, fem tendir nfem captendir infinit mantenin

cap a infinit mantenint poconstant n constant o Xn oo XN(np, N(np,N(np,). constant Xconstant n

).

)..

Exemple. Suposem que la probabilitat que una peça sigui defectuosa és del 0.02. Exemple. Suposem la probabilitat quesigui una defectuosa peça defectuosa del 0,S laque probabilitat quepeça una peça sigui sigui defectuosa delésSi 0,02. Suposem laque probabilitat és del és 0,02. agaf Si agafem 20000Exemple. peces,Exemple. quina ésSuposem la que probabilitat que: que una 20.000 quina és la probabilitat que: 20.000 peces, quina és la probabilitat 20.000 peces, quinapeces, és la probabilitat a) El nombre de peces defectuoses sigui 410?que: que: El peces nombre de peces defectuoses 410? a) El a) nombre de defectuoses peces defectuoses siguiisigui 410? a) El de sigui 410? b) El nombre denombre peces defectuoses estigui entre 400 450? El peces nombre de peces defectuoses entre b) El b) nombre de defectuoses peces defectuoses entre 400 i 400 450?i 450? b) El nombre de estiguiestigui entreestigui 400 i 450?

Solució: Solució: a) La variable X,Solució: nombre de peces defectuoses, segueix una distribució binomial Solució: B(20000, 0.02), però, com n =variable 20000 és prou aproximar la distribució a)variable La X, de podem peces defectuoses, una distribució binom Laque X, nombre degran, peces defectuoses, una distribució binomial B a) La a) variable X, nombre de nombre peces defectuoses, segueixsegueix unasegueix distribució binomial B(20.00 binomial per una distribució normal X , en aquest cas, de paràmetres N(400, 19.8). però, com nés=prou 20.000 éspodem prou gran, podem la binomial distribució normal però,que com que nque = 20.000 ésgran, prou gran, podem aproximar la distribució binomia 0,02), 0,02), però, 0,02), com n= 20.000 aproximar laaproximar distribució perbin u Per tant, serà pràcticament el mateix buscar P(X = 410) amb la distribució binomial que distribució normal X , en aquest cas, de paràmetres N(400, 19,8). Per tant, ser , normal en aquest cas, de paràmetres N(400, 19,8). Perserà tant,pràcticam serà pràc distribució normal Xnormal,Xen aquest cas, paràmetres N(400,quan 19,8).busquem Per tant, normal 410) ambnormal la distribució normal. El de problema apareix buscar P(Xnormal =distribució el mateix = 410) amb la binomial distribució binomial que buscar P(X=normal buscar =P(X 410) la distribució binomial que buscar P(X 410) 410= buscar P(X buscar =P(X 410) amb distribució que buscar P(Xés amb queellamateix probabilitat en un puntlaamb de qualsevol distribució contínua P(Xnormal = 410), elja mateix normal =normal distribució normal. Elapareix problema apareix quan busquem P(X=normal = 410), jalaque la 410), ja proba distribució normal. El problema apareix quan busquem P(X 0. Per solucionardistribució aquest problema, apareix sempre que aproximem una normal. Elque problema quan busquem P(X =distribució 410), ja que la que probabilitat normal normal un punt dedistribució qualsevol distribució és Per aquest solucionar problema discreta per una un distribució contínua, haurem d’usar la correcció per queaquest un de punt de qualsevol distribució contínua és 0.solucionar Per0.continuïtat, solucionar aquest problema, que punt qualsevol contínua éscontínua 0. Per problema, que apare implica que cadasempre valorsempre xque desempre laque variable discreta auna ssocia a l’interval (x –per0.5 + 0.5) que aproximem distribució una, xcontínua, distribució contínua, hau aproximem una s’distribució discreta per una distribució contínua, haurem aproximem una distribució discreta perdiscreta una distribució haurem d’usar quan l’aproximem a una distribució contínua. Enque el nostre cas, serà el variable correcció per continuïtat, que queaproximadament cada la discre correcció per continuïtat, implica que valor cada de xlade variable discreta s’ correcció per continuïtat, que implica queimplica cada xvalor de valor lax variable discreta s’associa ≤ 410.5). mateix buscar P(X = 410) l’interval que buscar P(409.5 ≤ X (x –, x0,5 ,0,5) x +l’aproximem 0,5)normal quan l’aproximem una contínua. distribució el se n l’interval (x ,–x0,5 +quan quan l’aproximem a unaadistribució contínua. En elEn nostre l’interval (x – 0,5 + 0,5) a una distribució Encontínua. el nostre cas, b) Actuant de la mateixa manera que en l’ a partat anterior, serà aproximadament el " 410,5 aproximadament el mateix buscar = que 410)buscar que buscar " X"normal 410,5). aproximadament el mateix buscar P(X 410) P(409,5 " X 410,5). aproximadament mateix buscar P(X = 410)=P(X buscar P(409,5 " XP(409,5 normal " normal ≤ 450.5). mateix buscar P(400 ≤ X ≤ 450)el que buscar P(399.5 ≤ Xque normal

b) la Actuant la mateixa que en l’apartat anterior, serà aproximadament el b) Actuant de la de mateixa manera en l’apartat anterior, serà aproximadament el mate b) Actuant de mateixa manera quemanera enque l’apartat anterior, serà aproximadament el mateix bus "450) X buscar " que 450)buscar que buscar " X"normal " 450,5). " X "que P(399,5 "" Xnormal 450,5). P(400 P(400 " X "P(400 450) P(399,5 " XP(399,5 450,5). normal

3.5.1 Teorema del límit central Una generalització del teorema deTeorema Laplace és la que es coneix amb el nom 3.5.1 delMoivre límit central Teorema del- De límit central 3.5.1 3.5.1 Teorema del límit central de teorema del límit central. Aquest teorema se sol aplicar quan n ≥ 30.

Una generalització del de Laplace De Moivre la es queconeix es coneix Una generalització del teorema de Laplace - De -Moivre és laesés que el Una generalització del teorema de teorema Laplace - De Moivre és la que coneix amb elamb nomam del central. límit central. Aquest teorema sol aplicar n % 30. teorema delcentral. límit Aquest teorema se solseaplicar n % 30. teorema delteorema límit Aquest teorema se sol aplicar quan nquan % 30.quan

46, X2X Si X Xn, variables sónaleatòries variables aleatòries independents, d’esperance Teorema , són aleatòries independents, d’esperances Teorema 1.Teorema Si X1.1, Si X21. ,X..., són, n..., variables independents, d’esperances E(Xi) =E(X µ 1, XX 2,n1,..., 2 variàncies =i ! i..., = 1, n, llavors sota certes condicions generals, 2 ) = !i 2) finites, variàncies Var(X i =n,1,llavors n, ..., llavors sota certes condicions generals, s’obt variàncies Var(X ) = !Var(X =i 1,finites, ..., sota certes condicions generals, s’obté que: i finites, i i

i


Estadística pràctica pas a pas

Teorema 1. Si X1, X2, ..., Xn, són variables aleatòries independents, d’esperances E(Xi) = μi i variàncies Var(Xi ) = σi2 finites, i = 1, ..., n, llavors sota certes condicions Josep Maria Mateo Sanz Estadística pràctica pas a pas generals, obté Sanz que: Josep Maria s’Mateo Estadística pràctica pas a pas Josep Maria Mateo Sanz

Estadística pràctica pas a pas

Teorema 2. Si X2. ...,1, XXn 2són aleatòries aleatòries independents, que provenenque de laprovenen mateixa Teorema Si2, X , ...,variables Xn són variables independents, 1, X Teorema 2. Si X1, X2, ..., Xn són variables aleatòries independents, que provenen de la mateixa 2 σ llavors, finites,sota i= de la mateixa amb esperança E(Xi) = μi) i=variància !2 finites,Var(X i = 1,i)...,= n, distribució, ambdistribució, esperança E(X i) = µ i variància Var(X 2 distribució, amb sota esperança E(X Var(X ! finites, i = 1, ..., n, llavors, sota i) = µ i variància i) =que: 1, ..., n, llavors, certes condicions generals, s’obté certes condicions generals, s’obté que: X2, ..., Xs’obté aleatòries independents, que provenen de la mateixa Teorema 2. Si X1,generals, n són variables certes condicions que: distribució, amb esperança E(Xi) = µ i variància Var(Xi) = !2 finites, i = 1, ..., n, llavors, sota

Exemple. Suposem que es vol anarque: de Tarragona a Montserrat (100 quilòmetres) en una cursa de certes condicions generals, s’obté Exemple. Suposem que es vol anar de Tarragona a Montserrat (100 quilòmetres) en una cursa de relleus on cada atleta participant fa un quilòmetre. Cada atleta tarda a fer un quilòmetre una relleusExemple. on cada atleta participant quilòmetre. Cada atleta tarda a fer(100 un quilòmetre una Suposem quedesviació esfavolunanar de Tarragona a Montserrat quilòmetres) mitjana de 4 minuts amb una estàndard de 0,5 minuts. Quina distribució segueix la Exemple. que eson volcada anar de Tarragona a Montserrat (100 Quina quilòmetres) una cursa mitjana deSuposem 4 minuts amb una desviació estàndard de 0,5 minuts. distribució segueix laa en una cursa de relleus atleta participant fa un quilòmetre. Cadaenatleta tardade variable “temps total per fer els 100 quilòmetres de recorregut”? relleus on cada total atleta participant faquilòmetres quilòmetre. Cada atleta tarda a fer un de quilòmetre una fer un quilòmetre una mitjana de 4unminuts amb una desviació estàndard 0.5 minuts. variable “temps per fer els 100 de recorregut”? Solució Quina variable estàndard “temps total perminuts. fer els Quina 100 quilòmetres de recormitjana distribució de 4 minuts segueix amb unaladesviació de 0,5 distribució segueix la Solució La variable X que modela el temps total a fer els 100 quilòmetres de recorregut és la suma de les regut”? variable “temps total per fer 100total quilòmetres La variable X que modela el els temps a fer els de 100recorregut”? quilòmetres de recorregut és la suma de les variables que modelen el temps que triga cada atleta a fer un quilòmetre, i encara que la Solució que modelen el temps que triga cada atleta a fer un quilòmetre, i encara que la variables Solució distribució del temps de cada atleta no segueixi una normal, com que tenim que n = 100, podem La variable X que modela el temps total a fer elsuna 100normal, quilòmetres de recorregut sumapodem de les distribució del temps atleta el no segueixi com que tenim queésn la = 100, La variable X de quecada modela fer l’aproximació del teorema anterior:temps total a fer els 100 quilòmetres de recorregut és variables que elque temps que triga cada atleta a fercada un quilòmetre, que la fer l’aproximació del teorema anterior: la suma de lesmodelen variables modelen el temps que triga atleta a fer iunencara quilòmetre, del la temps de cada atleta no segueixi una atleta normal,nocom que tenim n = 100, podem idistribució encara que distribució del temps de cada segueixi unaque normal, com que tenim que n = 100, podemanterior: fer l’aproximació del teorema anterior: fer l’aproximació del teorema

Teorema 3. Si X1, X2, ..., Xn són variables aleatòries independents, que provenen de la mateixa Teorema 3. Si X1, X2, ..., Xn són variables aleatòries independents, de la mateixa ) quei provenen  + X 100Var(X ~ Ni)(400 ) == µXi1 + variància = !2,5finites, = 1, ..., n, llavors, sota distribució, amb esperança E(XiX distribució, amb esperança E(Xi) = µ i variància Var(Xi) = !2 finites, i = 1, ..., n, llavors, sota certes condicions generals, s’obté que: X ...,, XX aleatòries aleatòries independents, que provenenque de laprovenen mateixa Teorema 3. Si X3. 1,generals, n són certes condicions s’obté que: Teorema Si2, X , ...,variables X són variables independents, 1

2

n

distribució, ambdistribució, esperança E(X µ i variància !2 finites,Var(X i = 1, )...,= n, ) = μi) i=variància σ2llavors, finites,sota i= de la mateixa amb esperança E(XVar(X i) = i i 1, ..., n, llavors, sota certes condicions generals, s’obté que: certes condicions generals, s’obté que:

Exemple. Suposem que el temps mitjà diari que triga un estudiant a anar de casa seva a la Exemple. Suposem que el temps mitjà diari que triga un estudiant a anar de casa seva a la facultat és de 23 minuts amb una desviació estàndard de 4 minuts. Si observem aquest estudiant facultat és de 23 minuts amb una desviació estàndard de 4 minuts. Si observem aquest estudiant durant 60 dies, quina distribució segueix la variable “temps mitjà durant 60 dies a fer el trajecte Exemple. Suposem el tempssegueix mitjà diari que triga un mitjà estudiant a anar de acasa seva a la durant 60 dies, quinaque distribució la variable “temps durant 60 dies fer el trajecte de casaExemple. seva a laSuposem facultat”? que el temps mitjà diari que triga un estudiant a anar de casa seva és deaés23 minuts amb una estàndard de 4 minuts. Si observem aquest estudiant de seva ladefacultat”? afacultat lacasa facultat 23 minuts ambdesviació una desviació estàndard de 4 minuts. Si observem aquest durant 60 dies, quina distribució segueix la variable “temps mitjà durant 60 dies a fer el trajecte Solució de casa seva a la facultat”? Solució La variable que modela el temps mitjà durant 60 dies a fer el trajecte de casa de l’estudiant La variable que modela el temps mitjà durant 47 60 dies a fer el trajecte de casa de l’estudiant aSolució la facultat és la mitjana de les variables que modelen el temps que triga cada dia a fer aquest a la facultat és la mitjana de les variables que modelen el temps que triga cada dia a fer aquest que modela el temps mitjà durant 60 dies a fer el trajecte de casa de l’estudiant La variable


 σ   +  +    =   →   µ    →∞  mitjà diari que triga Exemple. Suposem que el temps a anar de casa seva a la  unestudiant 

Josep Maria Mateo Sanz

facultat és de  23 minuts amb una desviació de 4 minuts. Si observem      estàndard        aquest  estudiant 

durant 60 dies, quina distribució segueix la variable “temps mitjà durant 60 dies a fer el trajecte 

estudiant durant 60 dies, quina distribució segueix la variable “temps mitjà durant 60 dies de casa seva a la facultat”?  a fer el trajecte de casa seva a la facultat”? 

Solució  Solució

Lavariable variable que modela modela eleltemps mitjà durant 60 diesdies a fer el  trajecte de casa de l’estudiant temps mitjà durant 60 a fer el trajecte de casa de La     que            

l’ estudiant a la facultat és la mitjana les variables que modelen temps a la facultat és la mitjana de les de variables que modelen el tempselque trigaque cadatriga dia acada fer aquest dia a fer aquest trajecte, i encara que la distribució del temps diari no segueixi una normal,  com que tenim que n = 60, podem fer l’aproximació del teorema anterior:  42  +  +     =   ( )  

Observacions 

1) El teorema de Laplace - De Moivre és un cas particular del teorema central del 

límit, perquè una variable aleatòria binomial és suma de variables aleatòries de Berno uilli independents.



2) El teorema de l’addició es refereix a la distribució d’una variable suma de diverses variables normals independents que és exactament normal, mentre que el teorema  central del límit es refereix a la d’una variable suma de diverses variables independents,          però  no necessàriament normals, que s’aproximarà a la normal d’una manera millora  mesura que augmentem el nombre de sumands.



3.6 Ús Úsde deles les taules estadístiques. 3.6 taules estadístiques 

3.6.1 La taula normal estàndard Aquesta taula la farem servir quan treballem amb v. a. normals. Si la normal amb la qual   estem treballant no és estàndard, podem transformar-la perquè ho sigui. La columna de l’esquerra correspon als punts z, amb un decimal, a partir dels quals volem trobar la probabilitat, i la fila de dalt correspon al segon decimal dels punts z. Els valors que hi ha al mig de la taula són les probabilitats associades a l’interval [z,∞). Exemples a) Suposem que Z ~ N(0,1) i busquem P(Z ≥ 1.67). Amb la taula podem trobar aquesta probabilitat directament. A la columna de l’esquerra mirem la fila corresponent a 1.6 i dintre d’aquesta fila mirem quina àrea està associada quan a dalt hi ha el valor 7 (el qual és el segon decimal). Veiem que l’àrea associada és 0.0475. Per tant,

48


Estadística pràctica pas a pas

P(Z ≥ 1.67) = 0.0475.

b) Suposem que Z ~ N(0,1) i busquem P(Z ≤ –1.67). Com que la normal estànJosep Maria Sanz Estadística pràctica pas dard és simètrica respecte al 0, Mateo la probabilitat que hi ha entre –∞ i –1.67 és la mateixa que hi ha entre 1.67 i ∞. Per tant, puc calcular aquesta última com hem fet a l’exemple b) Suposem que Z . N(0,1) i busquem P(Z + –1,67). Com que la normal estàndard és si a) i obtenim:

respecte al 0, la probabilitat que hi ha entre –* i –1,67 i 0 és la mateixa que hi ha entr

P(Z ≤ –1.67) = P(1.67 ≤ Z) = 0.0475.

*. Per tant, puc calcular aquesta última com hem fet a l’exemple a) i obtenim:

c) Suposem que Z ~ N(0,1) i busquem P(0.54 ≤ Z ≤ 1.67). Amb la taula podem P(Z + –1,67) = P(1,67 + Z) = 0,0475. trobar les probabilitats que hi ha entre 0.54 i ∞ i entre 1.67 i ∞. A nosaltres ens interesc) Suposem que Z . N(0,1) i busquem P(0,54 + Z + 1,67). Amb la taula podem tro sa la probabilitat que hi ha entre 0.54 i 1.67 i aquesta probabilitat la podem aconseguir probabilitats i *entre i entre 1,67i i∞. *.Per A nosaltres restant de l’àrea que hi ha entre 0.54que i ∞hil’àha reaentre que0,54 hi ha 1.67 tant: ens interessa la prob

hi ha entre 0,54 i 1,67 i aquesta probabilitat la podem aconseguir restant de l’àre P(0.54 ≤ Z ≤ 1.67) =que P(Z ≥ 0.54) – P(Z ≥ 1.67) = 0.2946 – 0.0475 = 0.2471 ha entre 0,54 i * l’àrea que hi ha entre 1,67 i *. Per tant:

d) Suposem que Z ~ N(0,1) i busquem P(–1.67 ≤ Z ≤ –0.54). Com que la norP(0,54al+ 0, Z +la1,67) = P(Z # 0,54) 1,67)–1.67 = 0,2946 – 0,0475 = 0,2471 mal estàndard és simètrica respecte probabilitat que –hiP(Z ha #entre i –0.54 Suposem Z . Per N(0,1) i busquem P(–1,67 + Z +última –0,54).com Comhem que la normal estàn és la mateixa que hi had)entre 0.54que i 1.67. tant, puc calcular aquesta fet a l’exemple c) i obtenim: simètrica respecte al 0, la probabilitat que hi ha entre –1,67 i –0,54 és la mateixa qu

i 1,67.=Per tant, puc calcular aquesta última com hem fet a l’exemple c) i ob P(–1.67entre ≤ Z 0,54 ≤ –0.54) P(0.54 ≤Z ≤ 1.67) = 0.2471

P(–1,67 + Z +≤–0,54) = P(0,54 + Zla+ taula 1,67) =podem 0,2471 e) Suposem que Z ~ N(0,1) i busquem P(–0.54 Z ≤ 1.67). Amb e) Suposem Z . –∞ N(0,1) i busquem P(–0,54 Z+ Ambens la taula podem tro trobar les probabilitats que hi haque entre i –0.54 i entre 1.67 i+∞. A 1,67). nosaltres interessa la probabilitat probabilitats que hi ha entre –0.54 i 1.67 que hi ha entre –*i aquesta i –0,54 iprobabilitat entre 1,67 i la*.podem A nosaltres ens inte aconseguir restant d’1 l’àprobabilitat rea que hi que ha entre 1,67 –0,54 i ∞ i l’ià1,67 rea que hi haprobabilitat entre –∞ ila–0.54. hi ha entre i aquesta podem aconseguir res Per tant:  

l’àrea que hi ha entre 1,67 i * i l’àrea que hi ha entre –* i –0,54. Per tant: 



P(–0.54 ≤ ZP(–0,54 ≤ 1.67)+ = – (P(Z –0.54) + P(Z ≥ 1.67)) == 1 – (0,2946 + 0,0475) = 0,6 Z +1 1,67) =1≤ – (P(Z + –0,54) + P(Z # 1,67)) 1 – (0.2946 +  0.0475) = 0.6579   ∼ ≤ f) Suposem que Z . ≤N(0,1) i busquem P(0 + Z + 1,67). A la taula trobem la probabilita f) Suposem ∞que Z ha ~ N(0,1) i busquem P(0que ≤ Zla≤probabilitat 1.67). A laque taula trobem pro  entre 1,67 i * i sabem Z sigui més la gran que 0 és 0,5. A n babilitat que hi ha entre 1.67 i ∞ i sabem que la probabilitat que Z sigui més gran que          que       probabilitat la ens interessa la probabilitat Z estigui entre 0 i 1,67  i aquesta 0 és 0.5. A nosaltres ens interessa la probabilitat que Z estigui entre 0 i 1.67 i aquesta  ∞ aconseguir restant de 0,5 l’àrea que hi ha entre 1,67 i *. Per tant: probabilitat la podem aconseguir restant de 0.5 l’àrea que hi ha entre 1.67 i ∞. Per tant: ≤≤ P(0 + Z + 1,67) = 0,5 – 0,0475 = 0,4525.

P(0 ≤ Z ≤ 1.67) = 0.5 – 0.0475 = 0.4525.

≤≤  ∼ g) Suposem que X . N(50,12) i busquem P(44 + X + 58). La v. a. no és una normal està

g) Suposem que X ~ N(50,12) i busquem P(44 ≤ X ≤ 58). La v. a. no és una nor µ dades. dades.Sabem  és perhem tant,de hem de transformar Sabemque que és una unanormal estàndar mal estàndard i, per tant, transformar lesles σ normal estàndard i hem de fer: 

de fer:

≤≤ 

  µ   ≤ P(44 ≤+ X + 58)≤= P( + + ≤) = P(–0,5 + Z + 0,67). σ  

 Una vegada hem passat les dades a una normal estàndard, ja podem treballar amb la ta

≤≤  P(–0,5≤+ Z + 0,67) = 1– (P(Z + –0,5) + P(Z # 0,67)) = 1 – (0,3085 + 0,2514) = 0,44 49 h) Suposem que Z . N(0,1) i busquem un punt z de manera que P(Z # z) = 0,0918.    ∼

donen la probabilitat i hem de trobar el punt. Per la dada que ens donen sabem que e 


Josep Maria Mateo Sanz

Una vegada hem passat les dades a una normal estàndard, ja podem treballar amb la taula: P(–0.5 ≤ Z ≤ 0.67) = 1– (P(Z ≤ –0.5) + P(Z ≥ 0.67)) = 1 – (0.3085 + 0.2514) = 0.4401 h) Suposem que Z ~ N(0,1) i busquem un punt z de manera que P(Z ≥ z) = 0.0918. Ara ens donen la probabilitat i hem de trobar el punt. Per la dada que ens donen sabem que el punt z serà un nombre positiu. Hem de buscar a l’interior de la taula l’àrea 0.0918 i veure amb quin punt es correspon. El punt és z = 1.33. i) Suposem que Z ~ N(0,1) i busquem un punt z de manera que P(Z ≥ z) = 0.8238. Ara sabem que el punt z serà un nombre negatiu. Com que la taula només treballa amb nombres positius, haurem d’usar la simetria de la normal. El punt z que compleix P(Z ≥ z) = 0.8238 també compleix que P(Z ≤ z) = 0.1762. Hem de buscar un punt positiu z’ de manera que P(Z ≥ z’) = 0.1762 i després canviar-li el signe, ja que es complirà que z = –z’. Buscant a l’interior de la taula l’àrea 0.1762, obtenim el punt z’ = 0.93 i, per tant, el punt z que es busca és z = –0.93. j) Suposem que Z ~ N(0,1) i busquem un punt z de manera que P(Z ≤ z) = 0.9207. Ara sabem que el punt z serà un nombre positiu, però ens estan donant l’àrea acumulada fins al punt (l’àrea de l’esquerra) i la taula treballa amb l’àrea de la dreta. El punt z que compleix P(Z ≤ z) = 0.9207 també compleix que P(Z ≥ z) = 0.0793. Hem de buscar a l’interior de la taula l’àrea 0.0793 i veure amb quin punt es correspon. El punt és z = 1.41. k) Suposem que Z ~ N(0,1) i busquem un punt z de manera que P(Z ≤ z) = 0.3228. Ara sabem que el punt z serà un nombre negatiu i haurem d’usar la simetria de la normal per trobar-lo. Hem de buscar un punt positiu z’ de manera que P(Z ≥ z’) = 0.3228 i després canviar-li el signe, ja que es complirà que z = –z’. Buscant a l’interior de la taula l’àrea 0.3228 obtenim el punt z’ = 0.46 i, per tant, el punt z que es busca és z = –0.46.

3.6.2 La taula khi quadrat Aquesta taula la farem servir quan treballem amb una v. a. Khi quadrat. Aquesta taula té unes característiques diferents de la taula anterior. La columna de l’esquerra correspon als graus de llibertat de la χ2 amb la qual treballem. La fila de dalt correspon a les probabilitats que hi ha entre el punt amb el qual estem treballant i ∞. Els valors que hi ha al mig de la taula són els punts associats a les probabilitats de la fila superior. 50


Estadística pràctica pas a pas

Exemples a) Suposem que X ~ χ214 i busquem P(X ≥ 7.8). Hem d’agafar la fila corresponent als 14 graus de llibertat. Si busquem el punt 7.8 en aquesta fila, veiem que té una probabilitat associada de 0.9: P(X ≥ 7.8) = 0.9 b) Suposem que X ~ χ214 i busquem P(X ≤ 7.8). Aquest succés és el complementari de l’anterior i, per tant, hem de restar d’1 la probabilitat anterior: P(X ≤ 7.8) = 1 – P(X ≥ 7.8) = 1 – 0.9 = 0.1 c) Suposem que X ~ χ214 i busquem un punt x, de manera que P(X ≥ x) = 0.1. Ara ens donen la probabilitat i hem de trobar el punt i, per tant, hem de buscar a la fila superior l’àrea 0.1 i veure amb quin punt es correspon. El punt és x = 21.1. d) Suposem que X ~ χ214 i busquem un punt x de manera que P(X ≤ x) = 0.75. Ara ens donen la probabilitat que la v. a. sigui més petita que un punt. La taula ens dóna les probabilitats dels successos contraris i hem de trobar el punt de manera que P(X ≥ x) = 1 – P(X ≤ x) = 1 – 0.75 = 0.25 i el punt és x = 17.1.

3.6.3 La taula t de Student Aquesta taula la farem servir quan treballem amb una v. a. t de Student. Aquesta taula té unes característiques semblants a la taula anterior, però cal tenir en compte que la distribució t de Student és simètrica respecte al zero. La columna de l’esquerra correspon als graus de llibertat de la t de Student amb la qual treballem. La fila de dalt correspon a les probabilitats que la v. a. sigui més gran que el punt amb el qual estem treballant. Els valors que hi ha al mig de la taula són els punts associats a les probabilitats de la fila superior. Exemples a) Suposem que X ~ t de Student amb 14 graus de llibertat i busquem P(X ≥ 2.14). Hem d’agafar la fila corresponent als 14 graus de llibertat. Si busquem el punt 2.14 en aquesta fila veiem que té una probabilitat associada de 0.025: P(X ≥ 2.14) = 0.025 b) Suposem que X ~ t de Student amb 14 graus de llibertat i busquem P(X ≤2.14). Aquest succés és el complementari de l’anterior i, per tant, hem de restar d’1 la probabilitat anterior: P(X ≤ 2.14) = 1 – P(X ≥ 2.14) = 1 – 0.025 = 0.975 51


Josep Maria Mateo Sanz

c) Suposem que X ~ t de Student amb 14 graus de llibertat i busquem un punt x de manera que P(X ≥ x) = 0.1. Ara ens donen la probabilitat i hem de trobar el punt i, per tant, hem de buscar a la fila superior l’àrea 0.1 i veure amb quin punt es correspon. El punt és x = 1.35. d) Suposem que X ~ t de Student amb 14 graus de llibertat i busquem un punt x de manera que P(X ≤ x) = 0.75. Ara ens donen la probabilitat que la v. a. sigui més petita que un punt. La taula ens dóna les probabilitats dels successos contraris i hem de trobar el punt de manera que: P(X ≥ x) = 1 – P(X ≤ x) = 1 – 0.75 = 0.25 i el punt és x = 0.69 e) Suposem que X ~ t de Student amb 14 graus de llibertat i busquem un punt x de manera que P(X ≤ x) = 0.25. Aquest punt serà a l’esquerra del 0 (serà negatiu), i com que la v. a. és simètrica, el punt buscat és l’oposat del punt que P(X ≥ x) = 0.25. El punt buscat és –0.69.

3.6.4 La taula F de Fisher Aquesta taula la farem servir quan treballem amb una v. a. F de Fisher. Aquesta taula té unes característiques semblants a les dues taules anteriors. La fila de dalt correspon als graus de llibertat del numerador de la F de Fisher amb la qual treballem i la columna de l’esquerra correspon als graus de llibertat del denominador. Els valors que hi ha al mig de la taula són els punts associats a les probabilitats. En aquest cas, tenim una taula per a cada probabilitat diferent que es vulgui treballar. La primera taula correspon a la probabilitat 0.05 a la dreta del punt, la segona a 0.025 i la tercera a 0.01. Exemples a) Suposem que X ~ F10,15 i busquem un punt x de manera que P(X ≤ x) = 0.95. Hem d’agafar la taula corresponent a la probabilitat 0.05 i buscar el punt que es troba a la columna dels 10 graus de llibertat i la fila dels 15 graus de llibertat. El punt és x = 2.54. b) Suposem que X ~ F10,15 i busquem un punt x de manera que P(X ≤ x) = 0.99. Hem d’agafar la taula corresponent a la probabilitat 0.01 i buscar el punt que es troba a la columna dels 10 graus de llibertat i la fila dels 15 graus de llibertat. El punt és x = 3.8. c) Suposem que X ~ F10,15 i busquem un punt x de manera que P(X ≥ x) = 0.99. Hem d’agafar la taula corresponent a la probabilitat 0.01 i apliquem la propietat 2) de la distribució de Fisher, és a dir, s’ha d’intercanviar l’ordre dels graus de llibertat, buscar

52


Estadística pràctica pas a pas

el punt x’ que deixa a la seva dreta una probabilitat de 0,01 (o que deixa a la seva esquerra una probabilitat de 0.99) i assignar x = 1/x’: 0.99 = P(F10,15 ≥ x) = P(F15,10 < x’) El punt x’ trobat és 4.56. Per tant, x = 1 / 4.56 = 0.219.

3.7 Funcions d’Excel per calcular probabilitats 3.7.1 Distribució binomial Funció Excel: DISTR.BINOM. Objectiu: buscar probabilitats corresponents als possibles valors d’una distribució binomial (n,p). Paràmetres: • Nombre_èxits: valor del qual volem calcular la probabilitat (ja sigui la probabilitat exacta o la probabilitat acumulada). • Intents: paràmetre n de la binomial. • Prob._èxit: probabilitat p d’aconseguir el que s’està estudiant quan agafem un sol element. És el paràmetre p de la binomial. • Acumulat: posar 0 si només volem la probabilitat que el resultat sigui exactament “Nombre_èxits” i posar 1 si volem la probabilitat acumulada fins a “Nombre_èxits”. Enunciat exemple 1 Tenim 20 iogurts a la nevera. La probabilitat que un iogurt estigui caducat és del 15%. Quina és la probabilitat que, d’entre els iogurts que hi ha a la nevera, n’hi hagi 6 de caducats? Solució exemple 1 Usant la funció d’Excel DISTR.BINOM, hem de posar: • Nombre_èxits: 6. • Intents: 20. • Prob_èxit: 0.15. • Acumulat: 0. La probabilitat demanada és 0.0454 (un 4.54%).

53


Josep Maria Mateo Sanz

Enunciat exemple 2 Tenim 20 iogurts a la nevera. La probabilitat que un iogurt estigui caducat és del 15%. Quina és la probabilitat que, d’entre els iogurts que hi ha a la nevera, n’hi hagi 6 o menys de caducats? Solució exemple 2 Usant la funció d’Excel DISTR.BINOM, hem de posar: • Nombre­_èxits: 6. • Intents: 20. • Prob_èxit: 0.15. • Acumulat: 1. La probabilitat demanada és 0.9781 (un 97.81%).

3.7.2 Distribució de Poisson Funció Excel: POISSON. Objectiu: buscar probabilitats corresponents als possibles valors d’una distribució de Poiss(λ). Paràmetres: • X: valor del qual volem calcular la probabilitat (ja sigui la probabilitat exacta o la probabilitat acumulada). • Mitjana: mitjana o paràmetre λ de la Poisson. • Acumulat: posar 0 si només volem la probabilitat que el resultat sigui exactament X i posar 1 si volem la probabilitat acumulada fins a X. Enunciat exemple 1 El nombre de clients que arriben a certa entitat bancària segueix una distribució de Poisson amb una mitjana de 15 clients per hora. Quina és la probabilitat que durant la propera hora arribin 12 clients a l’entitat bancària? Solució exemple 1 Usant la funció d’Excel POISS, hem de posar: • X: 12. • Mitjana: 15. • Acumulat: 0. La probabilitat demanada és 0.0829 (un 8.29%).

54


Estadística pràctica pas a pas

Enunciat exemple 2 El nombre de clients que arriben a certa entitat bancària segueix una distribució de Poisson amb una mitjana de 15 clients per hora. Quina és la probabilitat que durant la propera hora arribin 12 clients o menys a l’entitat bancària? Solució exemple 2 Usant la funció d’Excel POISS, hem de posar: • X: 12. • Mitjana: 15. • Acumulat: 1. La probabilitat demanada és 0.2676 (un 26.76%).

3.7.3 Distribució exponencial Funció Excel: DISTR.EXP. Objectiu: buscar probabilitats corresponents als possibles valors d’una distribució exponencial Exp(λ). Paràmetres: • X: valor del qual volem calcular la probabilitat acumulada. • Lambda: paràmetre λ de l’exponencial. • Acumulat: s’ha de posar 1 per calcular la probabilitat acumulada fins a X. Enunciat exemple El temps que es triga a canviar una roda segueix una distribució exponencial amb una mitjana de 5 minuts. Quina és la probabilitat que es tardin menys de 6 minuts per canviar la propera roda? Solució exemple Usant la funció d’Excel DISTR.EXP, hem de posar: • X: 6. • Lambda: 0.2 (és el mateix que 1/5). • Acumulat: 1. La probabilitat demanada és 0.6988 (un 69.88%).

55


Josep Maria Mateo Sanz

3.7.4 Distribució normal Funció Excel: DISTR.NORM. Objectiu: buscar probabilitats corresponents als possibles valors d’una distribució Normal(μ,σ). Paràmetres: • X: valor del qual volem calcular la probabilitat acumulada. • Mitjana: mitjana de la distribució normal. • Desv_estàndard: desviació estàndard de la distribució normal. • Acumulat: hem de posar 1 per calcular la probabilitat acumulada fins a X.

Enunciat exemple Suposem que una variable aleatòria X segueix una distribució N(40,8). Quina és la probabilitat P(X ≤ 34)? Solució exemple Usant la funció d’Excel DISTR.NORM, hem de posar: • X: 34. • Mitjana: 40. • Desv_estàndard: 8. • Acumulat: 1. La probabilitat demanada és 0.2266 (un 22.66%). Funció Excel: DISTR.NORM.INV. Objectiu: buscar valors d’una distribució Normal(μ,σ) corresponents a unes probabilitats donades. Paràmetres: • Probabilitat: probabilitat acumulada fins al punt que serà la resposta d’aquesta funció. 56


Estadística pràctica pas a pas

• Mitjana: mitjana de la distribució normal. • Desv_estàndard: desviació estàndard de la distribució normal.

Enunciat exemple Suposem que una variable aleatòria X segueix una distribució N(40,8). Quin és el valor a que fa que P(X ≤ a) = 0.33? Solució exemple Usant la funció d’Excel DISTR.NORM.INV, hem de posar: • Probabilitat: 0.33. • Mitjana: 40. • Desv_estàndard: 8. El valor a demanat és 36.48.

3.7.5 Distribució khi quadrat Funció Excel: DISTR.CHI. Objectiu: buscar probabilitats corresponents als possibles valors d’una distribució khi quadrat amb n graus de llibertat. Paràmetres: • X: valor del qual volem calcular la probabilitat corresponent a la cua de la dreta. • Graus_de_llibertat: graus de llibertat de la khi quadrat.

57


Josep Maria Mateo Sanz

Enunciat exemple Suposem que una variable aleatòria X segueix una distribució khi quadrat amb 12 graus de llibertat. Quina és la probabilitat P(X ≥ 6.3)? Solució exemple Usant la funció d’Excel DISTR.CHI, hem de posar: • X: 6.3. • Graus_de_llibertat: 12. La probabilitat demanada és 0.9002 (un 90.02%). Funció Excel: PRUEBA.CHI.INV. Objectiu: buscar valors d’una distribució khi quadrat amb n graus de llibertat corresponents a unes probabilitats donades. Paràmetres: • Probabilitat: probabilitat corresponent a la cua de la dreta del punt que serà la resposta d’aquesta funció. • Graus_de_llibertat: graus de llibertat de la khi quadrat.

58


Estadística pràctica pas a pas

Enunciat exemple Suposem que una variable aleatòria X segueix una distribució khi quadrat amb 12 graus de llibertat. Quin és el valor a que fa que P(X ≥ a) = 0.75? Solució exemple Usant la funció d’Excel PRUEBA.CHI.INV, hem de posar: • Probabilitat: 0.75. • Graus_de_llibertat: 12. El valor a demanat és 8.4.

3.7.6 Distribució F de Fisher Funció Excel: DISTR.F. Objectiu: buscar probabilitats corresponents als possibles valors d’una distribució F de Fisher amb m i n graus de llibertat. Paràmetres: • X: valor del qual volem calcular la probabilitat corresponent a la cua de la dreta. • Graus_de_llibertat: graus de llibertat del numerador de la F. • Graus_de_llibertat2: graus de llibertat del denominador de la F.

Enunciat exemple Suposem que una variable aleatòria X segueix una distribució F de Fisher amb 12 i 18 graus de llibertat. Quina és la probabilitat P(X ≥ 1.4)?

59


Josep Maria Mateo Sanz

Solució exemple Usant la funció d’Excel DISTR.F, hem de posar: • X: 1.4. • Graus_de_llibertat: 12. • Graus_de_llibertat2: 18. La probabilitat demanada és 0.2518 (un 25.18%). Funció Excel: DISTR.F.INV. Objectiu: buscar valors d’una distribució F de Fisher amb m i n graus de llibertat corresponents a unes probabilitats donades. Paràmetres: • Probabilitat: probabilitat corresponent a la cua de la dreta del punt que serà la resposta d’aquesta funció. • Graus_de_llibertat1: graus de llibertat del numerador de la F. • Graus_de_llibertat2: graus de llibertat del denominador de la F.

Enunciat exemple Suposem que una variable aleatòria X segueix una distribució F de Fisher amb 12 i 18 graus de llibertat. Quin és el valor a que fa que P(X ≥ a) = 0.85? Solució exemple Usant la funció d’Excel DISTR.F.INV, hem de posar: • Probabilitat: 0.85. • Graus_de_llibertat1: 12. 60


Estadística pràctica pas a pas

• Graus_de_llibertat2: 18. El valor a demanat és 0.5546.

3.7.7 Distribució t de Student Funció Excel: DISTR.T. Objectiu: buscar probabilitats corresponents als possibles valors d’una distribució t de Student amb n graus de llibertat. Paràmetres: • X: valor del qual volem calcular la probabilitat corresponent a la cua de la dreta. NOMÉS s’admeten valors positius. • Graus_de_llibertat: graus de llibertat de la t de Student. • Cues: hem de posar 1 per calcular la probabilitat corresponent a la cua de la dreta.

Enunciat exemple Suposem que una variable aleatòria X segueix una distribució t de Student amb 12 graus de llibertat. Quina és la probabilitat P(X ≥ 0.94)? Solució exemple Usant la funció d’Excel DISTR.T, hem de posar: • X: 0.94. • Graus_de_llibertat: 12. • Cues: 1. 61


Josep Maria Mateo Sanz

La probabilitat demanada és 0.1829 (un 18.29%). Funció Excel: DISTR.T.INV. Objectiu: buscar valors d’una distribució t de Student amb n graus de llibertat corresponents a unes probabilitats donades. Aquesta funció NOMÉS busca valors positius. Paràmetres: • Probabilitat: probabilitat corresponent al DOBLE de la cua de la dreta del punt que serà la resposta d’aquesta funció. Per exemple, si volem trobar el punt que deixa a la cua de la seva dreta una probabilitat de 0.4, a “Probabilitat” hem de posar 0.8. • Graus_de_llibertat: graus de llibertat de la t de Student.

Enunciat exemple Suposem que una variable aleatòria X segueix una distribució t de Student amb 12 graus de llibertat. Quin és el valor a que fa que P(X ≥ a) = 0.35? Solució exemple Usant la funció d’Excel DISTR.T.INV, hem de posar: • Probabilitat: 0.7. • Graus_de_llibertat: 12. El valor a demanat és 0.3947.

62


4. Intervals de confiança 4.1 Nocions de mostra i mostreig Definició. L’estadística té com a objectiu l’estudi de les poblacions, entenent per aquest terme un conjunt de persones, coses o, en general, elements amb alguna característica comuna a tots ells. De l’observació del comportament individual de cada un dels elements que componen la població es poden obtenir unes lleis generals per a tots els elements de la població. Sembla evident que per trobar aquestes lleis generals sigui necessària l’observació exhaustiva de tota la població. Inconvenients d’organització, de temps i, en definitiva, econòmics fan molt difícil estudiar tots els elements de la població si aquesta és molt gran. Per exemple, si volem fer un estudi de la vida de les bombetes que produeix una fàbrica, hem d’observar quant de temps passa fins que la bombeta es fon, i això no ho farem amb totes les bombetes que es fabriquen (si ho féssim, la fàbrica es quedaria sense bombetes per vendre). Definició. En els casos que no puguem observar tots els elements de la població, seleccionarem un conjunt d’elements de la població, que anomenem mostra. Perquè sigui correcta la substitució de l’observació exhaustiva de la població per la més limitada observació dels elements que formen una mostra, cal que la composició d’aquesta sigui representativa de la composició de la població. Definició. S’anomena mostreig la tècnica emprada per a l’obtenció de mostres. Definició. Direm que una mostra és aleatòria simple quan: 1. Cada element de la població té la mateixa probabilitat de ser escollit. 2. Les observacions es realitzen amb reemplaçament, de manera que la població és idèntica en totes les extraccions. 63


la mostra: Un = f(X1, ..., Xn) Josep Maria Mateo Sanz Josep Maria Mateo Sanz qualsevol valor obtingut d’una població. Estadística pràctica pas a pas Definició. S’anomena paràmetre

4.2 Concepte estadístic i de paràmetre 4.2 d’ Concepte d’estadístic i de paràmetre Definició. Donada una mostra ..., XX), s’anomena estadísticestadístic tota variable que siguivariable funció de que sigui Definició. Donada una mostra (X(X , ,..., ), s’anomena tota 1 n la mostra: funció de la mostra: U = f(X , ..., X ) Un = f(X1, ..., Xn) 1

n

1

n

n

Definició. S’anomena paràmetre qualsevol valor obtingut d’una població.

Definició. S’anomena paràmetre qualsevol valor obtingut d’una població.

Els diversos paràmetres poblacionals generalment són desconeguts, ja que no tenim disponibles

Els diversos paràmetres poblacionals generalment són desconeguts, ja que no te-

lesnim dades de totaElsladiversos població. El poblacionals valor estadístics sempre serà conegut, ja que sempre disponibles les dades de tota ladels població. El desconeguts, valor dels estadístics sempre serà coparàmetres generalment són ja que no tenim disponibles dades de tindrem tota la població. El valor dels estadístics sempre serà conegut, ja que sempre tindrem les dades d’alguna mostra. Els paràmetres poblacionals tenen negut,disponibles ja que lessempre disponibles les dades d’alguna mostra. Elsrelacionats paràmetres tindrem disponibles les dades d’alguna mostra. Els paràmetres poblacionals tenen relacionats

poblacionals tenen relacionats estadístics mostrals i els valorsfer d’auna quests estadístics certs estadístics mostrals i els valorscerts d’aquests estadístics ens permetran inferència o certs estadístics mostrals i els valors d’aquests estadístics ens permetran fer una inferència o

ens permetran fer inferència o estimació sobre quin és el valor del paràmetre poestimació sobre quin és una elsobre valor poblacional corresponent. estimació quindel és elparàmetre valor del paràmetre poblacional corresponent. blacional corresponent.

POBLACIÓ � PARÀMETRES

MOSTRA � ESTADÍSTICS

POBLACIÓ � PARÀMETRES (desconeguts)

MOSTRA(coneguts) � ESTADÍSTICS

MOSTRA → ESTADÍSTICS

POBLACIÓ → PARÀMETRES

(desconeguts) (desconeguts)

(coneguts) (coneguts)

Mitjana poblacional, %

Mitjana mostral,

Josep MariaMitjana Mateo Sanz poblacional, poblacional, μ% Josep MariaMitjana Mateo Sanz

Variància poblacional, !22 Variànciapoblacional, poblacional, Variància σ2 !

Desviació estàndard poblacional, Desviació poblacional, σ ! Desviacióestàndard estàndard poblacional, !

Estadística pràctica pas a pas

Estadística pràctica pas a pas Mitjana Mitjanamostral, mostral,

61 Variància mostral, Variància Variànciamostral, mostral,

61 Desviació Desviacióestàndard estàndard mostral, mostral, Desviació estàndard mostral, Proporció Proporciómostral, mostral, pˆ Proporció mostral,

Proporció poblacional, Proporció p pp Proporciópoblacional, poblacional, Mediana poblacional, MeMe Mediana Mediana poblacional, poblacional, Me Percentil 35 poblacional, P 35 Percentil Percentil 35 35 poblacional, poblacional,35P P35 ... ... ...

Mediana Medianamostral, mostral, Mˆ e Mediana mostral,

Percentil Percentil35 35 mostral, mostral, Percentil 35 mostral, ... ... ... 64

4.3 4.3 Estimació Estimació puntual puntual ii estimació estimació per per intervals intervals


Estadística pràctica pas a pas

4.3 Estimació puntual i estimació per intervals El procés d’estimació estadística es relaciona amb el conjunt de mètodes i procediments estadístics a partir dels quals, i de la informació donada per una mostra aleatòria obtinguda d’una determinada població, es pretén fer alguna afirmació en termes numèrics sobre el valor del paràmetre o paràmetres desconeguts que caracteritzen la població. Es tracta, en definitiva, de com usar de manera òptima la informació que ens dóna una mostra per poder assignar valors numèrics als paràmetres desconeguts d’una determinada població estadística. La funció de probabilitat o de densitat d’una v. a. X depèn d’alguns paràmetres, com ara l’esperança i la variància. Els vertaders valors d’aquests paràmetres sovint són desconeguts a la pràctica i han de ser estimats a partir d’una mostra de X. Definició. Sigui f(x,θ) la funció de densitat de X on θ és el paràmetre desconegut. S’anomena estimador de θ una variable aleatòria funció de la mostra U = g(X1, ..., Xn) Donada una mostra aleatòria, sempre és possible obtenir determinats estadístics mostrals: mitjana, mediana, desviació estàndard..., i considerar-los com a estimadors potencials dels paràmetres poblacionals. Cal remarcar que l’obtenció d’estimadors pot fer-se mitjançant l’aplicació de dos criteris diferents: 1. Estimació puntual: s’anomena estimació puntual el procés d’estimació que assigna a cada paràmetre cert valor estimat. L’estimació puntual té l’avantatge de deixar especificat unívocament el paràmetre que es pretén estimar, però té l’inconvenient que, si agafem dues mostres diferents, es podrien produir diferències importants entre els valors estimats. 2. Estimació per intervals: consisteix a marcar un interval al qual, amb una certa probabilitat, pertanyi l’estimador escollit, de manera que l’estimació del paràmetre poblacional serà donada per un conjunt de valors, qualsevol dels quals podria ser agafat com a expressió del paràmetre poblacional que es vol estimar.

4.4 Noció d’interval de confiança. Coeficient de confiança Els mètodes d’estimació puntual presenten un gran inconvenient: no proporcionen informació sobre com és de gran l’error comès en l’estimació. L’error només seria conegut amb precisió en el cas que el paràmetre fos conegut, però en aquest cas no seria necessari fer cap estimació.

65


Josep Maria Mateo Sanz

L’estimació per interval sorgeix per solucionar aquest problema. Aquest procediment es basa en el fet que un estimador és una v. a. caracteritzada per: • una distribució de probabilitat • una esperança matemàtica • una variància Definició. Ara posarem les bases per donar la definició d’interval de confiança. Sigui X1, ..., Xn una mostra aleatòria simple d’una v. a. X amb una distribució que depèn d’un paràmetre θ (i possiblement d’altres paràmetres). Es diu que els estadístics: U = g1(X1, ..., Xn)

V = g2(X1, ..., Xn)

constitueixen un interval de confiança per a θ, amb coeficient (o nivell) de confiança 1 – α, o al 100(1 – α)%, si es verifica: 1. U < V per a tota mostra de grandària n. 2. P (U < θ < V) = 1 – α. Definició. 1 – a s’anomena nivell de confiança. a s’anomena nivell d’error o de significació o de significança. Cal arribar a una mena d’equilibri entre els diversos aspectes (amplada, confiança, error, precisió, utilitat) que entren en joc quan es construeixen intervals de confiança. Exemple Suposem que volem fer una inferència sobre l’alçada mitjana de tots els habitants de Catalunya. Com que no es disposa de les alçades de tots els habitants de Catalunya (població), s’agafa una mostra de la població, es mira la seva alçada i es construeix un interval de confiança per a l’alçada mitjana de tota la població. Podem veure què passa en dues situacions extremes:

INTERVAL

AMPLADA

CONFIANÇA

ERROR

PRECISIÓ

UTILITAT

(1.50 , 2.00)

Gran

Gran

Petit

Poca

Poca

(1.7234 , 1.7236)

Petita

Petita

Gran

Molta

Molta

Observacions 1. U i V són els límits de confiança de θ. En general, són estimadors per defecte i per excés de θ. 2. L’interval depèn de la mostra.

66


Estadística pràctica pas a pas

3. El coeficient de confiança 1 – α és un valor que escull l’experimentador. S’acostuma a agafar α = 0.10, 0.05 o 0.01, és a dir, 1 – α = 0.9, 0.95 o 0.99. Com més gran és 1 – α, més gran és el grau de confiança, però també serà més gran l’interval de confiança. Interessa obtenir un interval reduït, però amb una probabilitat relativament alta de contenir el valor del paràmetre. 4. El valor de θ és constant, mentre que l’interval de confiança I = (U,V) és d’extrems aleatoris, incloent-hi el vertader valor de θ amb probabilitat 1 – α. 5. L’interval de confiança s’ha d’interpretar segons una visió freqüencial en el sentit següent: si, per exemple, agafem 1 – α = 0.95, en una llarga sèrie de determinació d’intervals de confiança, en el 95% dels casos l’interval inclourà el vertader valor de θ.

4.5 Determinació d’intervals de confiança A la taula d’intervals es donen les instruccions per calcular diferents intervals de confiança, segons les condicions amb les quals estem treballant i el paràmetre que volem estimar. Els passos que hauríem de seguir per construir un interval de confiança serien: 1. Determinar de què es vol fer l’interval: a) una mitjana poblacional b) una diferència de mitjanes poblacionals c) una variància poblacional d) un quocient de variàncies poblacionals e) una proporció poblacional f) una diferència de proporcions poblacionals 2. Determinar les condicions generals de l’exercici per treballar amb l’interval adient. 3. Consultar les taules estadístiques i determinar el valor corresponent que cal per trobar el marge d’error de l’interval. 4. Calcular el marge d’error de l’interval. 5. Calcular els extrems inferior i superior de l’interval de confiança. Notació. La notació emprada a la taula d’intervals és la següent: • n és el nombre d’elements de la mostra. Si té un subíndex, significa que hi ha més d’una mostra i amb el subíndex indiquem amb quina mostra treballem.

67


Notació. La notació emprada a la taula d’intervals és la següent: Notació. a la de taula és un la següent: ! n ésLaelnotació nombreemprada d’elements la d’intervals mostra. Si té subíndex, significa que hi ha més d’una

Josep Maria Mateo Sanz

! nmostra és el inombre de la mostra. Si té mostra un subíndex, significa que hi ha més d’una amb el d’elements subíndex indiquem amb quina treballem. mostra i amb el subíndex indiquem amb quina mostra treballem.

és la mitjana de la mostra. El significat dels subíndexs és el mateix que en el

! !

és mitjanadedelalamostra. mostra. significat subíndexs és el mateix és la la mitjana El El significat delsdels subíndexs és el mateix que en el

• cas anterior. que en el cas anterior. cas anterior.

és la la variància variànciade delalamostra. mostra.ElElsignificat significat dels subíndexs el és dels subíndexs és elésmateix ! ! mateix que en el primer és la variància la mostra. significat dels subíndexs mostral, és el mateix cas. Calde observar que,Elper calcular la variància que en el primer cas. Cal observar que, per calcular la variància mostral, s’ha de dividir s’haen deeldividir n – observar 1 i no entre (com fèiemla en el temamostral, d’estadística que primerentre cas. Cal que, nper calcular variància s’ha dedesdividir

criptiva), ja que l’estimador S2 té millors propietats que si dividíssim entre n. 65característica en una mostra. El signifi• pˆ és la proporció en què apareix certa cat dels subíndexs és el mateix que65 en el primer cas.

• zα/2 és el valor trobat a la taula N(0,1) que deixa a la seva dreta una àrea igual a α/2. • tα/2 és el valor trobat a la taula t de Student que deixa a la seva dreta una àrea igual a α/2. • χ2α/2 i χ21–α/2 són els valors trobats a la taula χ2 que deixa a la seva dreta una àrea igual a α/2 i 1 – α/2, respectivament. • Fα/2 i F1–α/2 són els valors trobats a la taula F de Fisher que deixa a la seva dreta una àrea igual a α/2 i 1 – α/2, respectivament. Observacions 1. Dues mostres, tant si tenen la mateixa mida com si no, són independents quan s’observa una variable sobre individus diferents. Per exemple, es mesura el pes abans de fer un règim en 8 persones, i després de fer el règim es mesura el pes en altres 8 persones diferents. 2. Dues mostres són dependents quan s’observa una variable sobre els mateixos individus. En aquest cas, les mides de les mostres seran iguals i té sentit crear una nova mostra que sigui la diferència individu a individu de les mostres originals. En aquesta situació, per fer els càlculs es treballarà sobre aquesta nova mostra i no sobre les mostres originals; és a dir, es calcularà la mitjana i la desviació estàndard d’aquesta nova mostra. Per exemple, es mesura el pes abans de fer un règim en 8 persones i després de fer el règim es mesura el pes en les mateixes 8 persones anteriors. També es consideren mostres dependents quan, per exemple, es mesuren els temps assolits per dos atletes de 100 metres 68


Estadística pràctica pas a pas

llisos en 6 carreres diferents on han participat els dos atletes i on se suposa que les condicions (de vent, temperatura i altura sobre el nivell del mar) són les mateixes per als dos atletes; serien mostres independents si les condicions fossin diferents per als dos atletes. Mostra 1

Mostra 2

Mostra 1 – Mostra 2

x21 x11 – x21 x11 x12 x22 x12 – x22 Josep Maria Mateo Sanz Estadística pràctica pas a pas Josep Maria ... ... ...Mateo Sanz Josep Maria Mateo Sanz Estadística pràctica pas a pas x1n x2n x1n – x2n Exemple 1. Amb l’objectiu de verificar el pes mitjà de les de cerealsdedeverificar certa marca, Exemple 1. caixes Amb l’objectiu el pes mitjà Exemple 1. Amb l’objectiu de verificar el pes mitjà de les caixes de cereals de certa marca, s’han agafat 16 d’aquestes caixes i s’hanelpesat. Els resultats són: 506, 499, 504, pesat. 510, Els re Exemple 1. Amb l’objectiu de verificar pes mitjà deagafat les caixes de 508, cereals de503, certa s’han 16 d’aquestes caixes i s’han s’han agafat 16 d’aquestes caixes i s’han pesat. Els resultats són: 506, 508, 499, 503, 504, 510, marca, s’han agafat 16505, d’aquestes caixes s’han509 pesat. Els resultats són: 506, 508, 499, 503, 497, 512, 514, 493, 496, 506,i 502, i 496. Si suposem que el493, pes de les caixes 497, 512, 514, 505, 496, 506, 502,segueix 509 i 496. Si 497, 512, 514, 505, 493, 496, 506, 502, 509 i 496. Si suposem que el pes de les caixes segueix 504, 510, 514,amb 505,variància 493, 496, 506, 502, 509 i 496. suposem el pesdel de 95% les per albusquem una497, v. a.512, normal desconeguda, busquem interval de que confiança una v. un a.Sinormal amb variància desconeguda, una v. a. normal amb variància desconeguda, busquembusquem un intervalun deinterval confiança 95% per al caixes segueix una v. a. normal amb variància desconeguda, de del confipes mitjà de les caixes de cereals. pes mitjà de les caixes de cereals. mitjà ança delpes 95% perdealles pescaixes mitjàdedecereals. les caixes de cereals. Solució Solució Solució Solució 1) Es vol construir un interval per al pes mitjà de1)les de cereals, per tant,per d’una mitjana Escaixes vol construir un interval al pes mitjà de les volconstruir construirun uninterval interval per per al al pes pes mitjà mitjà de de les les caixes caixes de de cereals, cereals, per per tant, tant, d’una d’una mitjana 1. 1)EsEsvol poblacional. poblacional. mitjana poblacional. poblacional. 2) Ens diuen que la distribució del pes de les caixes de diuen cereals,que la variable que es 2) Ens distribució delvol pesestudiar, de les caixes d 2. 2)Ens delpes pesde deles lescaixes caixes decereals, cereals,lalalavariable variable quees esvol vol Ensdiuen diuen que que la la distribució distribució del de que estudiar, 2es mostra de 16 segueix unasegueix normaluna i nonormal es coneix la variància poblacional 022. A més, segueix unapoblacional normal i no la coneix la variància pob més, laés estudiar, i no es coneix la variància és de 16 segueix una normal i no es coneix la variància poblacional 0 . A més,s la. Amostra elements. Perde això, agafarem elPer tercer interval de la elements. això, agafarem el tercer interval de la tau mostra és 16 elements. això, agafarem eltaula. tercerPer interval de la taula. elements. Per això, agafarem el tercer interval de la taula. Calconsultar consultar les ambamb 15 graus de llibertat i miraride quin deixa aamb la 15 gra 3) Cal taules la tpunt de Student 3. 3)Cal lestaules taulesdedelalat de t deStudent Student 15 consultar graus de les llibertat mirar quin 3) Cal consultar les taules de la t de Student amb 15 graus de llibertat i mirar quin punt deixa a la punt deixa la seva dreta una àrea de a/2 = 0.05/2 =és0.025. Aquest és t0.025 seva dreta unaaàrea de //2 = 0,05/2 = 0,025. Aquest valor t0,025àrea = 2,13. seva dreta una de //2valor = 0,05/2 = 0,025. Aquest va seva dreta una àrea de //2 = 0,05/2 = 0,025. Aquest valor és t0,025 = 2,13.

= 2.13.

4) El marge d’error de l’interval es calcula a partir demarge d’error . Sabent que S = 6,2, n = 16a ipartir d 4) El de l’interval es calcula .. Sabent Sabent que queSS==6,2, 6.2,n = 16 i

marged’d’error del’interval l’intervales escalcula calculaaapartir partir de de 4. 4)ElElmarge error de

t0,025 2,13, tenim el marge que d’error de l’interval ésde t0,025 =3,30. 2,13, tenimés que el marge d’error de l’interval és = que 2.13, el marge d’error l’interval 3.30. n === 16 i t0,025 t0,025 2,13, tenim que eltenim marge d’error de l’interval és 3,30. Comque que = = 503.75 503,75 ii l’interval com aque ,=marge que 5. 5)Com l’intervalesesconstrueix construeix com a ±± marge d’i el’interval rror,l’interval l’in-es construeix 503,75d’error, co 5) Com = 503,75 i l’interval es construeix com a ± , marge d’error, l’interval que 5) Com que terval que obtenim μ < 507.05. Aquest resultat que, amb obtenim és 500,45 < µés< 500.45 507,05. < Aquest resultat vol dirésque, amb<vol unµ dir 95% de confiança, la obtenim 500,45 < 507,05. Aquest resultat vo obtenim és 500,45 < µ < 507,05. Aquest resultat vol dir que, amb un 95% de confiança, la un 95% dedel confiança, la mitjana real del pesmitjana de caixes de cereals es troba en Josep Maria Estadística pràcticaes pastroba a pas en mitjana real pesMateo de lesSanz caixes de cereals es troba enles aquest real interval. del pes de les caixes de cereals mitjana del pes de les caixes de cereals es troba en aquest interval. aquestreal interval.

Estadística pràctica pas a pas

Exemple 2.4)2. Per comparar dos s’han fet tests a ados Exemple comparar dos mètodespedagògics pedagògics diferents, s’han fetuns unsdos tests dos grups Exemple comparar mètodes pedagògics d ElPer marge d’error demètodes l’interval es calcula adiferents, partir2.dePer Exemple 2. Per comparar dos mètodes pedagògics diferents, s’han fet uns tests a dos grups grups d’d’alumnes, alumnes, cada un diferent. El primer grup cadagrup grupdels dels qualsha haaprès aprèssegons segonsd’alumnes, un mètode mètodecada diferent. primer és desegons 10 grup El dels qualsgrup ha après un m rtir de . quals d’alumnes, cada grup dels quals ha après segons un mètode diferent. El primer grup és de 10 Amb les dades de16 l’enunciat tenim queque elalumnes marge de segueixen l’interval ésv.1,24. és de 10alumnes alumnes segon alumnes. Suposem quepuntuacions lesd’error segueixen v.Suposem a. ambque les i eli el segon dede 16 alumnes. Suposem les a. normals ipuntuacions el segon de 16 alumnes. alumnes i el segon de 16 alumnes. Suposem que les puntuacions segueixen v. a. normals amb d’error de l’interval és 1,24. 5) i Com que = 6,3desconegudes i i= 5,8 i Els l’interval es construeix com a ± marge 2 = 6.3, normals amb esperança i variància i iguals. Els resultats van ser esperança variància desconegudes iguals. resultats van ser = 6,3, S = 3,4, = 5,8 i d’error esperança i variància desconegudes i iguals. Els result 12 esperança i variància desconegudes iinterval iguals. Els resultats van ser = 6,3, S1diferència = 3,4, = 5,8 i 2 s construeix com ± marge d’error, = 5.8 i S = 3.1. Volem un de confiança del 90% per a la S12 a= 3.4, – µS2per < que obtenim és –0,74 <del µ190% 2 1,74. Aquest resultat vol dir que, amb un 90% de S222 = 3,1.l’interval Volem2un interval de confiança la diferència Volem und’esperances. interval de confiança del 90% per 2 =a3,1. S = 3,1. Volem un interval de confiança del 90% per a la diferència d’esperances. 2 d’ e sperances. 4. Aquest resultat vol dir que, amb un 90% confiança, la de diferència de les esperances de les puntuacions segons els mètodes proposats està

Solució Solució Solució puntuacions segons els1) mètodes està enproposats aquest interval. 69diferència Es vol construir un interval per a la obtingudes 1) de Es puntuacions vol construirmitjanes un interval per a lasegons diferència de 1) Es vol construir un interval per a la diferència de puntuacions mitjanes obtingudes segons cada mètode pedagògic, per tant, d’una diferènciacada de mitjanes mètode poblacionals. pedagògic, per tant, d’una diferència de m cada mètode pedagògic, per tant, d’una diferència de mitjanes poblacionals.


Josep Maria Mateo Sanz

Solució 1. Es vol construir un interval per a la diferència de puntuacions mitjanes obtingudes segons cada mètode pedagògic, per tant, d’una diferència de mitjanes poblacionals. 2. Ens diuen que la distribució de les puntuacions de cada mètode segueix unes distribucions normals, amb variàncies desconegudes però iguals a les dues poblacions. Per això, agafarem el sisè interval de la taula. 3. Cal consultar les taules de la t de Student amb 10 + 16 – 2 = 24 graus de llibertat i mirar quin punt deixa a la seva dreta una àrea de a / 2 = 0.1 / 2 = 0.05. Aquest valor és t0.05 = 1.71. 4. El marge d’error de l’interval es calcula a partir de Estadística pràctica pas a pas Estadística pas a pas Estadística pràcticapràctica pas a pas Josep Maria Mateo Sanz

rval es calcula a partir de

..

Estadística pràctica pas a pas

nterval es calcula partir4)de es calcula partira de . El l’interval marge d’error de l’interval es calcula a .partir de enim que ela marge d’error de és 1,24.

.

= 5,8 i l’interval es construeix a de l’enunciat ± marge d’error,el marge d’error de l’interval és 1.24. Amb lescom dades tenim iat tenim el marge de l’interval és 1,24. tenim m que el que marge d’errord’error de l’interval és 1,24. Amb les dades de l’enunciat queque el marge d’error de l’interval és 1,24. 74 < µ1 – µ2 < 1,74. Aquest resultat vol dir que, amb un 90% de 5,8 i l’interval es construeix marge d’error, es ,8 i= l’interval es construeix com a com =a=6.3 d’error, Com que 6,3±i i marge 5,8 l’interval es construeix construeix com ± marge marge d’error, =±=5.8 iil’interval comaa 5. 5) Com que s esperances de les puntuacions segons els mètodes proposats està – μ2 <resultat 1.74. Aquest resultat d’resultat error,resultat l’interval que obtenim –0.74 < μ1 Aquest –0,74 µ2 <Aquest 1,74.l’interval Aquest diramb < µ1 –<µ2µ1<–1,74. vol obtenim dirvol que, unamb 90% –90% µ2 <de1,74. vol dir que, amb vol un 90% de que ésque, –0,74 < un µés1de

dir que, amb un 90% de confiança, diferència de les esperances de les puntue les esperances les puntuacions segons els mètodes proposats sperances de les de puntuacions segons els mètodes proposats està la està confiança, la diferència de les esperances de les puntuacions segons els mètodes proposats està acions en aquestsegons interval.els mètodes proposats està en aquest interval.

d’error associat a un marge d’error donat

ell d’error associat a undelmarge d’error donat error associat a un marge d’error donat 4.5.1 Càlcul del nivell d’error associat un marge d’error donat 4.5.1 Càlcul nivell d’error associat a un marge d’erroradonat

uin nivell de confiança (o d’error) caldria treballar per aconseguir

r. En aquest cas, igualar la fórmula del marge d’error Enscaldria podríem demanar ambtreballar quin nivell dedeconfiança (o d’error) caldria treballar per bnivell quin de nivell de confiança d’error) caldria pernivell aconseguir confiança (o d’error) caldriademanar treballar per quin aconseguir Ens(opodríem amb confiança (o d’error) caldria treballar per aconseguir aconseguir determinat marge d’eelrror. Endeaquest cas, caldria igualar la fórmula del et del marge d’error desitjatun deixant com a incògnita valor error. En aquest cas, caldria igualar lamarge fórmula del marge d’error En aquest cas, caldria igualar la fórmula deld’error. marge d’error un determinat En aquest cas, caldria igualar la fórmula del marge d’error marge d’error corresponent valordeconcret del marge d’error desitjat deixant com a indel valor de taules estadístiques es pot trobar elalnivell confiança ncret del marge d’error desitjat com aconcret incògnita valor dedel valor el marge d’error desitjatcorresponent deixant incògnita el valor de alavalor del elA marge d’error desitjat deixantestadístiques com a incògnita el valor de cògnita el valor deixant decom taules estadístiques. partir de taules es pot

tir delde valor de estadístiques taules estadístiques pot trobar el nivell de confiança valor taules esestadístiques. pot trobar el nivell A opartir valor de taules estadístiques es pot trobar el nivell de confiança trobar eltaules nivell de es confiança elde d’del econfiança rror. o el d’error.

a d’una mostra

4.5.2 Càlcul de la mida d’una mostra

ida d’una mostra 4.5.2 Càlcul de la mida d’una mostra ’una mostra

(o el d’error), ens podríem demanar quina ha (o de el serd’la mida ens de lapodríem demanar quina ha de ser la mida Donat el nivell de confiança error),

t marge d’error.de Enlaaquest cas,per caldria igualar laun fórmula del marge mostra aconseguir cert marge d’error. En aquest cas, caldria igualar la fórnça (o el d’error), ens podríem demanar quina ha de ser lade mida la podríem demanar quina ha de ser la mida de la el d’error), ens podríem demanar quina de ha de ser la mida la de ens Donat el nivell confiança (o el d’error), concret del marge d’error desitjat deixant com a incògnita la mida cert marge En aquest cas, igualar fórmula del margeEn aquest cas, caldria igualar la fórmula del marge arge d’error.d’error. En aquest cas, caldria igualar la fórmula del marge mostra percaldria aconseguir unlacert marge d’error. 70 ant es podria aplicar als intervals 1 (interval sobre la mitjana lor concret del marge deixant com a incògnita la mida ncret del marge d’errord’error desitjat deixant com aal incògnita la mida d’errordesitjat corresponent valor concret del marge d’error desitjat deixant com a incògnita la mida oblacional coneguda), 2 (interval sobre la mitjana poblacional amb variant es podria 1 (interval sobre mitjana es podria aplicaraplicar als intervals 1 (interval sobre la mitjana deals la intervals mostra. Aquesta variant eslapodria aplicar als intervals 1 (interval sobre la mitjana




Estadística pràctica pas a pas 



mula del marge d’error corresponent al  valor concret del marge d’e rror desitjat    deixant     com a incògnita la mida de la mostra. Aquesta variant es podria aplicar als intervals 1  (interval sobre la mitjana poblacional amb variància poblacional coneguda), 2 (interval  sobre la mitjana poblacional amb variància poblacional desconeguda i suposant que la mida de la mostra, tot i que no es coneix a priori, serà gran) i 10 (interval sobre la pro porció poblacional).

 Observacions    1. El cas de l’interval 1 realment serà difícilment aplicable, perquè, generalment, la variància poblacional serà desconeguda.  2. Per al cas de l’interval 2, si es la mida de la mostra, implica que encara demana  no s’ha agafat realment cap mostra, però en el càlcul de la mida de la mostra  intervé la variabilitat de les dades (a través de la desviació estàndard d’una  mostra). En aquest cas, per tenir una estimació de laEstadística variabilitat depas lesa dades, Josep Maria Mateo Sanz pràctica pas            caldria agafar una mostra prèvia i usar la variabilitat d’aquesta mostra prèvia  per determinar la midadedeles la mostra definitiva. estimació de la variabilitat dades, caldria agafar una mostra prèvia i usar la    3. En el cas de l’interval també tenir prèvia de la proporvariabilitat d’aquesta mostra10 prèvia percaldria determinar la una midaestimació de la mostra definitiva. ciócas mostral que pot sortircaldria de la mostra definitiva. totes permostral curar3) En el de l’interval 9 també tenir una estimacióDe prèvia demaneres, la proporció  =   llavors tindríem salut, esmostra pot agafar com a proporció mostral que se poten sortir de la definitiva. De totes maneres, per curar-se en isalut, es pot agafar que:

i llavors tindríem que:

com a proporció mostral

# &2 z" / 2 n = 0,25% ( $ marge error ' 

!

71




PARÀMETRE

PARÀMETRE PARÀMETRE X no normal, s coneguda CONDICIONS µm XXnonormal, normal,!!coneguda coneguda PARÀMETRE ≥coneguda 30 µ XXnonormal, normal, !coneguda CONDICIONS PARÀMETRE n "!n30 CONDICIONS PARÀMETRE Josep Maria Mateo Sanz µ XX normal, ! coneguda PARÀMETRE n "! Xno normal, !30 coneguda CONDICIONS X qualsevol, normal, coneguda X qualsevol, CONDICIONS PARÀMETRE µµ n "!! 30 XX noCONDICIONS normal, ! coneguda PARÀMETRE !Xdesconeguda µ qualsevol, normal, coneguda X no normal, coneguda CONDICIONS PARÀMETRE CONDICIONS PARÀMETRE m s desconeguda normal, ! coneguda XX X normal, ! coneguda µ nn " "" 30 30 30 Xdesconeguda qualsevol, no !normal, ! coneguda n XXno normal, ! nconeguda normal, coneguda ≥coneguda 30 µ µµ ! X XX no normal, coneguda !normal, n!"!!desconeguda 30 Xdesconeguda qualsevol, normal, X qualsevol, µµ XXno ! coneguda nonormal, normal, ! coneguda n"2!"30 30 ! desconeguda µ X normal, desconeguda Xnormal, ,nMateo X normals, ! desconeguda X s desconeguda CONDICIONS PARÀMETRE Josep Maria Sanz qualsevol, 1X µ1 µµ – µ2 nn""30 30 qualsevol, "dependents 30 XX qualsevol, XXnormal, mostres ,desconeguda X normals, !1X nn2!" 30 normal, !desconeguda coneguda µ1 µ –µ µm2 X qualsevol, X qualsevol, , X normals, X ! desconeguda µmµµ – m 2 mostres , normal, indep. Xdesconeguda Xn! normals, 1! XX normal, ! desconeguda " 30 12, normals, 21dependents no ! coneguda X normal, desconeguda µ –µ1 µ2 2 1µ ! desconeguda ! desconeguda n2! "desconeguda 30dependents n 30 ! conegudes X normals, indep. mostres dependents 11,2mostres 2" 1,! X , X normals, n " 30 XXnormal, X1, Xnn2 "normals, µ11 ––µµ µ22 30 "desconeguda 30 indep. µ conegudes µ ,!X normals, ,mostres indep. normal, ! 1,no 2normals, 1 – µ2 XX normal, ! desconeguda 1X 2,! 1X 2X mostres dependents dependents X normals, X!2!2 desconeguda normals, indep. X X11,qualsevol, µµ11 –µ –µ µ22 XX normal, XX normal, desconeguda µ indep. PARÀMETRE ,! X2normals, normals, 2X ,!CONDICIONS X normals, indep. µ X,X ,12,2no normals, 1X 2conegudes µ 1X 2s X1,11mostres normals, indep. dependents ! desconeguda µ µ – µ2 , s conegudes µ – µ 1 1 2 12conegudes 2" 30 X2X normals, ,!X X normals, 2normals, ! 1,! µ – µ n , n Xmostres X indep. dependents 1,1,,no 2dependents ! ! conegudes 1 1 2 X1X,mostres normal, ! coneguda 1 2 µ – µ µ – µ ! conegudes 1 222 , X normals, indep. 1 1 1 2 2n " 30 m – m mostres dependents mostres dependents , X no normals, indep. X ! , ! conegudes n , n " 30 1 X , X normals, indep. 1 2 µ 1 2 µ – µ normals, indep. X , X no normals, indep. 1 2 2 conegudes no ! coneguda !22normal, ,qualssevol, !2normals, µ11 – µ22 2 XX11normal, ,,XX indep. 11no indep. X ! desconeguda 1 2 XX!11,1!,!,X1X1!,2,2n2!normals, indep. !normals, s ,nconegudes "conegudes 30indep. conegudes 2,normals, 1conegudes 2n "s2 30 , no ! µ11 µ–– µ µ22 1conegudes 2 X ,, ! X indep. ,11221,! µ X11! indep. 1X 2! X ,! X22desconegudes normals, ! conegudes 1,qualssevol, 2 ! conegudes 2 µ – µ µ – X , X no normals, indep. 1 µ – µ n22 1" ≥indep. 30 nconegudes ", n30 30 X1, 1X!2!,no normals, 2X 1 1 2µ22 1,,2 n ,qualssevol, nnn2! 1qualsevol, 2 µ ,normals, ndependents X111,mostres indep. 1X21! 1desconegudes 2 " 30 µ XX no normals, indep. µ111–––µµ µ222 ,!,X1X no indep. 2 2 !,!1!,desconeguda !1conegudes conegudes 2, n 2n " 30 µ 2 !! ,X !,qualssevol, n2normals, , nconegudes µ1 – µ2 ,X 1! 12desconegudes 2 " 30indep. XX indep. ! X 1,2qualssevol, 2,conegudes 11,,1X 212n n"qualssevol, " 30 indep. ,n,!X indep. X "230 30 1n n 11n 22conegudes ! , ! , n " 30 !, 11X,, 122! !qualssevol, 2,,nn22 ""30 1desconegudes µ11 –– µ µ2 X11! n2 desconegudes 30 indep. µ 2 s2n111,normals, s desconegudes m–1µ–2 m2 2desconeguda ! µ ,1X no !,X21X , ! desconegudes n , n " 30 1 qualssevol, indep. XX1X,1normal, qualssevol, indep. µ – 2 1 2 11 µ µ222 1 2 n2211, n22 " 30 n , n ≥ 30 XX , X qualssevol, indep. X , X qualssevol, indep. 1 2 1 2 ,1qualssevol, ! X ,desconegudes 2 !11!, ! ,122! 2desconegudes 1! 2X µ1µµ–111 ––µ2µµ222 =21 "!230 indep. 1X 2n 1nnormals, ,2conegudes 1! !! µµ !11,,,n!! !2nn,21desconegudes desconegudes µ11–––µµ µ22 mostres dependents , n " 30 , n " 30 ! !2 indep. desconegudes 2= 2 30 12 1n 21 " 1 2 qualssevol, 1 2 X11,, X X indep. X 2 qualssevol, nnnormals, ,,nn2=2""!30 30 11! X , X indep. 1 2 !,, 11X ! desconegudes 2 indep. µ11 –– µ µ22 X111! X,, 222! qualssevol, µ 22 ,desconegudes Xqualssevol, X12 normals, indep. X indep. 1 conegudes , ! 12! 2desconegudes ! = ! !, 12! , X1X, 11! X qualssevol, indep. µ – µ–22m X qualssevol, indep. 11, 2!s 2 desconegudes 1– µ !22 11 =desconegudes µ ,normals, s 221! 11m 2 1 µ2 qualssevol, indep. X , X qualssevol, µ – XX , X no indep. 1 2 1 1 2 ! , ! desconegudes !11, 1X desconegudes 1!22 qualssevol, µ1µ–11 –µ2µ222 2 22 ! 22 indep. , conegudes n11 2#=s"!30 1desconegudes = s !! µµ !1!1,,,1!! !2n! desconegudes , ! µ11–––µµ µ22 1 2 2 2!= = !2! 1 2 qualssevol, 2 1desconegudes 11 # 22 indep. 1 2 X11,, X X indep. X 2 qualssevol, ! !230 n1! , 1n11=2#="!! 2 ! ! , ! desconegudes 2 µ11 –– µ µ22 µ qualssevol, indep. 22 desconegudes XX11!,,11XX, 22!qualssevol, indep. qualssevol, indep. ! # ! X1XX, 11! X,!, 12X1X,,qualssevol, indep. 2 , X normals, indep. X !qualssevol, desconegudes 2! 112# !22 indep. desconegudes µµ11 –– µµ22 212 ! XX ,! qualssevol, indep. ,,XX qualssevol, indep. 22! , desconegudes –2µµ !111! ! desconegudes 1 2 µ 2 , ! desconegudes 1 µµ–11m–µ ! # ! s , s desconegudes –22m 1 2 !11 2= !22 !!11,,!!2!21desconegudes µµ11––1µµ22 2 desconegudes ! # ! # ! 1 2 n11, n2 s "2 30 ≠ s2 122 !!11##!! X1, X2 qualssevol, indep. X1!, 1X, 2!qualssevol, indep. µ1 – µ2 2 desconegudes !1, !2 desconegudes µ1 – µ2 ! 1 # !2 !1 = !2

Josep Maria Maria Mateo Mateo Sanz Sanz Josep CONDICIONS Josep Maria Mateo Sanz CONDICIONS Josep Maria Mateo Sanz Josep Maria Sanz XMateo normal, s coneguda Josep Maria Mateo Josep Maria Mateo Sanz CONDICIONS X normal, ! Sanz coneguda

Josep Maria Mateo Sanz Josep Maria Mateo Sanz Josep Maria Mateo Sanz

70 70 70 70 70 70 7070

MARGE D’ERROR

MARGE D’ERROR

MARGE D’ERROR MARGE D’ERROR MARGE D’ERROR MARGE D’ERROR D’ERROR MARGE MARGE D’ERROR MARGE D’ERROR MARGE D’ERROR MARGE MARGED’ERROR D’ERROR

MARGE D’ERROR

72

± marge error ± marge error

INTERVAL X INTERVAL ± marge error INTERVAL ± marge error ± marge error INTERVAL INTERVAL ± marge error INTERVAL XINTERVAL ± marge error INTERVAL ±± marge marge error marge error error ± INTERVAL INTERVAL ± marge error ± marge marge error ± ±marge error error marge error error ±± marge ±± marge marge error ± error marge error X INTERVAL ± ±marge margeerror error ± marge error ± marge error margeerror error X d ±±±marge marge error ± ±marge error marge error ± marge error ± marge error ±±marge margeerror error ± marge error ± marge error ± marge error ± marge error ± marge error ± marge error ± marge error INTERVAL ±±marge error marge error marge error marge error ±±±marge error ± marge error ±±marge margeerror error ± marge error marge error ± marge error ± marge error ± marge error marge error error ±± marge ±±marge error ± marge error marge error marge error ±±±marge margeerror error ± marge error ± marge error ± marge marge error error ± ± marge error marge error ± marge error ± marge error ±marge marge error error ±±marge error ±±±marge error marge error marge error ± marge marge error error ± ± marge error ± marge error ± marge error marge error ± ±marge margeerror error ±±±marge error marge error marge error ± marge marge error error ± marge error error ±± marge ± marge marge error ± ±marge error error marge ±±marge error margeerror error

INTERVAL

n1 + n2 – 2

n1 + n2 – 2 –

n1 + n2 – 2 n1 n+ –n21– 2 n1 + n2 – 2 nnn11++ nn22–––222– 1+n 2 nn1 ++nn2 ––22– 1 n1 + n2 –2 2 nn1n1+1++ nn2n2–2–2–22– n + 1 +nn2n22–––222– + nn11n1+ n2 – 2 – n1 + n2 – 2 – n1n+1 + n2n–2 2– –2 – nnn111+++nnn222–––222––

n–1

n pràctica –1 GRAUS LLIBERTAT Estadística pas a pas n–1 n–1 n–1 nn –– 11 n–1 GRAUSn LLIBERTAT –n 1– 1 nn––11

GRAUS LLIBERTAT GRAUS LLIBERTAT LLIBERTAT GRAUS Estadística pràctica pas a pas GRAUS LLIBERTAT GRAUS LLIBERTAT GRAUS LLIBERTAT GRAUS GRAUSLLIBERTAT LLIBERTAT

GRAUS LLIBERTAT Estadística pràctica a pas Estadística pràctica paspas a pas Estadística pràctica Estadística pràcticapas pasaapas pas GRAUS LLIBERTAT

Estadística pràctica pràctica pas pas aa pas pas Estadística

GRAUS LLIBERTAT Estadística pràctica pas a pas

Estadística pràctica pas a pas Estadística pràctica pas a pas Estadística pràctica pas a pas

Josep Maria Mateo Sanz


PARÀMETRE

2 CONDICIONS PARÀMETRE X normal 2 s ! X normal CONDICIONS PARÀMETRE CONDICIONS PARÀMETRE CONDICIONS PARÀMETRE !2 X normal !2 X normal 2 22 2 !2 !/!!1 X1, X2 normals, XXnormal normalindep. s 2/s 2 X1, X2 normals, indep. !22 / 2!12 1 X1, X2 normals, indep. !222 / !122 X1, XX2 binomial, normals, indep. ! XX11,,XX22normals, indep. !222p//!!112 normals, n " 30 indep. X binomial, p binomial, "X30 X nbinomial, p p n ≥ 30 XXbinomial, n " 30 binomial, p X1, X2 binomials, indep. nn""30 p1 –pp2 30 n1, n2 " 30 X1, X2 binomials, indep. p1 – p2 1, n2 " 30 indep. X1, XX2nbinomials, , X2 binomials, indep. p1 p– p–2 p XX11,,XX221binomials, indep. nbinomials, 1, n2 " 30 indep. p ≥ 30 p11––1pp22 2 nn11,,nnn221","n30 2 30

CONDICIONS

PARÀMETRE

MARGE D’ERROR MARGE D’ERROR MARGE MARGED’ERROR D’ERROR

MARGE D’ERROR

MARGE D’ERROR

73

± marge error ± marge error ±±marge marge margeerror error

± marge error ±±marge error ±marge margeerror error

INTERVAL , INTERVAL INTERVAL INTERVAL , , ,, , , ,, error ± marge pˆ ±± marge marge error error

INTERVAL

INTERVAL

Estadística Estadísticapràctica pràcticapas pasaapas pas

GRAUSn LLIBERTAT –1 –1 GRAUSNLLIBERTAT GRAUS GRAUSNLLIBERTAT LLIBERTAT –1 N–1 (n1 – N 1, N–n–211– 1) (n1 – 1, n2 – 1) (n1 – 1, n2 – 1) (n1 – 1, n2 – 1) (n (n11––1,1,nn22––1) 1)

GRAUS LLIBERTAT

Estadística pràctica pas a pas GRAUS LLIBERTAT

Estadística pràctica pas a pas

Josep Maria Mateo Sanz

Josep Maria Mateo Sanz CONDICIONS Josep Maria Mateo Sanz Josep Maria Mateo Sanz

Estadística pràctica pas a pas

Josep Maria Mateo Sanz

Estadística pràctica pas a pas



5. Contrastos d’hipòtesis El contrast d’hipòtesis es relaciona amb el conjunt de tècniques i mètodes estadístics que tenen com a objectiu la verificació de determinades afirmacions o suposicions fetes sobre algun o alguns paràmetres desconeguts que caracteritzen una població estadística. En aquest tema només tractarem els contrastos d’hipòtesis quan estem mostrejant poblacions normals o quan el nombre d’elements de les mostres sigui prou gran. Exemple. Suposem que tenim una moneda i fem l’afirmació que la moneda és correcta: la probabilitat d’obtenir cara és la mateixa que la d’obtenir creu; per tant, aquesta probabilitat és 0.5. Com es pot comprovar aquesta afirmació? Una manera seria fer un nombre elevat de llançaments i comptar quantes cares s’han obtingut. Segons el nombre de cares obtingudes decidirem si la moneda és correcta o, en canvi, està trucada. Per exemple, si llancem la moneda 200 vegades i ens surten 15 cares, sospitarem que la moneda està trucada; en canvi, si en aquests llançaments s’obtenen 95 cares, podrem afirmar que la moneda és correcta. El problema és determinar, amb un cert nivell d’error, quin és el nombre de cares que fa de frontera entre una decisió i l’altra. Per tant, hem de trobar un interval, una zona, on, si el nombre de cares que hem obtingut està dintre de l’interval, acceptarem que la moneda és correcta. Suposem que, en llançar la moneda, el nombre de cares que surt no es troba dins de l’interval proposat. Aquest fet pot ser degut a dues causes: 1. La moneda no és correcta i és lògic el resultat que hem obtingut. Haurem de rebutjar la hipòtesi que p = 0.5. 2. La moneda és correcta, però el resultat obtingut és estrany. Entre aquestes dues alternatives sembla més raonable justificar el resultat per la primera causa. 75


Josep Maria Mateo Sanz

L’exemple comentat conté alguns elements bàsics de la teoria del contrast d’hipòtesis: a) Especificació de les hipòtesis: p = 0.5 (la moneda és correcta) i p ≠ 0.5 (la moneda està trucada). b) Definició d’un nivell d’error. c) Construcció de zones d’acceptació (o de rebuig) de la hipòtesi proposada. d) Determinació d’un estadístic de prova: el nombre de cares que han sortit. e) Decisió final sobre la hipòtesi (acceptem o rebutgem la hipòtesi proposada).

5.1 Hipòtesis estadístiques. Tipus d’hipòtesis Definició. Sigui una població estadística caracteritzada pel comportament d’una variable la distribució de la qual depèn d’un vector de paràmetres θ desconegut. Definim l’espai paramètric com el conjunt de valors compatibles amb θ, és a dir, els possibles valors que pot prendre θ. El notarem amb el símbol Ω. Exemples a) Si p és una proporció poblacional, llavors: Ω = {p | 0 ≤ p ≤ 1} b) Si X~N(μ,σ), amb μ i σ desconeguts: Ω = {(μ,σ) | –∞ < μ < ∞ , σ2 > 0} c) Si X~N(μ,σ), amb σ = σ0 conegut: Ω = {(μ,σ0) | –∞<μ<∞} d) Si X~N(μ,σ), amb μ = μ0 conegut: Ω = {(μ0,σ) | σ2 > 0} Definició. Una hipòtesi estadística (o simplement hipòtesi) és una suposició que determina, parcialment o totalment, la distribució de probabilitat d’una v. a. Les hipòtesis es poden classificar en dos grups: a) Les que especifiquen un valor concret o un interval per al vector de paràmetres del model. Per exemple, p = 0.5 o m < 4. b) Les que determinen el tipus de distribució de probabilitat que ha generat les dades. Per exemple, la distribució de la variables que s’està estudiant és normal. Encara que la metodologia per realitzar el contrast d’hipòtesis és semblant en els dos casos, distingir entre els dos tipus d’hipòtesis és important, perquè molts proble76


Estadística pràctica pas a pas

mes de contrast d’hipòtesis respecte d’un paràmetre són en realitat problemes d’estimació, que tenen una resposta més clara donant un interval de confiança per al paràmetre que es vol estimar. En canvi, les hipòtesis respecte a la forma de la distribució pertanyen a la fase de diagnòstic i validació del model i s’estudien a banda. En aquest tema ens centrarem en les hipòtesis del primer grup. Definició. Anomenarem hipòtesi simple aquella que especifica un únic valor de l’espai paramètric. En cas contrari, estem davant d’una hipòtesi composta. Definició. Anomenarem hipòtesi nul·la, H0, la hipòtesi que es contrasta. H0 representa la hipòtesi que mantindrem llevat que les dades n’indiquin la falsedat. Complementàriament a H0 es defineix la hipòtesi alternativa, H1. Quan rebutgem H0 estem acceptant una hipòtesi alternativa: que H0 és falsa. Un contrast implica l’elecció entre dues hipòtesis: la H0 que contrastem i una hipòtesi alternativa, H1, que està implícita en el rebuig de H0. La H0 i H1 no tenen un comportament simètric, és a dir, si tenim dues hipòtesis, no és indiferent quina s’agafa com a H0 i quina s’agafa com a H1. Al final s’acceptarà una hipòtesi o l’altra en funció de quina sigui més coherent amb les evidències de les proves (les dades de la mostra) que hi hagi. En general: • Si les proves demostren que és certa la H1, s’accepta la H1. • Si les proves demostren que és certa la H0, s’accepta la H0. • Si les proves són dubtoses, s’accepta la H0. Per això, quan s’accepta la H1 és que realment s’ha demostrat que és certa, mentre que quan s’accepta la H0 realment el que pot haver passat és que no s’hagi demostrat que la H1 sigui certa. Per aquest motiu, moltes vegades, en comptes de dir que s’accepta la H0 es diu que no hi ha prou evidències que la H1 sigui certa. Per tant, per regla general, la hipòtesi que es vol demostrar és la que triarem com a H1. Quan es fa un contrast d’hipòtesis, sovint existeix més d’una hipòtesi alternativa respecte d’una hipòtesi simple nul·la H0, és a dir, tenim una hipòtesi simple davant d’una hipòtesi alternativa composta. Ens podem trobar amb tres casos diferents: Cas 1 (H1 bilateral)

Cas 2 (H1 unilateral dreta)

Cas 3 (H1 unilateral esquerra)

H0: θ = θ0 H1: θ ≠ θ0

H0: θ ≤ θ0 H1: θ > θ0

H0: θ ≥ θ0 H1: θ < θ0

Exemples a) El cas de comprovar si una moneda és correcta o està trucada es correspondria amb el cas 1, ja que la hipòtesi alternativa és bilateral: 77


Josep Maria Mateo Sanz

H0: p = 0.5 H1: p ≠ 0.5 b) Si anem a un concessionari de cotxes i el venedor ens diu que el consum d’un determinat model de cotxe és de 3 litres cada 100 quilòmetres i no ens acabem de creure que aquest consum sigui el real, estarem en el cas 2, ja que el que nosaltres voldrem demostrar, H1, és que el consum mitjà del cotxe és superior a 3 litres cada 100 quilòmetres (si és menor, no protestarem): H0: μ ≤ 3 H1: μ > 3 c) Si som d’una associació de consumidors i volem demostrar que l’empresa que envasa l’aigua en ampolles de 50 cl ens estafa, estarem en el cas 3, ja que el que nosaltres voldrem demostrar, H1, és que la quantitat mitjana d’aigua per ampolla és inferior a 50 cl (si és superior, no ens estaran estafant): H0: μ ≥ 50 H1: μ < 50

5.2 Concepte de zona crítica i zona d’acceptació Definició. Per fer més operativa la decisió que s’ha de prendre, es defineix un estadístic de prova com una funció dels elements mostrals que no depengui explícitament dels paràmetres poblacionals desconeguts. En l’exemple de la moneda, l’estadístic de prova era el nombre de cares que surten en 200 llançaments. Prenent com a referència aquest estadístic de prova i a partir d’un punt crític c, es determinaran les zones crítica i d’acceptació de cada hipòtesi. Definició: si l’estadístic de prova pren un valor que està dintre d’un rang de valors “coherents” amb la hipòtesi nul·la, acceptarem aquesta hipòtesi. Aquest rang de valors l’anomenarem zona d’acceptació A. La zona crítica, o zona de rebuig, serà la zona complementària a la zona d’acceptació. Per tant, qualsevol mostra estarà en una zona o una altra. La regla de decisió per decidir entre H0 i H1 serà la següent: a) si es presenta el succés {estadístic de prova ∈ A} o {mostra ∈ A}, s’accepta H0. b) si es presenta el succés {estadístic de prova ∉ A} o {mostra ∉ A}, s’accepta H1.

78


Estadística pràctica pas a pas

5.3 Tipus d’errors. Nivell de significació Contrastar una hipòtesi suposa que hem de prendre una decisió en la qual hem d’acceptar o rebutjar H0. Si s’accepta la hipòtesi nul·la s’està rebutjant la hipòtesi alternativa; si es rebutja la hipòtesi nul·la s’està acceptant la hipòtesi alternativa. Per tant, en el contrast d’hipòtesis es poden cometre dos tipus d’errors: Decisió

Hipòtesi certa

Zona acceptació, H0

Zona crítica, H1

H0

No hi ha error

Error de tipus I

H1

Error de tipus II

No hi ha error

Definició. Definim: Error de tipus I: rebutjar la hipòtesi nul·la quan és certa. Error de tipus II: acceptar la hipòtesi nul·la quan és falsa. També s’anomenen errors de 1a i 2a espècie, respectivament. Definició. La probabilitat de cometre un error de tipus I es coneix amb el nom de nivell de significació α del contrast. α es fixa, normalment, en 0.1, 0.05 o 0.01, depenent de la importància de la hipòtesi en joc. Denotarem mitjançant β la probabilitat de fer un error de tipus II: α = P(error de tipus I) = P(rebutjar H0 sent certa) β = P(error de tipus II) = P(acceptar H0 sent falsa) Els valors α i β mantenen entre si una relació inversa: per a una determinada mida mostral, si α el fem més petit, β serà més gran i a l’inrevés. L’única manera de disminuir ambdós a la vegada és augmentant la mida de la mostra. Definició. Es defineix la potència del contrast, 1 – β, com la probabilitat de rebutjar H0 sent falsa. Per determinar les zones d’acceptació de cada hipòtesi, fixat un nivell de significació α, s’intentarà que tingui la màxima potència, ja que llavors l’error de tipus II serà el més petit possible. El procediment de selecció d’una zona crítica mitjançant el nivell de significació té dues crítiques principals: 1. El resultat del test pot dependre molt del valor de α, que és arbitrari, sent possible rebutjar H0 amb α = 0.05 i acceptar-la amb α = 0.04. 2. Donar només el resultat del test no permet diferenciar el grau d’evidència que la mostra indica a favor o en contra de H0.

79


Josep Maria Mateo Sanz

Definició. Per contrarestar aquestes crítiques, definirem de manera simple el nivell crític αc o p-valor com, donada una mostra, la probabilitat que sigui certa la H0. Anomenant EP el valor observat de l’estadístic de prova i suposant que la H1 sigui unilateral dreta, tenim que: αc = P(H0 ≥ EP) Si H1 és unilateral esquerra, obtenim que: αc = P(H0 ≤ EP). Si H1 és bilateral i la distribució de l’estadístic de prova quan H0 és certa és simètrica respecte del zero, aleshores αc = P(|H0| ≥ EP). Esquemàticament tindrem:  

  H1 bilateral



  H1 unilateral dreta



  H1 unilateral esquerra

α  α α α αα α α     



  



Per tant, el valor de αc no es fixa a priori, com passava amb el nivell de significació α, sinó que es determina a partir de la mostra. Donada la interpretació del nivell crític αc com, donada una mostra, la probabilitat que sigui certa la H0, és lògic pensar que, com més petit sigui el valor de αc, menys possibilitats hi ha que sigui certa la H0 i, al contrari, més n’hi haurà que sigui certa la H1. Basant-nos en α, la regla per decidir entre H0 i H1 serà la següent: • Si αc < α, acceptarem H1. • Si αc > α, acceptarem H0. El valor de α amb què es vol treballar el decideix l’experimentador. Normalment, els programes informàtics d’estadística ens donen el p-valor αc. Com a regla orientativa es pot dir que: • Si ac < 0.01, la H1 s’acceptarà amb una seguretat molt alta. • Si 0.01 < ac < 0.1, la hipòtesi que s’acceptarà dependrà del valor concret de a amb què es vol treballar, però hi ha força evidències que la H1 és certa. • Si 0.1 < ac < 0.25, la hipòtesi que s’acceptarà generalment serà la H0, però hi haurà molts dubtes que sigui realment certa. Tampoc no hi ha gaires evidències que la certa sigui la H1. • Si 0.25 < ac, la H0 s’acceptarà amb una seguretat alta i que serà més forta com més alt sigui ac.

80


Estadística pràctica pas a pas

5.4 Aplicació dels contrastos d’hipòtesis a diferents paràmetres i condicions A la taula de contrastos es donen les instruccions per fer diversos contrastos d’hipòtesis, segons les condicions amb les quals estem treballant i el paràmetre sobre el qual volem fer el contrast. A la columna de l’esquerra hi ha les condicions en les quals es pot aplicar cada contrast. A la segona columna hi trobem la hipòtesi nul·la que volem contrastar. A la columna central tenim l’estadístic de prova que hem de calcular en cada cas i la distribució que segueix. En les dues últimes columnes s’hi troben la hipòtesi alternativa (sempre n’hi ha 3 per a cada H0) i el criteri que ha de complir l’estadístic de prova per acceptar la H1 (el criteri és diferent per a cada H1). Sempre hem de tenir present quin és el paràmetre sobre el qual volem fer contrastos i les condicions amb les quals estem treballant per usar l’estadístic adient. Els passos que hauríem de seguir per fer un contrast d’hipòtesis serien: 1. Determinar sobre què es vol fer el contrast (depèn de l’enunciat): a) una mitjana poblacional b) una comparació de mitjanes poblacionals c) una variància poblacional d) una comparació de variàncies poblacionals e) una proporció poblacional f) una comparació de proporcions poblacionals 2. Determinar les condicions generals de l’exercici per treballar amb l’estadístic de prova adient. 3. Determinar la hipòtesi nul·la, H0. 4. Determinar la hipòtesi alternativa, H1. 5. Determinar la zona de les taules estadístiques on s’accepta la H0. 6. Determinar la zona de les taules estadístiques on s’accepta la H1. Serà la zona complementària a la trobada al pas 5). 7. Determinar la zona de l’estadístic mostral on s’accepta la H0. Entenem per estadístic mostral l’estadístic que resulta de fer un càlcul directe sobre la mostra i que està associat al paràmetre sobre el qual es vol fer el contrast. Per determinar aquesta zona cal igualar, a la fórmula de l’estadístic de prova, l’EP als valors trobats en el pas 5) deixant com a incògnita l’estadístic mostral corresponent. Els estadístics mostrals són: a) la mitjana mostral si estem fent un contrast sobre una mitjana poblacional, b) la diferència de mitjanes mostral si estem fent un contrast sobre una diferència de mitjanes poblacionals, 81


Josep Maria Mateo Sanz

Estadística pràctica pas a pas

Josep Maria Mateo Sanz

Estadística pràctica pas a pas

Josep Maria Mateo Sanz

8) Determinar la zona de l’estadístic mostral on s’accepta la H1 (depèn del pas 8)). Serà la zona 8) Determinar laazona de l’estadístic complementària la trobada al pas 7).mostral on s’accepta la H1 (depèn del pas 8)). Serà la zona

c) la variància mostral si estem fent un contrast sobre una variància pobla-

complementària cional,a la trobada al pas 7).

9) Calcular de prova, EP (depèn delssipassos 2) iun 3)).contrast sobre una comd) ell’estadístic quocient de variàncies mostrals estem1),fent 9) Calcular l’estadístic de prova, EP (depèn dels passos 1), 2) i 3)). paració de variàncies poblacionals,

e) la els proporció si estem fent un contrast sobre una proporció pobla10) Segons valors demostral l’EP i l’estadístic mostral i les zones d’acceptació de cada hipòtesi, cional, 10) Segons els de l’EP i l’estadístic les 6) zones de cada hipòtesi, decidir quina és valors la hipòtesi certa (depèn delsmostral passosi 5), i 9) d’acceptació o de l’estadístic mostral i els

diferència de proporcions si 5), estem unai els decidirf) és la hipòtesi certa (depèn mostrals dels passos 6) ifent 9) oun de contrast l’estadísticsobre mostral passos 7)quina ila8)). de proporcions poblacionals. passos 7) comparació i 8)).

la zona1),comDeterminar zona de l’de estadístic mostral s’accepta H1. Serà (depèn dels passos 2), 4) i 11)8. Calcular el valorladel nivell significació crític on o p-valor (c la plementària a la trobada al pas 7). 11) Calcular el valor del nivell de significació crític o p-valor (c (depèn dels passos 1), 2), 4) i 9)). 9. Calcular l’estadístic de prova, EP. 9)).

10. Segons els valors de l’EP i l’estadístic mostral i les zones d’acceptació de cada

12) Segons els valors de (c i de (, decidir quina és la hipòtesi certa (depèn del pas 11)) i del hipòtesi, decidir quina és la hipòtesi certa. 12) Segons valor escollitels de valors (). de (c i de (, decidir quina és la hipòtesi certa (depèn del pas 11)) i del

11. Calcular el valor del nivell de significació crític o p-valor ac. 12. Segons els valors de ac i de a, decidir quina és la hipòtesi certa.

valor escollit de ().

Notació. La notació emprada a la taula dels contrastos és la següent: Notació. a lade taula dels contrastos la següent: ) n ésLa el notació nombreemprada d’elements la mostra. Si té unéssubíndex, significa que hi ha més d’una

Notació. La notació emprada a la taula dels contrastos és la següent: nelésnombre el inombre d’elements mostra. un subíndex, subíndex, significa d’una n) ésmostra lements dedela lamostra. SiSitétéun significaque quehihihahamés més amb d’ elesubíndex indiquem amb quina mostra treballem. mostra i ambelelsubíndex subíndex indiquem indiquem amb mostra treballem. d’una mostra i amb ambquina quina mostra treballem. ) )

és la mitjana de la mostra. El significat dels subíndexs és el mateix que en el és la mitjana mitjanadedelalamostra. mostra. significat subíndexs el mateix és la El El significat delsdels subíndexs és el és mateix que en el

• cas anterior. que en el cas anterior. cas anterior.

és la variància delalamostra. mostra.ElElsignificat significat dels subíndexs el variància de dels subíndexs és elésmateix ) mateix que en el primer és la variància la mostra. significat dels subíndexs mostral és el mateix cas. Calde observar queElper calcular la variància que en el primer cas. Cal observar que per calcular la variància mostral s’ha de dividir s’ha de dividir entre n – 1 i no entre n (com fèiem al tema d’estadística descrip- 2 que en cas.n Cal calcular la descriptiva), variància mostral de dividir entre n –el1 primer i no entre (comobservar fèiem alque temaper d’estadística ja ques’ha l’estimador S tiva), ja que l’estimador S2 té millors propietats que si dividíssim entre n. 2

• )

entre n – 1propietats i no entreque n (com fèiem alentre teman.d’estadística descriptiva), ja que l’estimador S té millors si dividíssim propietatsen quequè si dividíssim entrecaracterística n. pˆ millors és lala proporció en què apareixcerta certa característica una mostra. signifi-dels proporció apareix enen una mostra. El El significat ) té

cat subíndexs és mateix que en el primer cas. )subíndexs és dels la proporció enque quèel certa és el mateix enapareix el primer cas.característica en una mostra. El significat dels

és el en el primer cas. N(0,1), que deixen a la seva dreta una i z són elsmateix valorsque trobats a la taula • ) zzsubíndexs &α/2 /2 i z& αsón els valors trobats a la taula N(0,1), que deixen a la seva dreta una àrea igual a α /valors 2 i α,trobats respectivament. ) àrea z&/2 i igual z& sónaels a la taula N(0,1), que deixen a la seva dreta una àrea igual a

& / 2 i &, respectivament. els valors trobats a la taula t de Student que deixen a la seva dreta • t&α/2/ 2i itα&,són respectivament.

una àrea igual a α/2 i α, respectivament. 80 80 82


Josep Maria Mateo Sanz Josep Maria Mateo Sanz

Estadística pràctica pas a pas

) t&/2 i t& són els valors trobats a la taula t de Student que deixen a la seva dret Estadística pràctica pas a pas

a &/2 itrobats &, respectivament. ) t&/2 i t& són els valors a la taula t de Student que deixen a lapas sevaa pas dreta una àrea igua Estadística pràctica 2 2 2 2 2 ) ( & / 2 a,(la1–taula i (Student trobats a la dreta taula una ( que deixen & / 2, ( t&de ) t&/2 i t& són els ivalors trobats quevalors deixen a la seva àrea igual a la sev 1–& són els a &/2 &, respectivament.  



a &són / 2,els 1 –valors & / 2,trobats & ai 1la–taula 2 &,(respectivament. • χ α /a2&/2 ,χ2i1–α , χ2,(2i χ2 , (2igual són els trobats χ2 que deixen a la seva ) i (21– a&,larespectivament. taula (2 que deixen a la seva dreta una àre & valors / 2& / 2 α 1–& / 21–α & 2 2 2 2 2 )són  , 1 F –&/2α, F/&trobats i F &i 1 són valors trobats a la de Fisher que deixen (a i ( a– la els taula ( que deixen a lataula sevaFdreta una àrea ) (&una dreta /–F&2, α, respectivament. /2els & /  && & / 2,(àrea 2, igual 1–igual 1–α   / a2, & / 2,1–valors & i 1 –2,&,α1– respectivament.  1 una igual a &/2,a 1la–taula & / 2, F& de i 1 –Fisher &, respectivament. &, FF/&2, 2, &els i 1valors –àrea &, respectivament. , F a) i1F– & /són trobats que deixen a la • F igual /2, F1–&/2, F& i F1–& són els valors trobats a la taula F de Fisher que deixen a la seva dret 2

α/2

1–α/2 Josep α Maria1–α Mateo

Sanz

Estadística pràctica pas a pas

seva igual a&/2, α/2, α &/ i2,1a α itaula 1respectivament. – α, respectivament. ) Fdreta ,  F&àrea i F els valors F de Fisher que deixen a la seva dreta &/2,F1–&una & són a  /2 1–igual   una àrea 1 –1&–trobats / 2, –la&,

Exemple 1. &Amb verificar consum cotxedreta s’han una àrea igual – &valors / 2, i 1 – l’objectiu &, arespectivament.  ) t&/2 iat&/2, trobats la tauladet de Studentelque deixend’un a la seva unaagafat àrea ig & són1els d’aquest en trajectes de s’han 100 km. Els16 resultats són: 5,06, 5,08, 4 Exemple1.Exemple Amb l’ao&/2 bjectiu de verificar el cotxe consum cotxe agafat i consum &, respectivament. 1. Amb l’objectiu de verificar d’un el consum d’un cotxe s’hanmesures agafat 16 mesures de del consum d’a quest cotxe en 5,10, de5,12, 100 km. Els resultats són: 5.06, 5.08, 4.99, 5.03, 4,97, 5,14, 5,05, 4,93, 4,96, 5,06, 5,02, 5,09 i 4,96. Si  suposem que 2 l’objectiu 2trajectes 2 agafat Exemple 1. Amb de2 iverificar el consum d’unEls cotxe s’han 16 mesures del          ) ( (2trajectes valors trobats a la taula (són: que deixen a la seva dreta à consum d’aquest 100 km. resultats 5,06, 5,08, 4,99, 5,03,una 5,04 & / 2 ,( 1–&cotxe / 2, ( & en 1–& són elsde 5.04, 5.10, 4.97, 5.12, 5.14, 5.05, 4.93, 4.96, 5.06, 5.02, 5.09 i 4.96. Si suposem que el cotxe segueix una v. a. normal amb desconeguda, ¿existeix alguna raó consum d’aquest cotxe trajectes de Els resultats són:i 5,06, 5,08, 4,99, 5,03,   variància  Si      5,10, 4,97, 5,12, 4,93, 4,96, 5,06, 5,02, 5,09 4,96. suposem que el5,04, consum de igual a &en /5,14, 2, 1 –5,05, & / 2, &100 i 1 –km. &, respectivament. consum del cotxe segueix una v. a. normal amb variància desconeguda, ¿existeix alguna & = 0,05, que el consum mitjà del cotxe és superior a 5 litres cada 100 quilòmetre 5,10, 4,97, 5,12, 5,05, 5,06, 5,02,trobats 5,09 i a4,96. Si suposem que el consum del  cotxe segueix a.i normal variància desconeguda, ¿existeix alguna raó per acreure, ) F5,14, F&4,93, F &4,96, sónamb els valors la taula F de Fisher que deixen la sevaamb dr & , Funa & , v.

/2 1–que /2 1– raó per creure, amb α = 0.05, el consum mitjà del cotxe és superior a 5 litres cada 100 cotxe segueix una v. a. normal amb variància alguna per creure, amb  queàrea el consum mitjà1del a¿existeix 5 litres cada 100raó quilòmetres? igual a &/2, – &cotxe / 2,desconeguda, & és i 1superior – &, respectivament. quilòmetres? & = 0,05,una

 & = 0,05, que el consumSolució mitjà del cotxe és superior a 5 litres cada 100 quilòmetres?

Solució 1) Es vol fer un contrast sobre el consum mitjà, per tant, sobre una mitjana poblac Solució 1. Amb l’objectiu de verificar consum d’un s’han agafat 16 mesures 1. Es vol ferExemple un contrast sobre el consum mitjà, pereltant, sobre unacotxe mitjana pobla2) Ens diuen que la distribució del consum del cotxe, la variable que es vol estud  Solució cional. 1) consum Es vol ferd’aquest un contrast sobre el consum per tant, sobre unasón: mitjana cotxe en trajectes demitjà, 100 km. Els resultats 5,06,poblacional. 5,08, 4,99, 5,03, 5,

més, la mostra és de 16 elem normal es coneix laper variànciasobre poblacional *2. A  1) Es vol un diuen contrast sobre eli no consum mitjà, una mitjana poblacional. 2)fer Ens la 5,14, distribució consum del cotxe, variable que vol estudiar, segueix un 5,10, 4,97,que 5,12, 5,05, del 4,93, 4,96, tant, 5,06, 5,02,la 5,09 i 4,96. Siessuposem que el consum

2. Ens diuen que la distribució del consum del cotxe, la variable que es vol estudiar,  agafarem elconsum tercer estadístic delalavariable 2taula. que  2)segueix Ens σ diuen que la del del cotxe, vol estudiar, unacreure, normal isegueix nodistribució es iconeix la poblacional *desconeguda, . A més, mostra de 16segueix elements. Per això cotxe unaesv.coneix a.variància normal amb variància ¿existeix alguna a més, laésmostra ésraó per una normal no la variància poblacional s2.laAes 2 3) H : µ $ 5. normal ielements. no&es coneix laaixò, variància poblacional * estadístic .A lade mostra és de 16100 elements. Per això, 0 agafarem de 16 eldel tercer agafarem elPer tercer estadístic de la taula. = 0,05, que el consum mitjà cotxe ésmés, superior ala5 taula. litres cada quilòmetres? : µla> taula. 5. 4) H1de estadístic  agafarem el tercer

 : µ $ 5. 3)5. H 0 3. H0: μ ≤

5) S’ha de consultar la taula t de Student amb 16 – 1 = 15 graus de llibertat. La 3) H0: µ $4)5.  Solució H : µ > 5.

4. H1: μ > 5. 1

la zo dreta i el valor de ( és 0,05. Per tant, el punt t0,05 és 1,75. En definitiva, 4) H1: µ > 5)5. S’ha la taula t de elStudent amb 16 per – 1 tant, = 15sobre grausuna de llibertat. La H 1) Es de volconsultar fer un contrast sobre consum mitjà, mitjana poblacional. 1 és unilatera

5. 5)S’ha de consultar la taula taula de0,05. Student amb 16 –0=del 1és =(–# 15 graus de llibertat. 1,75). estadístiques onPer s’accepta la  S’haα de consultar la ttés de Student amb 16el –punt 1H 15 graus llibertat. LaesHLa ésH unilateral  1 1 la 2) Ens que distribució del consum cotxe, ladevariable que vol estudiar, segueix és, 1,75. En definitiva, zona de les tauleu dreta i el diuen valor de (la tant, t0,05 és 1.75. En definiés unilateral dreta i el valor de a és 0.05. Per tant, el punt t 6) La zona de les taules estadístiques on s’accepta la H és la complementària 0.05 dreta i  elestadístiques valor de i(noés Perlatant, el punt és 1,75. definitiva, la zona de16les taules Peraail 1 és de ∞ A més, la mostra elements. normal coneix poblacional *2.En ones0,05. s’accepta lavariància H ,t0,05 1,75). 0 és (–# tiva, la zona de les taules estadístiques on s’accepta la H0 és (–∞ , 1.75). 5), per tant, (1,75 , #).

estadístiques s’accepta la Hestadístic (–# ,de 1,75).   0 és el les tercer la taula. 6) agafarem Laonzona de taules estadístiques on s’accepta la H 1 és la complementària a la trobada al pa 6. 6)La de les taules estadístiques s’accepta Hla és la complementària a la Lazona zona de estadístiques on on s’accepta la Hla1 és ∞ 1 complementària a la trobada al pas Hles : µtaules $(1,75 5. 7) 5),3) per ,Tenim #). l’EP 0tant, i l’igualem a 1,75 deixant com a incògnita, és trobada al pas 5), per tant, (1.75 , ∞). 5), per tant,4)(1,75 H1: µ, #). > 5.  − µ    i 7) Tenim l’EP l’igualema 1,75 deixant    coma incògnita,ésa dir, resolem   la taula t de Student amb 16 – 1 = 15 graus de llibertat. La H1 és unilate 5) S’ha de consultar i obtenim = 5,03. En definitiva, zona de resolem la mitjana most 7. 7)Tenim ii l’igualem deixant a incògnita, és ala dir, Teniml’EP= l’EP l’igualema a1.75 1,75 deixant com com a incògnita, és a resodir, −  i el valor de ( és 0,05. Per tant, el punt t0,05 és 1,75. En definitiva, la zona de les tau dreta =     iobtenim obtenim5,03). = la zona de la mostral on s’accept lem =5,03. 5.03.EnEndefinitiva, definitiva, la zona demitjana la mitjana laonHis’accepta 0 és (–# , la   estadístiques H0 és (–# , 1,75). i obtenim = 5,03. En definitiva, la zona de la mitjana mostral on s’accepta 8) Lataules zona de la mitjana on mostral on s’accepta la complementària H1 és la complementària a laaltr mostral on s’ a ccepta lales H és (–∞, 5.03). 6) La zona de estadístiques s’accepta la H1 és la a la trobada la H  0 és (–# , 5,03). 0 ∞ per tant, , #). H0 zona és (–# , 5,03). per tant, , #).(5,03 8) 5), La de (1,75 la mostral mitjana mostral on s’accepta a la trobada al pas 7) 8. laLa de lazona mitjana on s’accepta la H éslalaH complementària a la troba1 és la complementària  1

n = 16, S =a 0,062 i, peraltant, Els resultats mostralslasón 8)da Laalzona laper mitjana mostral on s’accepta H1 és=la5,0375, complementària la trobada pas EP 7), = 2,42. pas 7), tant, (5.03 , ∞). perde tant, (5,03 ,9)#). ∞ 7) Tenim l’EP i l’igualem a 1,75 deixant com a incògnita, és a dir, resol per tant, 9) (5,03 #). = 5,0375, n =S16, = 0,062 i, per tant, 2,42. Els,resultats són5.0375,    n = 16, = S0.062 i, per tant, EPEP==2.42. 9. Els resultats mostralsmostrals són x = 81 9) Els resultats mostrals són = 5,0375, n =16, S = 0,062 i, per tant, EP = 2,42.  i obtenim En idefinitiva, la zona de la mitjana mostral on s’acce 10. Com que la mitjana de la mostra és ==5,03. 5.0375 aquest valor es troba a la zona 81 α  aquesta H1, amb un a = 0.05, de la  mitjana mostral on s’accepta la H1, acceptem 81 la H0 és (–# , 5,03).

83 on s’accepta la H és la complementària a la trobada al pas 8) La zona de la mitjana mostral 1  per tant, (5,03 , #).


Josep Maria Mateo Sanz

és a dir, el consum d’aquest cotxe és superior a 5 litres cada 100 km. Arribem a la mateixa conclusió si comprovem que EP = 2.42 es troba a la zona de les taules estadístiques on s’accepta la H1. 11. Com que la H1 és unilateral dreta i estem treballant amb el tercer estadístic de la taula i EP = 2.42, cal buscar l’àrea que hi ha a la dreta de l’EP a les taules de la t de Student amb 15 graus de llibertat. Interpolant, el resultat és ac = 0.0143.

a Mateo Sanz

12. Si volem treballar amb a = 0.05 i com ac = 0.0143 a = Mateo 0.05,Sanz s’accepta H1, és a Josep<Maria dir, el consum d’aquest cotxe ésEstadística superiorpràctica a 5 litres pas acada pas 100 km.

4) El marge d’error de l’interval es calcula a partir Exemple 2. Per comparar dos mètodes pedagògics diferents, s’han fet uns tests a dos rge d’error de l’interval calcula cada a partir de ha après segons un mètode diferent. El . primer grup és de 10 grups d’es alumnes; grup Amb les dades de l’enunciat tenim que el marge d’ alumnes i el segon de 16 alumnes. Suposem que les puntuacions segueixen v. a. normals dades de l’enunciat que el imarge d’error de l’interval iésiguals. 1,24. Els resultats 6.3,i S12 == 3.4, ambtenim esperança variància desconegudes van que ser 5) Com ==6,3 5,8 i l’interval es 2 == 5.8 = 3.1.esEsconstrueix tracta decom verificar, amb α± =marge 0.1, la suposició que lesésvariàncies que = 6,3 i 5,8 i S l’interval a d’error, 2 l’interval que obtenim –0,74 < µ1 – µ2 < 1,74. poblacionals són iguals. que obtenim és –0,74 < µ – µ < 1,74. Aquest resultat vol dir que, amb un 90% de

confiança, la diferència de les esperances de les p a, la diferència de les Solució esperances de les puntuacions segons els mètodes proposats estàinterval. en aquest 1

interval.

2

1. Es vol fer un contrast sobre una comparació de variàncies poblacionals.

2. Ens diuen que la distribució de les puntuacions amb un mètode i l’altre segueixen una normal i les mostres s’han agafat de manera independent. Usarem novè associat 4.5.1 Càlcul del nivellel d’error estadístic de la a taula. Càlcul del nivell d’error associat un marge d’error donat

Ens podríem demanar amb quin nivell de confian íem demanar amb quin nivell de2 confiança (o d’error) caldria treballar per aconseguir un determinat marge d’error. En aquest cas, ca 4. H1: σ1 ≠ σ22. minat marge d’error. En aquest cas, caldria igualar la fórmula del marge d’error al valor concret del marge d’error corresponent

3. H0: σ12 = σ22.

5. S’ha de consultar la taula F de Fisher amb 9 i 15 graus de llibertat. La H és bila-

1 nent al valor concret del marge d’error desitjat deixant com a incògnita eltaules valorestadístiques. de A partir del valor de taules est teral i el valor de a és 0,1. Per tant, a / 2 = 0,05 i el punt F0.05 és 2.59 i el punt F0.95 adístiques. A partir del valor de taules estadístiques es pot trobar el nivell de oconfiança el d’error.

or.

és 1 / 3.01 = 0.33. En definitiva, la zona de les taules estadístiques on s’accepta la H0 és (0.33, 2.59).

6. La zona de les taules estadístiques on s’accepta la H1 és la complementària a la 4.5.2 Càlcul de la mida d’una mostra trobada al pas 5), per tant, serà (0, 0.33) ∪ (2.59 , ∞).

Càlcul de la mida d’una mostra

7. En aquest cas, l’estadístic mostral (quocient deDonat variàncies mostrals) coincideix el nivell de confiança (o el d’error), ens po la definició de l’EP i, per tant, dellaquocient de mostrals on nivell de confiança (o el amb d’error), ens podríem demanar quinalahazona de ser mida deper la variàncies mostra aconseguir un cert marge d’error. En aq s’accepta la H0 també és (0.33, 2.59).

er aconseguir un cert marge d’error. En aquest cas, caldria igualar la fórmula d’error del marge corresponent al valor concret del marge d’

8. Ladel zona del quocient de variàncies mostrals on s’accepta la H és la complemenorresponent al valor concret marge d’error desitjat deixant com a incògnita de lalamida mostra. 1Aquesta variant es podria aplica tària a la trobada al pas 7), per tant, (0, 0.33) ∪ (2.59 , ∞). ostra. Aquesta variant es podria aplicar als intervals 1 (interval sobre lapoblacional mitjana amb variància poblacional coneguda),

i S2 =poblacional 3.1 i, per tant, EP = 1.1. 9. Els resultats mostrals són sobre S1 = la3.4mitjana nal amb variància poblacional coneguda), 2 (interval ambpoblacional variància desconeguda i suposant que 2

2

poblacional desconeguda i suposant que la mida de la mostra, tot i que no espriori, coneixserà a gran) i 9 (interval sobre la proporció po

rà gran) i 9 (interval sobre la proporció poblacional).

ions

84

Observacions

1) El cas de l’interval 1 realment serà difícilmen


Estadística pràctica pas a pas

10. Com que EP = 1.1 es troba a la zona de les taules on s’accepta la H0, acceptem aquesta H0 amb un a = 0.1, és a dir, les variàncies poblacionals podem assumir que són iguals (no hi ha evidències significatives que siguin diferents). 11. Com que la H1 és bilateral i estem treballant amb el novè estadístic de la taula i EP = 1.1, cal buscar l’àrea que hi ha a la dreta de l’EP a les taules de la F de Fisher amb 9 i 15 graus de llibertat i multiplicar aquesta àrea per 2. El resultat és ac = 0.8358. 12. Si volem treballar amb a = 0.1 i com que ac = 0.8358 > a = 0.1, s’accepta H0, és a dir, les variàncies poblacionals podem assumir que són iguals.

85


!s11,,!s22 desconegudes desconegudes !s1 "≠ ! s22 1

0

(d = =m µ1 –– m µ2)) (d 1 2

CONDICIONS H0 X normal, s coneguda X normal, ! coneguda CONDICIONS H0 CONDICIONS H µ = 0mµ0= m0 X Xnonormal, normal, ! coneguda X no ! normal, s coneguda coneguda Josep Maria Mateo Sanz CONDICIONS H n $!30 n ≥ 30 µH = 00µ0 XXnonormal, normal, !coneguda coneguda CONDICIONS CONDICIONS µH = 0µ0 X Xnonormal, normal, !coneguda coneguda X qualsevol, n $!!30 X normal, coneguda µ = µ0 XXnonormal, normal, !coneguda coneguda n $!30 µ X Xdesconeguda qualsevol, µ= =µ µ0 X no ! normal, ! qualsevol, coneguda µ = µ00 $ 30 30 X no ! normal, ! coneguda Xdesconeguda qualsevol, nnn $ µ = mµ= s30 desconeguda 0 m0 $CONDICIONS H0 n $ 30 qualsevol, !Xdesconeguda µ = µ 0 X normal, ! desconeguda n $ 30n ≥ 30 X qualsevol, X normal, ! coneguda µ = µ !Xdesconeguda µ = µ00 qualsevol, n!$normals, 30 X ,X X normal, desconeguda 2 normal, !1X desconeguda µ = µdµ00= µ0 no ! coneguda d n!dependents $desconeguda 30 s desconeguda µ = X normal, ! desconeguda = µ0 X normal, mostres 30n $ 30 X1, Xn2 $normals, µ = mµ 0 m0 n $ 30 d = d0= XXnormal, !dependents desconeguda X , X normals, , normals, indep. 1 2 X , X normals, mostres 1 2 X1 qualsevol, µ = ddµ0=0 d X normal, ! desconeguda 2 d X normal, desconeguda X normals, µ = µµ0= µ00 dependents 2! !X conegudes ! desconeguda 1,12,! 2 mostres dependents Xmostres X normals, indep. =µ d0 1, X , X normals, ddµd = 1 2 mostres dependents X2normals, normals, = dd00 ,!2X1,no normals, indep. 12,! 2conegudes n $ 30 X1X,mostres indep. 1X dµ= = d–0 µ2) dependents 1 d X1conegudes ,dependents X2 normals, indep.(d =d 0 X,mostres ,X indep. ! , 1X 2X!normals, normal, ! desconeguda 1 2 XX no normals, indep. 1 1, X 2 2 normals, indep. d = d µ =µµ20) 0 , s conegudes s (d = µ – 1 !X1no ,! !normals, conegudes 2 normals, X1X, 1X,! indep. nconegudes X , X30 12,2normals, 2 11$ 2 indep. d200) !211,,2n! (d =dµ= dd–= 0=µ 2 conegudes 1 d X1, X!211,no normals, indep. ! conegudes mostres dependents X , X no normals, indep. d = d 2 2 0 n11,normals, n22 $ 30 indep. (d =d(d µ=1=d–m µ–2m ) ) X indep. X11,,, X X!221no qualssevol, conegudes normals, indep.(d =dµ=1 d–00 1µ2) 2 X indep. 1,n n!X 30 ,s conegudes sX 1 X 2 ,no 12,normals, 212$ 2 (d = µ1 – µ2) !, 1!,qualssevol, !2 conegudes X1!, 1X n12, $!n1230 !21, 2n!1desconegudes conegudes 2, ! , conegudes n2 indep. ≥ 30 (d = µ – µ ) X1! ,X qualssevol, indep.indep. d =1 d 0= d2 0 nn2 11desconegudes nn22 no $$ 30 ,1,, X normals, 1,2!X 30 2 X1!, 1X, 2!qualssevol, indep. (d =d(dµ==1 d–µ01µ2–) µ2) conegudes 230 n2X1desconegudes , ,n!X21,$! qualssevol, indep.(d =dµ=1 d–0µ2) X1! , X,2!qualssevol, indep. , n2indep. $ 30 X11,, X X qualssevol, indep. 1 2 qualssevol, n21desconegudes ,1 n2 2$n130 d = dd–0=µd0) X 2 EP = !1, !2 desconegudes d00 2 s1, s2 desconegudes (d =dd µ 1d ==1= n , n $ 30 !11,, ! !22 1desconegudes desconegudes (d = µ – µ ) 2 (d m – m ) 2 ! qualssevol, X1, X2 qualssevol, (d == µµ11d––=µ1µd22)) 2 nX11, nX22 $ , n2 indep. ≥ 30 indep.(d n130 EP = d= 0 0 n1!!, 11n,=2!$! 30 X1! ,X qualssevol, indep. desconegudes 2 2 EP = 2 1, !2 desconegudes d(d =1=d–0µµ1 2–) µ2) (d = µ X1!, 1X, 2!qualssevol, indep. desconegudes $ 30 EP = 2 !1 = n !12, n2 indep. (d =dµ==1 dd–00µ2) X11,! , X,22!qualssevol, qualssevol, EP = X indep. desconegudes X1, X X indep. 1 2 qualssevol, 2! X X2!normals, indep. (d =d dµ = d–0 µ ) 11, = 2 EP = !, 11X,, ! !22 desconegudes desconegudes =11ddd–= 0µd2) (d = X1! ddµ = !,sX ! !1,2!qualssevol, X qualssevol, indep. 0 µ220) (d = µ – 1 ,2=s 2 indep. 2 1desconegudes desconegudes EP = 1 d–m =µd–20)m ) (d = =d(dµ µ== !11,=!!2 desconegudes 1d 2 X1! ,X qualssevol, indep. 0µ 1 2 (d – ) !11 = 2!s 1,2!2 desconegudes 1 2 2 =s 1 2 X1!, 1X, 2!qualssevol, (d =d(d µ=1=d–µ0µ1 2–) µ2) 2 desconegudes !1 =indep. !2 X1! , X,2!qualssevol, indep. = d–0 µ ) (d =dd µ X1, X indep. =1 d 2 1 qualssevol, 2 desconegudes !1, 2!2 desconegudes (d = µ1 –0µ2) !1, !X2 1X desconegudes normals, indep. , 1X, 2Xqualssevol, indep.(d = µ1 – µ2) 2 EP = dd = = d0

86

84 84 84 84 84 84

% t (n1 + n2–2–

% t (n1+n2–2) g. l.

) g. l.

ESTADÍSTIC DE PROVA ESTADÍSTIC DE PROVA ESTADÍSTIC DE PROVA EP = % N(0,1) ESTADÍSTIC DE PROVA EP = % N(0,1) ESTADÍSTIC DE PROVA ESTADÍSTIC DE PROVA EP = % N(0,1) EP = % N(0,1) EP = % EP = % N(0,1) N(0,1) EP = % N(0,1) EP = % N(0,1) ESTADÍSTIC DE EP = % PROVA N(0,1) EP = % N(0,1) EP EP =EP== % t%%(nN(0,1) – 1) g. l. N(0,1) EP = % N(0,1) EP = % t (n – 1) g. l. EP = % t (n – 1) g. l. EP = % t (n – 1) g. l. EP N(0,1) EP ==EP = % t%(nN(0,1) –% 1) g. l. EP = % t (n – 1) g. l. EP = % N(0,1) EP = % N(0,1) EP== % t (n – %1)N(0,1) g. l. EP EP = % N(0,1) EP = % N(0,1) EP = % N(0,1) EP== %%N(0,1) EP N(0,1) EP = % N(0,1) EP = % N(0,1) EP = % N(0,1) EP = % N(0,1) % t (n1+n2–2) g. l. EP = % N(0,1)% t (n1+n2–2) g. l. % t (n1+n2–2) g. l. % t (n1+n2–2) g. l. % t (n1+n2–2) g. l. % t (n1+n2–2) g. l.

ESTADÍSTIC DE PROVA

dd <<dd0 0

dd >>dd0 0

#

#

#

#

#

#

#

#

#

#

#

#

#

#

# # #

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

# #

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

# # #

#

#

#

#

#

#

#

#

#

# # #

#

#

#

# ##

## # # #

##

#

# # #

#

# #

##

# #

#

# ## #

# #

##

# #

#

# # #

## # #

#

# #

# #

#

## ## #

# # # #

#

#

## # # #

#

#

#

#

#

#

#

#

#

#

#

# # # #

#

# #

#

#

#

#

#

# #

#

#

#

#

# # #

#

#

#

#

#

#

#

# #

EP EP>>t ta EP < –t EP < –ta

#

#

#

#

#

#

#

#

#

#

#

# # #

#

#

#

1 EP < –za/2 oZONA EP > zH a/2 µH " 1µ0 EP < –z o EP /2 ZONA H1 > z /2 EP >ZONA za m > m0H 1 >z µ >" 1µ00 > EP < –zEP o zH EP /2 Estadística pràctica pasZONA a /2 pas H H 1 1 > z /2 " EP < –z o EP 0 /2 µ < µ EP < –z 0 >1 0 EP > zH1 m < m0H EP <ZONA –z a ZONA H µH " 1µ00 EP << –z –z o zEP EP 1 > zz /2 /2 o µ > EP > EP 0 /2 µ" < µ EP < " 00 EP < –z /2 o –z EP > > z /2/2 " < o–z o EP > z /2 >µ EP > z 0 EP < EP /2 µ < µ EP < –z m ≠µ m0> –z EP > z 0 a/2 > z /2 " µ000 EPa/2< –zEP o zzEP /2 > µ> EP > < EP < –z µ > µ EP > z 0 " EPEP< >–zEP /2 <o m >µ m0< zEP >µ >–z zEP > z /2 < µ0000 EP a < –z H1µ ZONA H 1 µ < µ EP < –z " EP < –z o EP >> tz /2 0 /2 o > EP >–z zEP µm " EP <<–z -t–z 0000 /2 <µ EP " µ EP < o EP > z/2 /2>< EP µm "<µµ EP < –z o EP z 0 /2 /2 a o µ0> " EP < –z > µµ00 EP >–z zEP > z /2/2 /2 < EP < µ EP > t " µ000 EP < -tEP /2 o > >tzEP > t /2 µm>≠ µµ EP m00" -ta/2><oz-tEP EP > <µ µ00 EP <EP > EP >–z zEP > t /2 µ µ o /2 < µ < EP < -ta/2 0 > EP t µ < µµ0 < µ00 EP < –zEP <>–z µ >< µ00 "µ EP <>-tEP o>–z EP > t /2 /2 < µ EP t EP t m > m < dµ00EP < –zEP < a/2> o µ " µµ o< –z EP z /2-t /2 < " EP -tEP EP > tz /2/2 dµ00" o EP 0 /2 " µ EP < -t o EP > t /2 EP t > /2 <>-t µ <> µ00 EP µm ><µµ EP > z m00> EP < -t µ EP > t 0 a d" EP < –zEP o> z-ttEP > z /2 /2 > > EP < dµ000 EP < dµ µ < µµ EP << –z < d0 > " dµ d00 EP –zEP o -t EP > z /2 /2 < < dµ0 EP EP < µd"≠µdµ o< oEP >> t> EP<<-tEP –z EP 00 > /2a/2 /2z-t EP z d " –z o EP > z /2 0 a/2 /2 EP <o –zEP d < dd0 EP >z µ > µd0 " EP <> –z t EP > 0 /2 > z d< " dd0 EP < –z EP > z /2/2 /2 <o –z EP d 0 EP > z µd <>µd00 "> d00 EPEP< > -t EP –zzEP a/2 o EP > z /2 z EP <>–z d> < d0 EP > d > d EP > zzEP > z /2 dd000EP < –zEP " –z o dd "<dd o EP z /2>< 0> /2 < /2 EP –z d < dd0 < EP<<–z –z a < EP " EP o –z dd00 /2 EP zEP > z /2 d > EP <>–z –z < 0 EP < EP < > z–z d > ddd0 <" dd00 EP o /2 > zEP > z /2 d" > dd0 EP < EP d ≠ dd –za/2< o–zEP EP > zEP o –z 0 /2 0 a/2 > z /2 < " EP –z o> zEP EP EP > dd000 EP /2 < d < ddd0 " EP << <–z –tEP o >> tz/2/2 /2 EP > z d > d EP < –z d > dd0 < EP > z 0 a EP > > dd00EP < –zEP o< –t EP tzEP > t /2 " o> d " ddd0 > EP z /2–z /2>< /2 EP < d0 EP " EP <<z–t o –z < d /2 < EP> –z EP dd ><ddd EP tEP > t /2 > EP <>–t –z a < < dd0000 EP dddd00 < " d EP < –t o /2 > tEP > t /2 EP > dd00 " EP < –t o –t EP > t /2 0 EP <EP /2 < –z dd<≠ ddd 0 –ta/2<o–tEP EP > < " EP o>ta/2 EP tEP > t /2 > dd00 /2 < ddd0 " EP < –t o EP /2 EP<>–t t > t /2 > d EP < 0 dd ">ddd0 > o >EP >> t tt EP > d0 EP < –tEP /2EP tEP < –tEP o>/2–t EP > t /2 a/2 < d0 "< dd00 EP > t d > dd0 < EP < –t d " EP < –t o EP 0 /2 EP <> –t t > t /2 d> EP < d00 d < ddd0 > EP < –t " d EP < –t o a /2 > tEP > t /2 EP d00 EP d < dd0 " d EP <<–t–t /2 o EP > t /2 0 d" EP < –tEP > tEP > t /2 > d0 /2 o EP<<–t–t/2a/2o oEP EP> >> dd"≠ddd00 > d0 EP t /2tta/2 EP > t d > d0

m ≠ m0H1

H1

Estadística pràctica pas a pas Estadística pràctica pas a pas Estadística pràctica pas a pas Estadística pràctica a pas ZONA H1 pas Estadística pràctica pas a pas

Josep Maria Mateo Sanz Josep Maria Mateo Sanz Josep Maria Mateo Sanz Josep Maria CONDICIONS Mateo Sanz Josep Maria Mateo Sanz

H0

Estadística pràctica pas a pas

Josep Maria Mateo Sanz

Josep Maria Mateo Sanz


CONDICIONS CONDICIONS CONDICIONS CONDICIONS !1 " !2 ! 1 " !2      !1 CONDICIONS " !2 !1 " !2

H0 H0 H0 dH = 0d0 d = (d =  µ1 d–0 µ2) (d =d µ=1d–0Hµ 2 ) (d =d µ=1 d–0 µ02) (d = µ1 – µ2)











   CÀLCUL DEL P-VALOR   (α )     c





ESTADÍSTIC DE PROVA ESTADÍSTIC DE PROVA ESTADÍSTIC % t (n1 + n2–2–DE PROVA ESTADÍSTIC % t (n1 + n2–2–DE PROVA % t (n1 + n2–2–  1 + n2–2–  % t(n      ESTADÍSTIC DE PROVA l. l. l. 2 EP = l. % &2 (n–1) g. l.    EP = % &2 (n–1) g. l.  & (n–1) g. l. EP = ((−−))%  EP = ((−−)) %∼χ &2 (n–1) g. l.   ∼χ ∼χ     ∼χ       σ σ EP = σ%σF  (n1–1, n2–1) g. l. EP = % F (n1–1, n2–1) g. l. EP = % F (n1–1, n2–1) g. l. EP = %∼ F (n1–1, n2–1) g. l.   ∼     ∼       EP =  ∼ % N(0,1) EP =  % N(0,1) EP = % N(0,1) −−−− % N(0,1)  EP = ∼ ∼     ∼ ∼ ((((−−−−))))  EP = % N(0,1) EP = % N(0,1)  EP = % N(0,1)     −−−−  EP = % N(0,1)   ∼ ∼   ∼ ∼     ((((−−−−)))) ++++     H1 bilateral dreta  H 1unilateral    H H1 bilateral 1 unilateral dreta H1 bilateral H1 unilateral dreta H H H 0 1 0 H1bilateral H1unilateral dreta H1       H   H H H H bilateral unilateral dreta H  # #

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

1

H1 bilateral H1 bilateral H1bilateral     bilateral #c/2 H  1 

1

H1 unilateral !reta H1 unilateral !reta H !reta 1 unilateral   H   unilateral dreta #c  1





–|EP| 0 |EP| 85 –|EP| 0 |EP| 85     85

EP EP    

#c/2 #c/2 #c/2 #c  #c–|EP|  /2 # /2 # c 0 |EP| EPc # /2α #c/2 #c   c–|EP| 0 |EP| EP 85 α α α  α α       α α α α   α α   

 

1

 H1 unilateral esquerra H1 unilateral esquerra H1unilateral esquerra   1  H unilateral esquerra #c  #c #c EP # c EP α α  α α   EP EP    

#

#

#

#

#

#

#

#

#

#

#

#

##

##

#

##

#

#

#

# #

#

#

#

# #

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

#

H1 ZONA H1 H 1 1 >t d " d0 EP < ZONA –t /2 o H EP /2 H ZONA H 1 1 ) g. d> " dd0 EP < –tEP EP > t /2 /2 o > t d H1 ) g. dd H "> 1dd000 EP < ZONA –tEP /2 o > tEP > t /2 ) g. d " d EP < –t o /2 > tEP > t /2 EP d> d00     ) g.  EP <> –t d < d EP t H1d > d00 ZONAEP H1 < –t d < d0 2 d0 2 EP < c–t2 d20< 2 s2 ≠!s c21–a/2 EP > a/2 > & /2 " d!002EP <EP < &o22EP EP 1– /2<o –t d22 < 2 2 > & /2 !s2 > EPEP < >&2cEP 2 /2 o EP 2" !02 1– s2 >! ! > & 2 2 0 a 0     2 " 2  ! ! EP > &2 /2    1– /2>o & 2  ! !002222  EP < &EP 22 > 2EP 2 !0 !sσ < < & 2 /2 22" 2 1– EP < & o EP > & /2        0 1– s2 <! EP < c 2 ≠σ ≠σ χ χ χ χ ! EP >χ & 1–a α α α α 00222 χ σ2σσ ≠σ ≠σ χ χ  20> α α α α ! < ! EP < & 2 1– !!1σ " !0222  EP < F1– !  > F /2 2 > 2EP /2 >o& EP   2 ! 2 2 σ σ σ χ χ   !!0222EP <>o&F2EP   < F < F s1 ≠!σ s2σ oEP EP 1– σ σ χ χ 22< αααα> F /2 " a/2 1– /2 > !  !!11σ > !0222  EP1–a/2 EP F1– 2< EP < &  2 σ σ σ χ χ  F /2 ! " ! <F o FEP α α 2> 1s 1– /2 > σ χ χ > α α !σ !222222  EPEP s 12 > >EP FEP 222σ 1σ a <oF1– <  2 1 ! " ! EP < F EP > F /2α     1σ 1– /2 > 2 ≠σ ≠σ ≠σ     !σσ !222  EP F1– α α α ≠σ     1σ > α α α α EP < F 2 !12 2< !22 > p p EP < –z o EP > z s1 < s EP < F 22" 022  /2 > /2 ! ! EP F  1 1–a σ σ    !σσ EP <oF1– < 1p σσ2" σ σ   αααα> z /2 p!022 EP < –z EP /2 < p EP > z > ! EP < F 0     1p 2 1– p ≠!σσ pp EP < –z o EP > z σ σ   pp00  EPa/2< –z σ α α a/2 σ  > z /2 /2 o α α EP > zEP pσσ0" > p " p EP < –z o EP EP < –z 0 /2 < 0 ≠     α α α α > z > z /2α >≠ p  ≠     p > pp≠ EP > zEP α α 0 < p0  aα EP < –z p 0 EP > z p > p 0         p " p2 EP < –z   1 /2 αααα > z /2 EP <o –zEP p < pp10 <" pp02 EP<<–z –z EP o EP > z /2 a < /2 EP –z p < p EP > z p1 > p02   z   ααα>    α pp1 " p EP < –z o EP /2 > z /2 > p22 EP < –z o EP p1 ≠pp112 " EP > z p2  EP < –zEP o> EP a/2 a/2 > z /2   /2α ≠ ≠     < –z EP z <  α α α p1> p ≠ ≠     2   α α α α EP < –z EP > z < > p p1 >pp1 EP > z 2           αα 2  a  EP < –zαα  p1 < p2  EP < –z αα  p2 esquerra <   Hp11 unilateral   <pp1 EP < –z      2 a αα  H1 unilateral esquerra H unilateral esquerra H1 H11unilateral Hesquerra 0      H H esquerra H unilateral #

H1 #/2 #/21 1 1 0 1 0 1 0 1 H1 H0 H H0 H H H0 #1 #1 #/2 #/2 1 H H0  H H0  H H0  # 1  # #/2 #/21  1  1            H                  # # #/2 #/2 αα αα α α α α αα αα α α α α H unilateral esquerra H bilateral H unilateral !reta

H1

EP = EP = EP = EP=

CÀLCUL ZONES H0 I H1  CÀLCUL ZONES H0 I H1   CÀLCUL ZONES H0 I H1 CÀLCUL ZONES H0 I H1          CÀLCUL ZONES H0 I H1

X normal X normal  

2 2 2 = !22 =s ! 0 2 s0       ! = !0 X normal !22 = !022 X normal  !  !σσσσ=σ X normal 0    σ σ  2 σ2  !1 2 = !2 2 X1, X2 normals, indep. 2 2 X1, X2 normals, indep.indep. !12 = X1, X2 normals, s1! = 2 s2 2 ! = ! X1, X2 normals, indep. 12 2 !σ !22  X , X indep. σ 1σ= 1 2 normals,      σ        σσσ σ   Xbinomial, p = p0 X binomial, n $ 30 p = p0 X binomial, X binomial, n $ 30 p = pp0= p0 X binomial,   n $ 30n ≥ 30  p = p0    n≥ $ 30  ≥ ≥ ≥ indep. X1, X2 binomials, p1 = p2 X1, X2 binomials, n1, n2 $ 30 indep. p 1 = p2 X1, X2 binomials, n1, n2 $ 30 indep. p = p2 1 X , X binomials, indep. X , X binomials, indep. 1 2       ,1 n2 2$ 30  n 1 p p1= p1 2=p2  n1,n 30   , n2 ≥ 30 n≥ 2 $≥  ≥ 1   ≥ 

87

Estadística pràctica pas a pas



6. Anàlisi de la variància (ANOVA) 6.1 Generalitats sobre l’anàlisi de la variància Davant un fenomen de naturalesa aleatòria, els possibles resultats poden estar influïts per una sèrie de condicionaments, externs i/o interns, els quals no sempre podem controlar. L’objecte de l’anàlisi de la variància se centra en la mesura de la influència d’aquests condicionaments en una variable resposta o observada. Anem a introduir una sèrie de conceptes per tenir el marc teòric on es desenvoluparà l’ANOVA: a) Variable resposta o observada: variable que es vol estudiar si està influenciada per d’altres. La variable resposta serà una variable numèrica i fa el paper de variable dependent en la funció que relaciona el factor i la variable resposta. Per exemple, el nombre d’avellanes produïdes per avellaner pot ser una variable resposta. b) Factor: condicionament que afecta el resultat d’un fenomen. Serà la qualitat o propietat a partir de la qual classifiquem les observacions. El factor serà una variable qualitativa o numèrica categoritzada en un nombre concret de valors i fa el paper de variable independent en la funció que relaciona el factor i la variable resposta. Per exemple, el nombre d’avellanes produïdes per avellaner pot dependre del sòl; en aquest cas el factor que observem és el sòl. c) Nivell: cada una de les maneres en què es pot presentar un factor. Seguint amb l’exemple anterior, els diferents nivells del factor sòl podrien ser: calcari, sorrenc i argilós. d) Efecte assignable: conseqüències dels factors considerats. En la producció d’avellanes seria la quantitat d’avellanes que correspondria al tipus de sòl on està situat cada avellaner.

89


Josep Maria Mateo Sanz

e) Efecte no assignable, residual o aleatori: conseqüències que no provenen dels factors considerats. Per exemple, no s’han considerat els efectes del tipus d’adob, del tipus de reg o de la quantitat de pluja caiguda el mes de maig. Per tant, cada observació la podem descompondre en una part deguda als efectes

compleixen aquestes aquestes condicions, condicions, els els resultats resultats de de l’anàlisi l’anàlisi de de la la variància variància segueixen segueixen sent sent vàlids vàlids sisi compleixen compleixen aquestes condicions, resultats l’anàlisi sent hem vàlidsde si suposar assignables i una altraels deguda a l’de atzar. Per de ferlal’avariància nàlisi desegueixen la variància les mides mides de de les les mostres mostres de de cada cada nivell nivell són són semblants. semblants. les les midesque de les de cada nivell són semblants. lesmostres observacions de cada nivell del factor que volem analitzar provenen de variables

aleatòries que es distribueixen normalment amb la mateixa variància, encara que s’ha vist que, si no es compleixen aquestes condicions, els resultats de l’anàlisi de la variància 6.2 Disseny Disseny ANOVA d’un factor 6.2 ANOVA d’un factor segueixenANOVA sent vàlids si lesfactor mides de les mostres de cada nivell són semblants. 6.2 Disseny d’un Primer estudiarem estudiarem el el cas cas en en què què només només considerem considerem un un factor factor per per explicar explicar els els resultats resultats d’una d’una Primer Primer estudiarem el cas en què només considerem un factor per explicar els resultats d’una sèrie d’observacions. d’observacions. L’objectiu serà d’un trobarfactor existeixen diferències diferències entre entre els els diferents diferents nivells nivells sèrie L’objectiu serà trobar sisi existeixen existeixen 6.2 Disseny ANOVA sèrie d’observacions. L’objectiu serà trobar si diferències entre els diferents nivells considerats del del factor factor oo no no existeixen. existeixen. L’objectiu L’objectiu és és semblant semblant al al que que plantejàvem plantejàvem quan quan vam vam considerats considerats del factor o no existeixen. L’objectiu és semblant al que plantejàvem quan vam Primer estudiarem el cas en què només considerem un factor per explicar els resultats estudiar sisi hi hi havia havia diferències diferències entre entre dues dues poblacions, poblacions, però però ara ara podem podem treballar treballar amb amb més més de de dues dues estudiar estudiar sid’una hi havia diferències entre dues ara podem treballardiferències amb més deentre dues els difesèrie d’observacions. L’opoblacions, bjectiu seràperò trobar si existeixen poblacions oo nivells, nivells, cosa cosa que que no no podíem podíem fer fer abans. abans. Les Les dades dades les les podem podem posar posar de de la la manera manera poblacions poblacions o nivells, que no podíem fer abans. Les dades les podem és posar de la manera rents nivellscosa considerats del factor o no existeixen. L’objectiu semblant al que plantesegüent: següent: jàvem quan vam estudiar si hi havia diferències entre dues poblacions, però ara podem següent:

treballar amb més de dues poblacions nivells, cosa que no podíem fer abans. Les dades Població ooonivell nivell Població Població o nivell les podem posar de la manera següent: 1 11 x xx111111 . .. . .. . ..

2 22 x xx212121 1 .. . x11 . . . . . . .. . x1 n 1

... k ... ... kk ... o nivell xxk1k1 Població ... ... xk1 2 ... ... .. ... ... . x21 ... ... . ... . ... . . ... ... . ... ... .. . ... ... ... . ... x 2 n 2... ...

k xk1 . . . xk n k

Amb aquestes aquestes dades dades podem podem calcular calcular una una sèrie sèrie d’estadístics: d’estadístics: Amb Amb aquestes dades calcular sèrie d’estadístics: Amb podem aquestes dadesuna podem calcular una sèrie d’estadístics: (mitjanamostral mostralaaa la la població població oonivell nivell i)i) (mitjana població nivell (mitjana mostral la (mitjana mostral a la població oo nivell i)i) n= nn ==

(nombre totald’d’observacions) d’observacions) (nombre total observacions) (nombre total (nombre total d’observacions)

(mitjana mostral mostral general) (mitjana general) (mitjana mostral general) (mitjana mostral general) Els passos passos que que s’han s’han de de seguir seguir per per fer fer una una anàlisi anàlisi de de la la variància variància d’un d’un factor factor serien: serien: Els Els passos que s’han de seguir per fer una anàlisi de la variància d’un factor serien: 90


1) 1) Determinar Determinar quin quin és és el el factor factor que que es es vol vol considerar, considerar, quins quins nivells nivells s’han s’han agafat agafat d’aquest d’aquest factor factor ii quina quina és és la la variable variable resposta resposta oo variable variable observada observada que que es es vol vol estudiar. estudiar.

Estadística pràctica pas a pas

2) 2) Comprovar Comprovar que que les les observacions observacions de de cada cada nivell nivell del del factor factor es es distribueixen distribueixen normalment normalment ii que que hi en els diversos nivells. hi ha ha la la mateixa variància en de els seguir diversos nivells. Elsmateixa passosvariància que s’han per fer una anàlisi de la variància d’un factor serien:

1. Determinar quin és el factor que es vol considerar, quins nivells s’han agafat d’aquest factornul·la, i quina resposta o variable observada que es vol 3) la H La H sempre la Lala H00variable sempre serà serà la mateixa: mateixa: 3) Determinar Determinar la hipòtesi hipòtesi nul·la, H00..és estudiar. H H00:: µµ11 == ... ... == µµkk de cadaentre nivellles factor es distribueixen Això vol dir H no existeixen diferents poblacions oo entre els Això 2. vol Comprovar dir que, que, sota sotaque H00,, les no observacions existeixen diferències diferències entre lesdel diferents poblacions entrenorels malment i que hi ha la mateixa variància en els diversos nivells. diferents diferents nivells nivells del del factor factor considerat. considerat. També També significa significa que que el el factor factor considerat considerat no no té té influència influència . La H sempre serà la mateixa: 3. Determinar la hipòtesi nul·la, H 0 0 sobre el resultat de la variable resposta. sobre el resultat de la variable resposta.

H0: μ1 = ... = μk

4) hipòtesi alternativa, .. La H Aixòla dir que, sota HH diferències entre les diferents pobla4) Determinar Determinar lavol hipòtesi alternativa, H, 1no Laexisteixen H11 sempre sempre serà serà la la mateixa: mateixa: 0 1

cions o entre els diferents nivells factor considerat. També significa que el alguna parella ii !! jj H jj per H11:: µµii !! µµ per aadel alguna parella factor considerat no téentre, influència sobre elpoblacions resultat de la variable resposta. H almenys, oo nivells. significa que que hi hi ha ha diferències diferències entre, almenys, dues dues poblacions nivells. També També significa significa que que H1 significa 1

. La H1 sempre serà la mateixa: 4. considerat Determinar la hipòtesi alternativa, H1la el té sobre el variable resposta. el factor factor considerat té influència influència sobre el resultat resultat de de la variable resposta. H1: μi ≠ μj per a alguna parella i ≠ j

taula s’ha de és la 5) la les taules la 5) Determinar Determinar la zona zona de de leshi taules on s’accepta s’accepta entre, la H H00.. La La taula que quedues s’ha poblacions de consultar consultar o ésnivells. la FF de de que ha on diferències almenys, H significa 1

Fisher k–1 n–k de llibertat. aa un de FF!! és També que factor Per considerat té influència sobre!, la Fisher amb amb k–1 iisignifica n–k graus graus de el llibertat. Per un nivell nivell de significació significació !,elsi siresultat és tal taldeque que

P(F == !! (és dir, P(F >> FF!!))variable (és aaresposta. dir, el el punt punt de de la la taula taula FF de de Fisher Fisher que que deixa deixa aa la la seva seva dreta dreta una una àrea àrea igual igual aa

5. la de les taules on s’accepta !), de s’accepta la (( 00 ,, FF!!la).).H0. La taula que s’ha de con00 és !), la la zona zonaDeterminar de les les taules taules on onzona s’accepta la H H és l’interval l’interval

sultar és la F de Fisher amb k–1 i n–k graus de llibertat. Per a un nivell de significació α, si Fα és tal que P(F > Fα) = α (és a dir, el punt de la taula F de 6) 6) Determinar Determinar la la zona zona de de les les taules taules on on s’accepta s’accepta la la H H11.. Serà Serà la la zona zona complementària complementària aa la la trobada trobada Fisher que deixa a la seva dreta una àrea igual a α), la zona de les taules on al aa dir, l’interval (( FF!! ,, ! !().).0 , F ). al pas pas 5), 5), és dir, serà serà l’interval és l’interval s’ésaccepta la H 0 α 6. Determinar la zona de les taules on s’accepta la H1. Serà la zona complemen7) Calcular l’estadístic de que, en aquest anomenarem 7) Calcular l’estadístic de prova, prova, que,5), enés aquest cas, anomenarem F. tària a la trobada al pas a dir,cas, serà l’interval (F. Fα , ∞ ). 7. Calcular l’estadístic de prova, que, en aquest cas, anomenarem F. Els Els passos passos que que s’han s’han de de seguir seguir per per calcular calcular FF els els podem podem resumir resumir aa la la taula taula següent: següent:

Els passos que s’han de seguir per calcular F els podem resumir a la taula següent: Font Font de de variació variació Font de variació

g. g. l.l. g. l.

Suma Suma quadrats quadrats Suma quadrats

Quadrats Quadrats Quadrats mitjans mitjans mitjans

Entre Entre grups grups Entre grups

k–1 k–1 k–1

Q Qee ==

nnii((

))22

Dintre grups Dintre Dintre grups grups

n–k n–k n–k

Q Qddd = =

(x (xijijij–– 89 89

))222

Total Total Total

n–1 n–1 n–1

Q Qttt = =

FF F

==

= =

22 (x (xijijij–– ))2

91

Per Per facilitar facilitar els els càlculs, càlculs, les les sumes sumes de de quadrats quadrats es es poden poden calcular calcular amb amb fórmules fórmules algebraicament idèntiques: algebraicament idèntiques:


2 Total n–1 Qt = de (xquadrats ij– ) Per facilitar els càlculs, les sumes es poden calcular amb fórmules

Josep Maria Mateo Sanz

algebraicament idèntiques:

Qt =les sumes (xij– de ) =quadrats x ij – nes poden calcular amb fórmules Per facilitar els càlculs, Per facilitar els càlculs, les sumes de quadrats es poden calcular amb fórmules algebraicament idèntiques: 2

algebraicament idèntiques:Q = e

ni(

Qe =

ni(

Qt =

2

2

– )2 =

ni

2

– )2 =

ni

2

–n

(xij– ) = x –n Qd = Qt – Qe 2

2 ij

2

–n

8) Segons els valors de l’estadístic de prova F i les zones d’acceptació de cada hipòtesi, decidir Qd = Qt – Qe quina és la hipòtesi certa.

8. Segons els valors de l’estadístic de prova F i les zones d’acceptació de cada hi8) Segonspòtesi, els valors de l’estadístic de F i certa. les zones d’acceptació de cada hipòtesi, decidir decidir quina la prova hipòtesi 9) Calcular el valor del nivell de és significació crític o p-valor "c. El p-valor es troba calculant la quina 9. és laCalcular hipòtesi certa. p-valor es troba valor del Fnivell de significació críticgraus o p-valor ac. Elsigui probabilitat que unaeldistribució de Fisher amb k–1 i n–k de llibertat més gran que calculant la probabilitat que una distribució F de Fisher amb k–1 i n–k graus de l’estadístic de prova F, és a dir, P(Fk–1,n–k > F) = "c. F) = alac. llibertat més gran que l’estadístic prova"F, és a dir, P(F troba > 9) Calcular el valorsigui del nivell de significació crític ode p-valor calculant c. El p-valor es k–1,n–k 10. Segons elsdistribució valors deFade i de a, decidir quina és la hipòtesi certa. probabilitat que una c Fisher amb k–1 i n–k graus de llibertat sigui més gran que 10) Segons els valors de "c i de ", decidir quina és la hipòtesi certa. l’estadístic de prova F, és a dir, P(Fk–1,n–k > F) = "c.

Observació Observació En el cas que s’accepti que hi ha diferències entre almenys dos nivells o poblacions, 10) Segons els valors de "c i de ", decidir quina és la hipòtesi certa. En el que s’accepti que hicontrast ha diferències almenys dosentre nivells o poblacions, ens pot ens potcasinteressar fer algun parcialentre per comprovar quins nivells o poblacions hi ha diferències amb unparcial nivell de Les quins hipòtesis per ocontrastar interessar fer algun contrast persignificació comprovar α. entre nivells poblacionsserien: hi ha

Observació diferències. Les hipòtesis per contrastar serien: H0(ij): μi = μj En el cas que s’accepti que hi ha diferències(ij) entre almenys dos nivells o poblacions, ens pot HH10(ij):: μµii =≠µμj j interessar fer algun contrast parcial per comprovar entre quins nivells o poblacions hi ha (ij) : µ " µ H 1 i j Aleshores, s’utilitza l’estadístic: diferències. Les hipòtesis per contrastar serien: Aleshores, s’utilitza l’estadístic: H0(ij): µi = µj t = H1(ij): µi " µj Aleshores, s’utilitza l’estadístic:

t= Per contrastar la significativitat d’aquest estadístic s’ha de consultar la taula de la distribució t de Student amb (n–k) graus de llibertat i mirar quin punt deixa a la seva dreta una àrea de α/2. 90

Exemple La gent que es preocupa per la seva 90 salut prefereix hamburgueses que tenen poques calories. Les hamburgueses es poden classificar segons la seva composició: vedella, pollastre i carn (sobretot de carn de porc i vedella, però fins a un 15% de carn de pollastre). S’han agafat hamburgueses de 54 marques diferents, s’han classificat segons la seva composició i s’han mesurat les calories que contenen. Els resultats obtinguts són: 92


Estadística pràctica pas a pas

Vedella

186 152

181 111

176 141

149 153

184 190

190 157

158 131

139 149

175 135

148 132

Pollastre

129 135

132 142

102 86

106 143

94 152

102 146

87 144

99

107

113

Carn

173 179

191 153

182 107

190 195

172 135

147 140

146 138

139

175

136

Suposant que les calories de cada grup d’hamburgueses es distribueixen normalment i que hi ha la mateixa variància en els diversos nivells, es vol analitzar si hi ha diferències significatives, amb α = 0.05, entre les calories dels diversos grups d’hamburgueses. Solució 1. El factor que es vol considerar és la composició de les hamburgueses. D’aquest factor es consideren 3 nivells: vedella, pollastre i carn. La variable observada que es vol estudiar són les calories. 2. Hem suposat que es compleixen les condicions per aplicar ANOVA d’un factor: les observacions de cada nivell del factor es distribueixen normalment i hi ha la mateixa variància en els diversos nivells. 3. La H0 és: H0: μvedella = μpollastre = μcarn Això vol dir que, sota H0, no existeixen diferències entre les calories mitjanes de les hamburgueses segons els diversos nivells considerats de composició. 4. La H1 és: H1: μi ≠ μj per a alguna parella i ≠ j H1 significa que hi ha diferències entre les calories mitjanes de les hamburgueses d’almenys dos grups considerats de composició. 5. S’ha de consultar la taula F de Fisher amb (2,51) graus de llibertat. A la taula anterior hem de trobar el punt que deixa a la seva dreta una àrea de α = 0.05. Aquest punt és Fα = 3.18. Per tant, la zona de les taules on s’accepta la H0 és l’interval (0 , 3.18). 6. La zona de les taules on s’accepta la H1 és l’interval (3.18 , ∞). 7. Calculem l’estadístic de prova, F.

93


Josep Maria Mateo Sanz

Font de variació

g. l.

Suma quadrats

Quadrats mitjans

F

Entre grups

2

17692.1951

8846.10

16.1

Dintre grups

51

28067.1382

550.33

Total

53

45759.3333

8. Com que l’estadístic de prova F = 16.1 es troba a l’interval on s’accepta H1, direm que acceptem H1 i que, per tant, les calories mitjanes de les hamburgueses no són les mateixes en els diversos grups de composició d’hamburgueses considerats. 9. El valor del nivell de significació crític o p-valor, ac, és 3.86 · 10–6. 10. Com que el p-valor, ac = 3.86 · 10–6, és més petit que el nivell d’error amb el qual volem treballar, α = 0.05, acceptem H1 i arribem a la mateixa conclusió que abans. 11. Com que s’ha acceptat que hi ha diferències entre les calories mitjanes entre almenys dos grups d’hamburgueses, anem a contrastar, amb α = 0.05, si hi ha diferències entre les calories mitjanes de les hamburgueses de vedella i les de pollastre. El contrast que s’ha de realitzar és: H0(12): μvedella = μpollastre H1(12): μvedella ≠ μpollastre Com que α / 2 = 0.025, busquem el punt de la taula t de Student, amb 51 graus de llibertat, que deixa a la seva dreta una àrea de 0.025. Aquest punt és 2.01 ja que P(t51 > 2.01) = 0.025. Per tant, les zones de la taula t de Student on s’accepta la hipòtesi nul·la i la hipòtesi alternativa són: • Zona on s’accepta H0: (–2.01 , 2.01). • Zona on s’accepta H1: (–∞ , –2.01) ∪ (2.01 , ∞).

que: • Tenim   •

∞∪∞ x vedella = 156.85 x pollastre = 118.76     Aleshores, s’utilitza l’estadístic:

 

 

         +   −     

   



        +   −     



              94

 α


Estadística pràctica pas a pas

Com que el valor de l’estadístic t és 4.92, aquest valor es troba dins de la zona on s’accepta la H1 i podem afirmar que hi ha diferències significatives entre les calories mitjanes de les hamburgueses de vedella i les hamburgueses de pollastre. També s’arriba a aquesta conclusió si calculem el p-valor de l’estadístic t: ac = 2 · P(t51 > |4.92|) = 2 · 4.6973·10–6 = 9.3946 · 10–6. Com que el p-valor, ac = 9.3946 · 10–6, és més petit que el nivell d’error amb el qual volem treballar, α = 0.05, acceptem H1. 12. També podem estar interessats a contrastar, amb α = 0.05, si hi ha diferències entre les calories mitjanes de les hamburgueses de pollastre i les de carn. El contrast que s’ha de realitzar és: H0(23): μpollastre = μcarn H1(23): μpollastre ≠ μcarn Les zones de la taula t de Student on s’accepta la hipòtesi nul·la i la hipòtesi alternativa seran les mateixes d’abans: • Zona on s’accepta H0: (–2.01, 2.01). • Zona on s’accepta H1: (–∞ , –2.01) ∪ (2.01, ∞). Tenim que: x pollastre = 118.76

Tenim que:

pollastre

x carn = 158.71

= 118,76

carn

Aleshores, s’utilitza l’estadístic:

= 158,71

Aleshores, s’utilitza l’estadístic: t=

x pollastre " x carn = # & 1 Qd 1 %% ( + n " k $ n pollastre n carn ('

118.76 -158.71 = –4.96 –4,96 28067.1382 # 1 1 & % + ( 54 " 3 $17 17 '

Com que el valor de l’estadístic t és –4,96, aquest valor es troba dins de la zona on s’accepta la

Com que el valor de l’estadístic t és –4.96, aquest valor es troba dins de la zona

significatives entre les calories mitjanes de les H1 i podem afirmar que hi ha diferències ! on s’accepta! la H1 i podem afirmar que hi ha diferències significatives entre les calories hamburgueses de pollastre i les hamburgueses de carn.

mitjanes de les hamburgueses de pollastre i les hamburgueses de carn. També s’arriba a aquesta conclusió si calculem el p-valor de l’estadístic t: ac = s’arriba a aquesta el p-valor· 10 de –6 l’estadístic t: !cel= p-valor, 2 · P(t51 >a|–4,96|) |–4.96|) = 2 conclusió · 4.0541 si· calculem 10–6 = 8.1082 . Com que = 2 ·També P(t51 > c –6 –6 –6 –6 , és· més que· el errorel amb el qual treballar, α petit = 0.05, 8.1082·10 8,1082 10 nivell . Comd’que p-valor, !c = volem 8,1082·10 , és més que el = 2 · 4,0541 10 =petit acceptem H1. amb el qual volem treballar, ! = 0,05, acceptem H1. nivell d’error 13) Per finalitzar, anem a contrastar, amb ! = 0,05, si hi ha diferències entre les calories mitjanes de les hamburgueses de vedella i les de carn.95 El contrast que s’ha de realitzar és: H0(13): µvedella = µcarn H (13): µ

"µ


 Josep Maria Mateo Sanz

α          α        

13. Per finalitzar, anem a contrastar, amb α = 0.05, si hi ha diferències entre les calories mitjanes de les hamburgueses de vedella i les de carn. El contrast que  s’ha de realitzar és:  H0(13): μvedella = μcarn 

 (13)

H1 : μvedella ≠ μcarn 

Les zones de la taula t de Student on s’accepta la hipòtesi nul·la i la hipòtesi  alternativa continuen sent les mateixes d’abans:                  • Zona on s’accepta H0: (–2.01 , 2.01).  • Zona on s’accepta H1: (–∞ , –2.01) ∪ (2.01 , ∞). •



∞∪∞

Tenim que: 

x vedella = 156.85  

x carn = 158.71  

Aleshores, s’utilitza l’estadístic:  

          +  −    

  



        +   −     



  Com que el valor de l’estadístic t és –0.24, aquest valor es troba dins de la zona on

s’accepta la H0 i hem de concloure que no s’ha demostrat que hi hagi diferències signi ficatives entre les calories mitjanes de les hamburgueses de vedella i les hamburgueses α de carn. α També s’arriba a aquesta conclusió si calculem el p-valor de l’estadístic t: ac = 2 ·   Com que el p–valor, ac = 0.8114, és més gran P(t51 > |–0.24|) = 2 · 0.4057 = 0.8114. que el nivell d’error amb el qual volem treballar, α = 0.05, acceptem H0. 6.2.1 Excel: ANOVA d’un factor.

6.2 Excel: ANOVA d’un factor

              

El  programa Excel permet fer de manera automàtica els càlculs que calen per realitzar un ANOVA d’un factor.  Prèviament hem de tenir instal·lat el mòdul de “Análisis de datos”. Per instal·lar  aquest mòdul cal seguir els passos següents:  1. Del menú “Herramientas”, triem “Complementos”.  Marquem  2. la casella “Herramientas para análisis” i acceptem. 3. Comprovem que al final del menú “Herramientas” apareix “Análisis de datos”.  

96


Estadística pràctica pas a pas

Per fer una ANOVA d’un factor amb Excel cal seguir els passos següents: 1. Per començar a fer qualsevol tipus d’anàlisi, primer hem de tenir les dades entrades en el full de càlcul. Si seguim amb l’exemple de les hamburgueses, hem de posar les dades de cada nivell (vedella, pollastre i carn) en columnes (o files) diferents; en començar la columna (o la fila) podem posar un rètol que indiqui a quin nivell corresponen les dades que hi ha en cada columna (o fila). La pantalla 1 ens mostra com han de quedar les dades una vegada introduïdes a Excel. Pantalla 1. Dades d’un factor introduïdes a Excel

2. Del menú “Herramientas”, triem “Análisis de datos”. 3. De les funcions que apareixen, triem “Análisis de varianza de un factor” i acceptem. Ha d’aparèixer el quadre que es veu a la pantalla 2. Pantalla 2. Quadre de “Análisis de varianza de un factor”

97


Josep Maria Mateo Sanz

4. Del quadre anterior, hem d’emplenar: a) Rango de entrada. Hem de seleccionar les caselles on es troben les dades que volem analitzar. b) Agrupado por. Hem de triar “Columnas” o “Filas” depenent de com hàgim entrat les dades de cada nivell (en el nostre exemple, hem de marcar “Columnas”). c) Rótulos. Hem de marcar aquesta casella si a “Rango de entrada” hem seleccionat les cel·les on hi ha els rètols descriptius del nivell a què corresponen les dades de cada columna. Si no s’han posat aquests rètols descriptius o no s’han inclòs aquestes cel·les a “Rango de entrada”, no hem de marcar la casella “Rótulos”. d) Alfa. S’ha de posar el nivell d’error amb què volem treballar. e) Opciones de salida. Aquí triem on volem els resultats. Deixem marcada l’opció “En una hoja nueva”. 5. El resultat apareix en una fulla nova. Hi ha dos quadres: quadre “Resumen” i quadre “Análisis de varianza”. 6. Quadre Resumen. Obtenim, de cada nivell considerat, quantes dades hi ha, la seva suma, la seva mitjana i la seva variància. 7. Quadre Análisis de varianza. És el quadre amb el resultat dels càlculs que s’han de fer per obtenir l’estadístic de prova. El més interessant són les tres últimes columnes d’aquest quadre: a) F. És el valor de l’estadístic de prova F. En el nostre exemple, tenim que F = 16.1. b) Probabilidad. És el valor del nivell de significació crític o p-valor. En el nostre exemple, tenim que ac = 3.86 · 10–6. c) Valor crítico para F. És el valor de la taula F, amb els graus de llibertat corresponents, que fa de frontera entre acceptar la H0 i la H1. En el nostre exemple, tenim que Fα = 3.18.

6.3 Comparació de variàncies: test de Levene Per poder comprovar si podem assumir que les variàncies de diverses poblacions són iguals o no, hi ha diverses opcions, en forma de contrastos, que podem aplicar. En aquest cas comentarem el test de Levene, ja que és aplicable en condicions bastant generals i segueix el mateix procediment que l’ANOVA d’un factor, però aplicat a una transformació de les dades mostrals originals. A cada dada original cal restar-li la mitjana mostral del 98


Estadística pràctica pas a pas

al qual pertany; elpertany; resultat d’aquesta resta s’haresta d’agafar en valor en absolut. tant, Per seguint amb la amb qualpertany; resultatd’aquesta d’aquesta s’had’agafar d’agafar envalor valorPer absolut. Pertant, tant, seguint amblala alalqual resultat s’ha absolut. seguint al qual pertany; el resultatelel d’aquesta resta s’ha resta d’agafar en valor absolut. Per tant, seguint amb seu nivell o població al qual pertany; el resultat d’aquesta resta s’ha d’agafar enlavalor abnotació de l’apartat d’ANOVA amb un factor, tindrem: notació dedel’apartat factor, notació l’apartatd’ANOVA d’ANOVA ambun un factor,tindrem: notació de l’apartat d’ANOVA amb un factor, tindrem: solut. Per tant, seguint amb laamb notació de l’atindrem: partat d’ANOVA amb un factor, tindrem: PoblacióPoblació o nivell oonivell nivell Població oPoblació nivell Població o nivell 1 2 ... k 1 22 ...... kk 1 1 2 ... k 1 2 ... k x’11 = |x11x’–x’11==|x | x’ | = |x21x’–x’21==|x| |x21–– |...| |x x’–x’k1==|x| |xk1–– | | ...x’ ...k1 = ... x’11 = |x11 –11 | |x1111–– x’|21 = |x21 –21 | 21 x’ = |xk1 –k1 | k1 k1 k1 11 11x’ = |x – x |21 21 21 x’ = |x – x | k1 k1 x’ = |x – x | 1· 2... · 11 11 21 21 k· ... . . . k1 . .k1 ...... .. .. ... . . . ... ... . . . ...... . . . . . . ... . .. ... . . . ... . . . . ...... ... .. . . .. ... .. . . . . . . ... ... ...... ...

Amb aquestes dadesuna podem calcular una sèrie d’estadístics: Amb aquestes dades podem calcular sèrieuna d’estadístics: Ambaquestes aquestes dades podem calcular una sèried’estadístics: d’estadístics: Amb dades podem calcular sèrie Amb aquestes dades podem calcular una sèrie d’estadístics: (mitjana mostral a la població o nivell i)

aalalapoblació (mitjanaamostral mostral (mitjana (mitjana mostral opoblació nivell i)oonivell (mitjana mostral ala lapoblació població o nivell i)nivelli)i) n= n=

total d’observacions) nn== (nombre (nombre total (nombre totald’observacions) d’observacions) (nombre total (nombre total d’od’observacions) bservacions)

(mitjana mostral mostral general) (mitjana mostral (mitjanageneral) general) mostral (mitjanageneral) mostralgeneral) general) (mitjana (mitjana mostral

Els passos que s’han de seguir per fer una comparació de variàncies segons el test Els passos que s’hanque de s’han seguir per fer una comparació deANOVA variàncies segons el test deelLevene són de Levene són els mateixos que per fercomparació una d’un factor, excepte que ara es treEls passos s’han deseguir seguir per feruna una comparació variàncies segons eltest test Levene són Els passos de per fer dedevariàncies dede Levene són Els passos que s’han que de seguir per fer una comparació de variàncies segons elsegons test de Levene són i qued’un a Hfactor, i H1excepte es comparen en comptes de mitjanes. balla amb dades x’ijuna els mateixos que perles fer una ANOVA ara variàncies es treballa les dades x’ idadesx’x’ i i 0 d’un els que per fer factor, excepte que ara treballa amb elsmateixos mateixos que per fer unaANOVA ANOVA d’un factor,que excepte que araesesamb treballa ambles lesijijdades ij ij els mateixos que per fer una ANOVA d’un factor, excepte que ara es treballa amb les dades x’ i ij Aquestes hipòtesis ara són: que a H0 que i H1aes comparen variàncies en comptes de mitjanes. Aquestes hipòtesis ara són: ara variàncies enencomptes dedemitjanes. aHH escomparen comparen variàncies comptes mitjanes.Aquestes Aquesteshipòtesis hipòtesis són: 0 0i iHH 1 1es que a H00 ique H11 es comparen variàncies en comptes de mitjanes. Aquestes hipòtesis ara són: arasón: 1. La hipòtesi nul·la, H0, és: 1) La hipòtesi H0nul·la, , és: HH, ,és: 1)1)La hipòtesi Lanul·la, hipòtesi 0 0 és: 1) La hipòtesi nul·la, H00,nul·la, és:

H0: σ21 = ... = σ2k

2"22k 22 H0: H " 1 =H... =:"" Això vol dir que, sota H =......=="" k kque les variàncies poblacionals són 0:0= H00: "22011,=podem ... "121kk=assumir Això volAixò dir que, sota Hentre , podem assumir les variàncies poblacionals són iguals entre lesentre poblacions o entre els diferents nivells del factor convol dir HH0,diferents assumir que variàncies poblacionals són iguals voliguals dirque, que, sotales podemque assumir queles les variàncies poblacionals són iguals les 0,podem Això vol Això dir que, sota H000, sota podem assumir que les variàncies poblacionals són iguals entre les entreles siderat. diferentsdiferents poblacions o entre els diferents nivells del factordel considerat. ooentre nivells factor diferentspoblacions poblacions entreels elsdiferents diferents nivells factorconsiderat. considerat. diferents poblacions o entre els diferents nivells del factor del considerat. 2. La hipòtesi alternativa, H1, és: 2

2

2) La hipòtesi H1, és: HH, és: H1: σ2i ≠ σ2j per a alguna parella i ≠ j Laalternativa, hipòtesialternativa, alternativa, 2)2)La hipòtesi 1 1, és: 2) La hipòtesi alternativa, H11, és: 2 H1que : "222i ! "H i! j 2j per hi ha diferències entre almenys H1 significa parella i les H "2i2!i aa!"alguna "2j2jper peraparella aalguna alguna parella i!!j jvariàncies poblacionals de H11: " ii ! "21:jj1:"per alguna parella i! j

dues poblacions o nivells.

98 98

98 98 99


Josep Maria Mateo Sanz

Posant les dades adequadament, aquest contrast també es pot fer amb Excel usant ANOVA d’un factor. Exemple Seguint amb l’exemple de les hamburgueses i les seves calories, s’ha suposat que les variàncies poblacionals eren iguals en els 3 grups d’hamburgueses. Contrastem aquesta suposició, amb α = 0.05. Solució 1. Com que hem de fer el contrast per comparar variàncies, calcularem la mitjana de calories de cada grup d’hamburgueses. Obtenim: x vedella = 156.85

x pollastre = 118.76

x carn = 158.71

2. A cada dada original li restem la mitjana del seu grup i agafem el resultat en valor absolut. Vedella 29.15 24.15 19.15 7.85 27.15 33.15 1.15 17.85 18.15 8.85 4.85 45.85 15.85 3.85 33.15 0.15 25.85 7.85 21.85 24.85

Pollastre 10.24 13.24 16.76 12.76 24.76 16.76 31.76 19.76 11.76 5.76 16.24 23.24 32.76 24.24 33.24 27.24 25.24

100

Carn 14.29 32.29 23.29 31.29 13.29 11.71 12.71 19.71 16.29 22.71 20.29 5.71 51.71 36.29 23.71 18.71 20.71


Estadística pràctica pas a pas

3. La H0 és: H0: σ2vedella = σ2pollastre = σ2carn Això vol dir que, sota H0, no existeixen diferències entre les variàncies de les calories de les hamburgueses segons els diversos nivells considerats de composició. 4. La H1 és: H1: σ2i ≠ σ2j per a alguna parella i ≠ j H1 significa que hi ha diferències entre la variància de les calories d’almenys dos grups d’hamburgueses. 5. S’ha de consultar la taula F de Fisher amb (2,51) graus de llibertat. A la taula anterior hem de trobar el punt que deixa a la seva dreta una àrea de α = 0.05. Aquest punt és Fα = 3.18. Per tant, la zona de les taules on s’accepta la H0 és l’interval (0, 3.18). 6. La zona de les taules on s’accepta la H1 és l’interval (3.18, ∞). 7. Calculem l’estadístic de prova, F. Font de variació

g. l.

Suma quadrats

Quadrats mitjans

F

Entre grups

2

113.42

56.71

0.49

Dintre grups

51

5904.58

115.78

Total

53

6018

8. Com que l’estadístic de prova F = 0.49 es troba a l’interval on s’accepta H0, direm que acceptem H0 i que, per tant, podem assumir que les variàncies de les calories de les diverses composicions d’hamburgueses són iguals. 9. El valor del nivell de significació crític o p-valor, ac, és 0.6156. 10. Com que el p-valor, ac = 0.6156, és més gran que el nivell d’error amb el qual volem treballar, α = 0.05, acceptem H0 i arribem a la mateixa conclusió que abans.

6.4 Disseny ANOVA de dos factors sense interacció. Blocs aleatoritzats Suposem que l’observació d’una v. a. X està influïda per dos factors. En l’exemple de la producció d’avellanes podem considerar el factor sòl i el factor que mesura la quantitat de pluja caiguda durant el mes de maig. En aquest cas podríem estudiar si hi ha diferències entre els diferents tipus de sòl o entre les diferents quantitats de pluja caigudes.

101


diferents tipus de sòl o entre les diferents quantitats de pluja caigudes. diferents tipus de sòl o entre les diferents quantitats de pluja caigudes. Suposem que el primer factor (factor fila) té a nivells i que el segon factor (factor columna) té b Suposem que el primer factor (factor fila) tédos a nivells i que el segon factordisposem (factor columna) té b nivells. nivells. Suposem Suposem també també que que l’efecte l’efecte dels dels dos factors factors és és additiu additiu ii que que disposem de de nn = = aa ·· bb nivells. Suposem també que l’efecte dels dels dos nivells factors del és additiu i que disposem de del n =factor a·b observacions, una per aa cada combinació factor fila amb els nivells observacions, una per cada combinació dels nivells del factor fila amb els nivells del factor Suposem una que per el primer (factor té a del nivells i que el segon factor del (factor observacions, a condicions, cada factor combinació delsfila) nivells factor filamanera amb els nivells factor columna. Amb aquestes les dades les podem posar de la següent: columna.téAmb aquestes condicions, les dades podem posar la manera següent:i que discolumna) b nivells. Suposem també que l’les efecte dels dosdefactors és additiu columna. Amb aquestes condicions, les dades les podem posar de la manera següent:

Suposem que elSanz primer factor (factor fila) té a nivells i que el segon factor (factor columna) té b Josep Maria Mateo

posem de n = a · b observacions, una per a cada combinació dels nivells del factor fila amb els nivells del factor columna. Amb aquestesFactor condicions, les dades les podem posar Factor columna columna de la manera següent: Factor columna

Factor fila Factor fila Factor fila Factor fila

11 1 1 22 22 ... ... ... ... a a a a

11 22 ... ... 1 Factor2 columna... x11 X12 ... 1 x11 2 X12 ... ... x11 X12 ... ... x11xx21 x12X ... X22 ... 21 22 x X x21 21 x22 22 ... ... ... ... ... ... ... ... ... ... ... ... ... ... xa1xa1 xa2xa2 ... ... xa1 xa2 ... xa1 xa2 ...

bb b x1b b x1b x1b x1bxx2b 2b x2bx2b ... ... ... ... xabxab xab xab

De la taula anterior podem calcular:

De De la la taula taula anterior anterior podem podem calcular: calcular: De la taula anterior podem calcular: (mitjana la fila i, $ (mitjanade i ≤ a), (mitjana dede la la filafila i, 11i,$ $1ii≤ $ a), a), (mitjana de la fila i, 1 $ i $ a), (mitjana de la columna j, (mitjana j, 11j,$ $1jj $ $≤b), b), (mitjanadedelalacolumna columna j ≤ b), (mitjana de la columna j, 1 $ j $ b), (mitjana (mitjana general). general). (mitjana general). (mitjana general). Els passos que de seguir per fer anàlisi de la de dos sense interacció Els Els passos que hem hem de seguir per fer una una anàlisi de anàlisi la variància variància devariància dos factors factors sense interacció passos que hem de seguir per fer una de la de dos factors Els passos que hem de seguir per fer una anàlisi de la variància de dos factors sense interacció serien: serien: sense interacció serien: serien:

1. Determinar quins són els factors que es volen considerar, quins nivells s’han 101 agafat de cadascun d’aquests factors 101i quina és la variable resposta o variable 101 observada que es vol estudiar. 2. Comprovar que les observacions de cada nivell de cada factor es distribueixen normalment i que hi ha la mateixa variància en els diversos nivells. 3. Determinar la hipòtesi nul·la, H0. En aquest cas, hi haurà dues H0, una per a cada factor, i seran: • H0f: α1 = ... = αa (no hi ha efecte del factor fila) • H0c: β1 = ... = βb (no hi ha efecte del factor columna) 4. Determinar la hipòtesi alternativa, H1. En aquest cas, hi haurà dues H1, una per a cada factor, i seran: • H1f: αi ≠ αj per a alguna parella i ≠ j (hi ha efecte fila) • H1c: βi ≠ βj per a alguna parella i ≠ j (hi ha efecte columna)

102


Estadística pràctica pas a pas

5. Determinar la zona de les taules on s’accepta la H0. Hi haurà una zona per a cadascun dels dos contrastos que es volen realitzar. La taula que s’ha de consultar és la F de Fisher, però els graus de llibertat seran diferents segons el contrast que es vulgui realitzar: • Contrast del factor fila: a–1 i (a–1)(b–1) graus de llibertat. Buscarem el valor Fαf que deixa a la seva dreta una àrea igual a α i la zona de les taules on s’accepta la H0f és l’interval ( 0 , Fαf). • Contrast del factor columna: b–1 i (a–1)(b–1) graus de llibertat. Buscarem el valor Fαc que deixa a la seva dreta una àrea igual a α i la zona de les taules on s’accepta la H0c és l’interval ( 0 , Fαc). 6. Determinar la zona de les taules on s’accepta la H1. Seran les zones complementàries a les trobades al pas 5), és a dir, seran: • Contrast del factor fila: ( Fαf , ∞ ). • Contrast del factor columna: ( Fαc , ∞ ). 7) Calcular estadísticsde de prova. Per Per fer cadascun dels contrastos anteriors, un per al factor 7. Calcular elsels estadístics ferdels cadascun dels contrastos anteriors, 7) Calcular els estadístics de prova. Perprova. fer cadascun contrastos anteriors, un per al factor 7)Calcular els prova. Per dels contrastos anteriors, unper per fila i estadístics un al de factor columna, necessitem uns estadístics diferents segons elfactor contrast que un per al per factor fila i un per alcadascun factordels columna, necessitem uns estadístics 7)Calcular Calcular els estadístics de prova. Per fer cadascun dels contrastos anteriors, un per alfactor 7)fila els estadístics de prova. Per ferfer cadascun contrastos anteriors, un al al factor i un per alestadístics factordecolumna, necessitem unsdels estadístics diferents segons el contrast que 7) Calcular els de prova. Per fer cadascun dels contrastos anteriors, un per al factor 7) Calcular els estadístics de prova. Per fer cadascun dels contrastos anteriors, un per al factor 7) 7) Calcular els estadístics prova. Per fer cadascun contrastos anteriors, un per al factor Calcular els estadístics de prova. Per fer cadascun dels contrastos anteriors, un per al factor 7) iCalcular els estadístics de contrast prova. Per fer vulguem cadascun dels contrastos anteriors, undisseny per seguir al factor diferents segons el que fer.calcular Els passos que de fila per alfactor columna, necessitem uns estadístics diferents segons que vulguem fer.columna, Els passos que s’han de seguir per lessegons F per s’han a el un de dos factors fila iunun per alfactor factor columna, necessitem uns estadístics diferents segons elcontrast contrast que fila i un per alEls necessitem uns estadístics diferents el contrast que vulguem fer. passos que s’han de seguir per calcular les F per a un disseny de dos factors fila i un per al factor columna, necessitem uns estadístics diferents segons el contrast que i un per al factor columna, necessitem uns estadístics diferents segons el contrast que filafila i fila un per al factor columna, necessitem uns estadístics diferents segons el contrast que i uni un per alcalcular factor columna, necessitem uns estadístics diferents segons el contrast queque per lesque F els per a un disseny dos factors (sense interacció) podem fila per alinteracció) factor columna, necessitem uns estadístics diferents segons el els contrast vulguem fer. Els passos s’han de seguir per calcular les Fper a aun de factors (sense podem resumir ade la taula: vulguem fer. Els passos que s’han dela seguir per calcular les Fper per undisseny disseny dedos dos factors vulguem fer. Els passos que s’han de seguir per calcular les F a un disseny de dos factors (sense interacció) els podem resumir a taula: vulguem fer. Els passos que s’han de seguir per calcular F adisseny disseny de dos factors vulguem fer. Els passos que s’han de seguir per calcular les F per aaun un disseny de dos factors vulguem fer.fer. Els passos quetaula: s’han de seguir perper calcular lesles Fles per aFper un de de dos factors resumir a la vulguem Els passos que s’han de seguir calcular F per a un disseny dos factors vulguem fer. Els passos que s’han de seguir per calcular les per un disseny de dos factors (sense interacció) els podem resumir a la taula:

(sense interacció) els podem resumir la taula: (sense interacció) elsels podem resumir a laaala taula: (sense interacció) podem resumir taula: (sense interacció) els resumir la (sense interacció) elsels podem resumir a laa taula: (sense interacció) podem resumir laaataula: (sense interacció) els podem podem resumir la taula: taula: Font de variació g. l. Suma quadrats Quadrats mitjans Font de Font de variació g. l. g. l. Suma Quadrats Suma quadrats quadrats Quadratsmitjans mitjans FF variació Font de variació g. l. Suma quadrats Quadrats mitjans Font de variació Suma quadrats Quadrats mitjans Font dede variació g. g. l.g.l.l. Suma quadrats Quadrats mitjans F FFF 2Quadrats Entre files a – 1 Font variació Suma quadrats mitjans Q = b ( – ) Font de variació g. l. Suma quadrats Quadrats mitjans Font deFont variació Suma quadrats Quadrats mitjans f Font de variació Suma quadrats Quadrats mitjans defiles variació g. l.g.al.–g.1l. Suma quadrats Quadrats mitjans= F F FF Entre Q ( – )2 f=b = Entre files Q=Q ==b b ( ( (– – )–2 )22)2 Entre files a – a1 –a a1– –1 1 fb Entre files Entre files Q f f Entre files =f =b(b ( –( (–)2–)–2 ) )22 Entre files Entre files a –a1–aaa1–––111 Qf Q fb Entre files = === = fbQ Entre files =Q Q ( – ) f=b = = == Entre columnes b–1 Qc = a ( – )2 2 Entre columnes b–1 = Qc = a ( – ) 2 = Entre columnes b – 1 2 Q = a ( – ) 2 Entre columnes c a= a ( Entre columnes b –bb1––11 ( – ) QcQ=Q c Entre Entre columnes ==a(a ( –( ( ––)2––))2 )2)22 Entre columnes Entre columnes = === ca Entre columnes =ca=Q Entre columnes bb––b11– bb1 –– 11 Qc Q c Qc = a ( – ) = = == columnes Residu o error (a – 1) · (b Qr = (xij – – Residu o error (a – 1) · (b = Qr = (xij – – = Residu o error (a – 1) · (b – 1) Q = (x – – Residu o error (a – 1) · (b r = (x – ij – Residu o error (a (a – 1) · (b· (b (x – 2 QrQ=Q r 1) ij(x ij– – – Residu ooerror ––(b Residu ––1) 1) ·· (b Residu o error (a –(a1) ·1) Residu = === r= ij ij–– – + Q = (x –– ) Residu o error –(a · (b Q = (x – Residu o error error (a 1) (b Q = (x – r r ij Q = (x – r ij 2 – 1) r ij (a – 1)(b–– 1) = – 1) = == + ) 1) o error ––1)1) 2 – 1)– 1) 2 – 1) + ++ )22 ))2)2 2 Total ab – 1 + +)2++ )+Qt )= )2 2 (xij – ) Total ab – 1 Qt = (xij – ) Total ab – 1ab – 1 2 Total Q = 2 ) )2 Total ab – 1 t ij – – Total abab – 1– 1 Qt = (xij(x–(x Q = 2 ij ) t Total 2 2 ) )22 Total Total ab ab – 1–ab t= ij)ij–– Total Qt Q = tQ (x – ij(x–(x Total ab1 –– 11 =Q ) tt = Q = ij(x (x – ) ij

F

Perfacilitar facilitar els càlculs, les les sumes eses poden calcular ambamb fórmules algebraicament Per sumesde deesquadrats quadrats poden fórmules Per facilitar els càlculs,elslescàlculs, sumes de quadrats poden calcular amb calcular fórmules algebraicament Per facilitar càlculs, sumes calcular amb fórmules algebraicament idèntiques: algebraicament idèntiques: Per facilitar els càlculs, les sumes dequadrats quadrats espoden poden calcular amb fórmules algebraicament Per facilitar elsels càlculs, lesles sumes dede quadrats eses poden calcular amb fórmules algebraicament idèntiques: Per facilitar els càlculs, les sumes de quadrats es poden calcular amb fórmules algebraicament Per facilitar els càlculs, les sumes de quadrats es poden calcular amb fórmules PerPer facilitar els càlculs, les sumes de quadrats es poden calcular amb fórmules algebraicament facilitar els càlculs, les sumes de quadrats es poden calcular amb fórmules algebraicament Peridèntiques: facilitar els càlculs, les sumes de quadrats es poden 2calcular 2amb fórmules algebraicament algebraicament Q = 2x ij – ab idèntiques: idèntiques: 2 t idèntiques: Qt = x ij – ab idèntiques: idèntiques: idèntiques: idèntiques: 2 2 2– ab 2 2 Q = 2x x t Q = ab QtQ = =t 2 x103 – 2ij2ab ij – ij 2ab2 2 22 2 2 2 x – 2 t tx=ijx– ab = t =Q Qt Q –xxijf 2ab =––bab ijij Q ab 2 – ab ij Q t= Qf = b – ab 2 2 2 Q = b –2 –abab 2 2 f Q = b QfQ = b=f b 2 2 –2 ab 2– 2ab2 2 22 2 2 – ab 2 Qf = b Q = a– ab


Josep Mateo PerMaria facilitar elsSanz càlculs, les sumes de quadrats es poden calcular amb fórmules algebraicament

idèntiques: Qt =

x2ij – ab

Qf = b

2

– ab

2

Qc = a

2

– ab

2

2

Qr = Qt – Qf – Qc

8. A partir dels valors dels estadístics de prova F i les zones d’acceptació de cada hipòtesi, decidirdels quina és la hipòtesi certa cadad’acceptació contrast. de cada hipòtesi, 8) A partir dels valors estadístics de prova F i per les azones f 9. Calcular valor del nivell significació decidir quina és laelhipòtesi certa per ade cada contrast. crític o p-valor de cada contrast: ac i acc. El p-valor de cada contrast es troba calculant la probabilitat que una distribució F de Fisher amb els graus de llibertat corresponents al contrast que es 9) Calcular el valor del nivell de significació crític o p-valor de cada contrast: "cf i "cc. El p-valor vol analitzar sigui més gran que l’estadístic de prova F del contrast correspode cadanent, contrast troba calculant la probabilitat que una distribució F de Fisher amb els graus és aesdir: • P(Fa–1,(a–1)(b–1) > Ff) = acf. • P(Fb–1,(a–1)(b–1) > Fc) = acc.

a, decidir quina és la hipòtesi certa per a 10. A partir dels valors de acf, acc i de 103 cada contrast. L’anomenat disseny en blocs aleatoritzats és un disseny que s’usa especialment en l’experimentació agrícola, en el qual es volen comparar a tractaments (per exemple, a fertilitzants), assignant els tractaments en b blocs (exemple: b finques), de manera que es reparteixen els a tractaments aleatòriament a cada bloc (exemple: els fertilitzants s’apliquen aleatòriament en a parcel·les d’una mateixa finca). Interessarà saber si hi ha diferències entre els tractaments (αi) i entre els blocs (βj).

Blocs

A

2

1

3

4

5

B

4

3

1

5

2

C

5

1

2

4

3

Exemple Es va fer un experiment per estudiar l’efecte de dos factors, altura d’escala i ritme de pujada d’escales, en el ritme cardíac de les persones. Es van considerar dues altures diferents d’escala, 14.6 cm i 29.2 cm, i tres ritmes diferents de pujada d’escales, 14 escales/minut, 21 escales/minut i 28 escales/minut. Per tant, hi ha 6 combinacions diferents dels diversos nivells considerats dels factors. Es van agafar 6 persones. Cada persona que va fer l’experiment va pujar les escales durant 3 minuts amb unes condicions particulars d’altura d’escala i ritme de pujada. La variable que es va mesurar és 104


Estadística pràctica pas a pas

la diferència entre el ritme cardíac abans de fer l’activitat i el que tenia després de fer l’activitat. Els resultats van ser: Ritme pujada

Altura escala

14

21

28

14.6

9

15

24

29.2

16

26

50

Suposant que l’increment de ritme cardíac de cada nivell dels factors considerats es distribueix normalment i que hi ha la mateixa variància en els diversos nivells, es vol analitzar si hi ha diferències significatives, amb α = 0.05, entre l’increment del ritme cardíac dels diversos nivells considerats dels dos factors que es volen estudiar. Solució 1. Els factors que es volen considerar són l’altura d’escala i el ritme de pujada d’escales. Del factor altura d’escala es consideren dos nivells diferents: 14.6 cm i 29.2 cm. Del factor ritme de pujada d’escales es consideren tres nivells diferents: 14 escales/minut, 21 escales/minut i 28 escales/minut. La variable resposta que es vol estudiar és l’increment de ritme cardíac després de fer l’activitat. 2. Hem suposat que es compleixen les condicions per aplicar ANOVA de dos factors: les observacions de cada nivell del factor es distribueixen normalment i hi ha la mateixa variància en els diversos nivells. 3. Hi ha dues H0, una per a cada factor, i són: • H0f: α14.6 = α29.2 (no hi ha efecte del factor altura de l’escala) • H0c: β14 = β21 = β28 (no hi ha efecte del factor ritme de pujada d’escales) 4. Hi ha dues H1, una per a cada factor, i són: • H1f: α14.6 ≠ α29.2 (hi ha efecte de l’altura de l’escala en l’increment del ritme cardíac). • H1c: βi ≠ βj per a alguna parella i ≠ j (hi ha efecte del ritme de pujada d’escales en l’increment del ritme cardíac). 5. Determinem la zona de les taules on s’accepta la H0 de cada contrast: • Contrast del factor altura d’escala: s’ha de consultar la taula F de Fisher amb (1,2) graus de llibertat. A la taula anterior hem de trobar el punt que deixa a la seva dreta una àrea de α = 0.05. Aquest punt és Fαf = 18.5. Per tant, la zona de les taules on s’accepta la H0f és l’interval (0, 18.5). 105


Josep Maria Mateo Sanz

• Contrast del factor ritme de pujada: s’ha de consultar la taula F de Fisher amb (2,2) graus de llibertat. A la taula anterior hem de trobar el punt que deixa a la seva dreta una àrea de α = 0.05. Aquest punt és Fαc = 19.0. Per tant, la zona de les taules on s’accepta la H0c és l’interval (0, 19.0). 6. Determinem la zona de les taules on s’accepta la H1 de cada contrast: • Contrast del factor altura d’escala: la zona de les taules on s’accepta la H1f és l’interval (18.5, ∞). • Contrast del factor ritme de pujada: la zona de les taules on s’accepta la H1c és l’interval (19.0, ∞). 7. Calculem els estadístics de prova, un per al factor altura d’escala i un per al factor ritme de pujada d’escales: Font de variació

g. l.

Suma quadrats

Quadrats mitjans

F

Altura escala

1

322.7

322.7

6.43

Ritme pujada

2

624.3

312.2

6.22

Residu o error

2

100.3

50.2

Total

5

1047.3

8. Hi haurà una conclusió per a cada contrast: • Contrast del factor altura d’escala: com que l’estadístic de prova Ff = 6.43 es troba a l’interval on s’accepta H0f, direm que acceptem H0f i que, per tant, no s’ha demostrat que l’increment mitjà del ritme cardíac sigui diferent per a les dues altures d’escala considerades. • Contrast del factor ritme de pujada: com que l’estadístic de prova Fc = 6.22 es troba a l’interval on s’accepta H0c, direm que acceptem H0c i que, per tant, no s’ha demostrat que l’increment mitjà del ritme cardíac sigui diferent per als tres ritmes de pujada d’escales considerats. 9. Hi ha un p-valor per a cada contrast: • Contrast del factor altura d’escala: el valor del nivell de significació crític o p-valor, acf, és 0.127. • Contrast del factor ritme de pujada: el valor del nivell de significació crític o p-valor, acc, és 0.138. 10. Segons el p-valor, hi haurà una conclusió per a cada contrast: • Contrast del factor altura d’escala: com que el p-valor corresponent, acf = 0.127, és més gran que el nivell d’error amb el qual volem treballar, α = 0.05, acceptem H0f i arribem a la mateixa conclusió que abans. 106


Estadística pràctica pas a pas

• Contrast del factor ritme de pujada: com que el p-valor corresponent, acc = 0.138, és més gran que el nivell d’error amb el qual volem treballar, α = 0.05, acceptem H0c i arribem a la mateixa conclusió que abans.

6.4.1 Excel: ANOVA de dos factors amb una sola mostra per grup Per fer una ANOVA de dos factors amb una sola mostra per grup amb Excel cal seguir els passos següents: 1. Hem d’introduir les dades en el full de càlcul. Si seguim amb l’exemple de la pujada d’escales, hem de posar les dades d’un factor en files i les de l’altre factor en columnes. També podem posar un rètol que indiqui a quin nivell corresponen les dades de cada fila i de cada columna. La pantalla 3 ens mostra com han de quedar les dades una vegada introduïdes a Excel. Pantalla 3. Dades de dos factors amb una sola mostra per grup

2. Del menú “Herramientas”, triem “Análisis de datos”. 3. De les funcions que apareixen, triem “Análisis de varianza de dos factores con una sola muestra por grupo” i acceptem. Ha d’aparèixer el quadre que es veu a la pantalla 4. Pantalla 4. Quadre de “Análisis de varianza de dos factores con una sola muestra por grupo”

107


Josep Maria Mateo Sanz

4. Del quadre anterior, hem d’emplenar: a) Rango de entrada. Hem de seleccionar les caselles on es troben les dades que volem analitzar. b) Rótulos. Hem de marcar aquesta casella si a “Rango de entrada” hem seleccionat les cel·les on hi ha els rètols descriptius dels nivells a què corresponen les dades de cada fila i de cada columna. Si no s’han posat aquests rètols descriptius o no s’han inclòs aquestes cel·les a “Rango de entrada”, no hem de marcar la casella “Rótulos”. c) Alfa. Hem de posar el nivell d’error amb què volem treballar. d) Opciones de salida. Aquí triem on volem els resultats. Deixem marcada l’opció “En una hoja nueva”. 5. El resultat apareix en una fulla nova. Hi ha dos quadres: quadre “Resumen” i quadre “Análisis de varianza”. 6. Quadre Resumen. Obtenim, de cada nivell considerat de cada factor, quantes dades hi ha, la seva suma, la seva mitjana i la seva variància. 7. Quadre Análisis de varianza. És el quadre amb el resultat dels càlculs que s’han de fer per obtenir els estadístics de prova. El més interessant són les tres últimes columnes d’aquest quadre: a) F. Són els valors dels estadístics de prova Ff i Fc. En el nostre exemple tenim que Ff = 6.43 i Fc = 6.22. b) Probabilidad. Són els valors del nivell de significació crític o p-valor de cada contrast. En el nostre exemple tenim acf = 0.127 i acc = 0.138. c) Valor crítico para F. Són els valors de la taula F, amb els graus de llibertat corresponents, que fan de frontera entre acceptar la H0 i la H1 de cada contrast. En el nostre exemple tenim que Fαf = 18.5 i Fαc = 19.0.

6.5 Disseny ANOVA de dos factors amb interacció Suposem que l’observació d’una v. a. X està influïda per dos factors i que el nombre d’observacions per a cada combinació dels nivells del factor fila amb els nivells del factor columna és més gran que 1. Per tant, suposem que el primer factor (factor fila) té a nivells i que el segon factor (factor columna) té b nivells. Suposem que disposem de n = a × b × r observacions, r per a cada combinació dels nivells del factor fila amb els nivells del factor columna. Amb aquestes condicions, les dades les podem posar de la manera següent:

108


Factor Factor columna Factor columna columna 111

222

Estadística pràctica pas a pas

... ... ...

bbb

111

xxx111 ... xxx121 ... xx12r ... ... Factor columna ... xx11r ... ... ... xx1br 111 121 1b1 ... xxx1b1 111 ... x11r 11r 121 ... x12r 12r 1b1 ... x1br 1br 1 2 ... b 222 xxx211 ... xxx21r xxx221 ... xxx22r ... xxx2b1 ... ... ... ... ... xx2br Factor 211 21r 221 22r 2b1 Factor ... ... ... 21r 221 22r 2b1 ... x2br 2br Factor 1 x 211 ... x x ... x ... x ... x 111 11r 121 12r 1b1 1br fila fila fila 2 ... x221 ... x... ... ... ... ... ... ... ... Factor ... x211 ... x... ...21r ...22r ... x2b1 ... x... ...2br fila ... ... ... ... ... aaa xxxa11 ... xxxa1r xxxa21 ... xxxa2r ... xxxab1 ... ... ... ... ... a11 a1r a21 a2r ab1 abr ... ... ... ... xxxabr ... xa1r a1r xa21a21 ... xa2r a2r ... xab1ab1 ... xabr abr a xa11a11 iii podem calcular: podem calcular: i podem podemcalcular: calcular:

(mitjana la fila i, $ (mitjana de la fila i, $ $ a), (mitjana dede la la filafila i, 111i,$ $1iii ≤ $ a), a), (mitjanade i ≤ a),

(mitjana la columna j, (mitjana de la columna j, $ $ b), (mitjanade columna j ≤ b), (mitjana dede la la columna j, 111 j,$ $ 1jjj $ $≤b), b),

(mitjana de iii amb la j, (mitjana de la combinació de la fila amb la columna j, $ $ a, $ $ b), (mitjana combinació defila la fila i amb la columna a,b), 1 ≤ j ≤ b), (mitjana de dedela lalacombinació combinació de la la fila amb la columna columna j, 111 $ $ iiij,$ $1a, a,≤111i$ $≤jjj $ $ b),

x (mitjana general).

109 109

Amb aquestes condicions ens apareix109 un nou element, que és la interacció que hi ha entre els factors considerats. Per explicar el significat de la interacció ho farem a través d’un exemple: suposem que agafem el temps que es triga a fer una volta al circuit de Montmeló en dos cotxes diferents i amb tres conductors diferents. Si no hi hagués interacció entre cotxes i conductors, amb cotxes diferents el pilot més ràpid sempre tardaria menys temps a fer una volta que els altres pilots o, si més no, la diferència amb els altres pilots es mantindria en canviar de cotxe. Però pot passar que un pilot diferent estigui molt avesat a un tipus de cotxe en concret i amb aquest cotxe sigui el més ràpid o la diferència no sigui tan gran com en l’altre cotxe. D’aquesta manera es veu que hi pot haver una interacció entre cotxes i pilots. Gràficament ho podem representar com a: conductor 1.00 2.00 3.00

130,00 120,00 110,00 100,00 90,00 80,00 70,00 1.00

2.00

cotxe

109


Josep Maria Mateo Sanz

Si no hi hagués interacció entre cotxes i pilots, les tres línies serien més o menys paral·leles, la qual cosa voldria dir que les diferències de temps es mantenen entre els conductors sigui quin sigui el cotxe que agafin. Però en el gràfic anterior podem veure que la diferència de temps entre el 3r conductor i els dos primers no és la mateixa amb un cotxe que amb l’altre; això indica que hi ha certa interacció entre cotxes i conductors. En el cas que tinguem dos factors amb diverses mostres per a cada combinació de nivells dels factors, es poden fer 3 contrastos: • Si hi ha diferències entre els nivells del factor fila. • Si hi ha diferències entre els nivells del factor columna. • Si hi ha interacció entre els dos factors considerats. Els passos que hem de seguir per fer una anàlisi de la variància de dos factors amb interacció són: 1. Determinar quins són els factors que es volen considerar, quins nivells s’han agafat de cadascun d’aquests factors i quina és la variable resposta o variable observada que es vol estudiar. 2. Comprovar que les observacions de cada nivell de cada factor es distribueixen normalment i que hi ha la mateixa variància en els diversos nivells. 3. Determinar la hipòtesi nul·la, H0. En aquest cas hi haurà tres H0, una per a cada factor i una per contrastar si hi ha interacció entre els dos factors, i seran: H0f: α1 = ... = αa (no hi ha efecte del factor fila) H0c: β1 = ... = βb (no hi ha efecte del factor columna) H0I: no hi ha interacció entre el factor fila i el factor columna 4. Determinar la hipòtesi alternativa, H1. En aquest cas, hi haurà tres H1, una per a cada factor i una per contrastar si hi ha interacció entre els dos factors, i seran: H1f: αi ≠ αj per a alguna parella i ≠ j (hi ha efecte fila) H1c: βi ≠ βj per a alguna parella i ≠ j (hi ha efecte columna) H1I: hi ha interacció entre el factor fila i el factor columna 5. Determinar la zona de les taules on s’accepta la H0. Hi haurà una zona per a cadascun dels tres contrastos que es volen realitzar. La taula que s’ha de consultar és la F de Fisher, però els graus de llibertat seran diferents segons el contrast que es vulgui realitzar: • Contrast del factor fila: a – 1 i ab(r – 1) graus de llibertat. Buscarem el valor Fαf que deixa a la seva dreta una àrea igual a α i la zona de les taules on s’accepta la H0f és l’interval ( 0 , Fαf).

110


Estadística pràctica pas a pas

• Contrast del factor columna: b – 1 i ab · (r – 1) graus de llibertat. Buscarem c c el valor F! ••Contrast del columna: 11i ·iab 1)1)graus de Buscarem elelvalor Contrast delfactor factor columna: ab·–·(r1) (r––graus graus dellibertat. llibertat. Buscarem valor • Contrast del factor columna: b – b1b–i–ab (r de llibertat. Buscarem el valor F!c FF!c! ••••Contrast del columna: –––1111dreta i iab 1) Buscarem el valor cF que deixa abcolumna: la– bbbseva igual ade ! llibertat. illibertat. lade zona de leseltaules on s’accepta la H0c és Contrast del factor columna: (r 1) graus de llibertat. Buscarem el valor FcF!!!cc!cc Contrast delfactor factor columna: ab–··una (ri–––àrea –graus 1) graus de Buscarem valor • que Contrast del factor b(r 1ia(r1) ab (rlagraus –zona 1)llibertat. graus llibertat. Buscarem Contrast del factor columna: ab ·–·(r 1) graus de llibertat. Buscarem elelH valor • Contrast del factor columna: 1b–àrea iigual abiiigual ·ab de Buscarem valor cFH !HccF deixa a la seva dreta una ! i la zona de les taules on s’accepta la és és que deixa a la seva dreta una àrea igual a ! i de les taules on s’accepta la és que deixa a la seva dreta una àrea a ! la zona de les taules on s’accepta la • Contrast del factor columna: (r1)–graus 1) graus llibertat. Buscarem el valor Contrast delfactor factor columna: b– –1b1ci–iab1ab·i (r ·ab(r–·–1) graus llibertat. Buscarem valor 0 Fc0!c0 F! • •Contrast columna: b0una dede llibertat. Buscarem elelvalor FH! 0cc cés cseva dreta que deixa aaaaFla àrea igual aaaa! iii i la zona de les taules on s’accepta la cH l’interval ( , F ). que deixa a la seva dreta una àrea igual a α i la zona de les taules eldel valor que deixa la seva dreta una àrea igual ! la zona de les taules on s’accepta la ! que deixa la seva dreta una àrea igual ! la zona de les taules on s’accepta la H0 ésés c c que deixa la seva dreta una àrea igual ! la zona de les taules on s’accepta la H c és que deixa a la seva dreta una àrea igual a ! i la zona de les taules on s’accepta la H αF! ). c 0 0cés 0 l’interval ( 0 , l’interval ). l’interval ( 0a,laF(a!0seva )., Fseva ! c que deixa la dreta una àrea igual a ! i la zona de les taules on s’accepta la H que deixa dreta una àrea igual a ! i la zona de les taules on s’accepta la H és0 és c cc c quel’interval deixa as’alaccepta seva dreta una àrea igual a(a !0–i, 1) la ·czona de les taules ongraus s’accepta la H0 0ésBuscarem és l’interval ( F ). on H ( 0 ). cla c,, ,F • Contrast de la interacció: (b – 1) i ab · (r – 1) de llibertat. el valo ! l’interval ( 0 F ). l’interval ( 0 F ). 0 α ! ! l’interval ,).cF! ).c (a –(a l’interval 0de ,(la F0la!interacció: ••l’interval Contrast – 1) · (b – 1) i ab · (r – 1) graus de llibertat. Buscarem el valor Contrast (a – 1) · (b – 1) i ab · (r – 1) graus de llibertat. Buscarem el valor • Contrast de (lade interacció: 1) · (b – 1) i ab · (r – 1) graus de llibertat. Buscarem el valor c!interacció: l’interval ( 0 , F ). ( 0 , F ). ( de 0 , la F!interacció: ).deI,!la • IContrast interacció: a(b––– 1)(b – – 1) graus de Buscarem llibertat. Bus••l’interval (a (b ··· 1) (r –––i–ab(r 1) graus de el valor F deixa la···–(·seva dreta una allibertat. !de illibertat. la zona de les taules on s’accepta la H0 Contrast de la 1) (b 1) ab 1) graus de llibertat. Buscarem el valor ! que de lainteracció: interacció: (a–––·–a1) 1)iii·iab ab (ràrea 1)igual graus llibertat. Buscarem ••Contrast Contrast de la interacció: (a 1) (b –i–1) 1) ab (r 1) graus de llibertat. Buscarem elella valor I la IContrast • Contrast de interacció: (a –(a 1) (b1) 1) ab (r –ia·a(r 1) graus deles Buscarem el la valor Ivalor F , que deixa a la seva dreta una àrea igual ! i la zona de les taules on s’accepta HH0I0I ! F , que deixa a la seva dreta una àrea igual ! i la zona de les taules on s’accepta la F , que deixa a la seva dreta una àrea igual a ! la zona de taules on s’accepta H I ! ! Contrast • de la interacció: (a – 1) · (b – 1) i ab · (r – 1) graus de llibertat. Buscarem el valor • Contrast de la interacció: (a – 1) · (b – 1) i ab · (r – 1) graus de llibertat. Buscarem el valor 0 I II I que deixa ai ab laigual seva una igual a on α is’accepta la zona de el valor F(aα –, dreta • Contrast de la deixa interacció: 1)( 0· (b –I). 1) · (r –a dreta 1)igraus deàrea llibertat. Buscarem el valor II,carem I que F la seva dreta una àrea igual ! la zona de les taules on s’accepta la H I I F I H ésaaaseva l’interval ,una Funa ! 0 , que deixa la seva a ! i la zona de les taules la ! àrea F , que deixa a la seva dreta àrea igual a ! i la zona de les taules on s’accepta la H ! I 0 ! I F , que deixa la seva dreta una àrea igual a ! i la zona de les taules on s’accepta la H I F , que deixa a la dreta una àrea igual a ! i la zona de les taules on s’accepta la H ! Il’interval ! l’interval I ésl’interval I 0 0I I àrea igual a ! i la zona I de les taules on s’accepta 0la ,).seva ). ,Fla F!aI!seva ).dreta ésF ( deixa 0 ,a(F(0on I!és I 0 H0 !0a F , que dreta una , que deixa la una àrea igual a ! i la zona de les taules on s’accepta la H és l’interval ( 0 , F ). les taules s’ ccepta la H ! F! , és que deixa a ((la00seva I dreta 0 igual a ! i la zona de α les taules on s’accepta la H0 ,F és l’interval ).II). una àrea l’interval F!! I). ésésl’interval l’interval és l’interval ( 0 ,(F(0!0II,,).,F IF! !). és l’interval 0zona F! ).de les taules on s’accepta la H1. Seran les zones complel’interval ,( F 6. Determinar la !, ). ésésl’interval 0( 0, F ! ). 6) (Determinar la zona de les taules on s’accepta la H1. Seran les zones complementàries a les les complementàries 6)6)Determinar lalazona de les on la1la Seran leszones zones complementàries les Determinar detaules lestaules taules ons’accepta s’accepta H mentàries azona lesles trobades pas 5), éslaa Hdir, seran: .H Seran les zones complementàries a lesaales 6) Determinar la zona de onal s’accepta 1.1.Seran . Seran les zones complementàries a les 6) Determinar la zona de les taules on s’accepta la H trobades al pas 5), és a dir, seran: 1 . Seran les zones complementàries a les 6) Determinar la zona de les taules on s’accepta la H 6) Determinar la zona de les taules on s’accepta la H . Seran les zones complementàries a les f 1 6)trobades Determinar la de les taules on les zones complementàries Seran les zones complementàries a lesa les 6) Determinar la zona de taules on s’accepta 1.1 Seran , ∞la).laHla factor fila: (s’accepta Fs’accepta 1. H trobades alalContrast pas 5), és adel dir, seran: pas 5), ésde ales dir, seran: trobades al• pas 5), és azona dir, seran: αs’accepta 6) Determinar la zona de les taules on la H . Seran les zones complementàries a les 6) Determinar la zona les taules on H . Seran les zones complementàries a les 1 1 f 6) Determinar la zona deaa les taules on s’accepta H1).. Seran les zones complementàries a les trobades al pas 5), seran: •aés Contrast del factor fila: ( F!la,c ! trobades al pas 5), és dir, seran: trobades pasés 5), ésadel adir, dir, seran: ff trobades alalContrast pas 5), és dir, seran: f( F columna: trobades alContrast pas 5), dir, seran: • factor ( F , ∞ ). • del factor fila: , ! ). ! • Contrast del factor fila: ( F , ! ). • Contrast del factor fila: ( F , ! ). α ! trobades al5), pas 5), ésdir, aseran: dir, seran: trobades alpas pas 5),ésés adir, seran: ff!f trobades al a Contrast del factor fila: F ! ).). •factor Contrast del factor columna: F!c , ! ). ••••Contrast del fila: ((f( (,F ,,f,c,! Contrast del factor fila: F!!!f!). !). c).c( F I , ∞( ). ! Contrast del factor fila: F •• Contrast del factor fila: ( F ! • Contrast de la interacció: ! f • Contrast del factor columna: ( F , ! ). ! columna: (,!F Contrast del factor columna: !c!).)., !α ). k f !(( F • Contrast del factor ,F! Contrast delfactor factor fila:(fila: (FF !!).,). • •Contrast del fila: ! c c, ! ). ! ,la ••••Contrast del factor columna: ( ck(F • Contrast de interacció: (Per F! ,fer ! ).cadascun dels contrastos anteriors ! ,, ,! Contrast del factor columna: ( F Contrast del factor columna: F !!c!c). k Contrast del factor columna: ( F !!).).). k( F •• Contrast del factor columna: ( , ! 7. Calcular els estadístics de prova. ! c • Contrast de la interacció: F , ! ). !c!().F , ! ). de lafactor interacció: ! Contrast dedel ladel interacció: ( F! ((, F , ! ). • Contrast columna: • Contrast factor columna: F , ! ). ! ). • Contrast del factor columna: (((k F k!,k, ! !!k ••••Contrast de la interacció: F Contrast la interacció: ,, diferents ! ).).). ,! Contrast de interacció: !!k!k). necessitem estadístics segons el contrast que vulguem fer. Els Contrast de lalauns interacció: !!). ,kFF ! • Contrast de lade interacció: ( F!k( (F • Contrast de la interacció: ( F , ! ). • Contrast de la interacció: ( F , ! ). ! ! • Contrast de7) laque interacció: ! , ! ).perde Calcular estadístics prova. Per cadascun dels contrastos passos hem els de( Fseguir calcular les fer F per a un disseny de dosanteriors factors necessitem uns 7)7)Calcular els de fer contrastos anteriors necessitem Calcular elsestadístics estadístics deprova. prova. Percadascun fercadascun cadascun dels contrastos anteriors necessitem uns 7) Calcular els estadístics de prova. Per Per fer delsdels contrastos anteriors necessitem uns uns (amb interacció) els podem resumir a la taula: 7) Calcular els estadístics de prova. Per fer cadascun dels contrastos anteriors necessitem uns estadístics diferents segons el contrast que vulguem fer. Els passos que hem de seguir pe 7) Calcular els estadístics de prova. Per fer cadascun dels contrastos anteriors necessitem uns 7) Calcular els estadístics de prova. Per fer cadascun dels contrastos anteriors necessitem uns 7)estadístics Calcular els estadístics de prova. Per fer cadascun dels contrastos anteriors uns 7) Calcular els diferents estadístics deelprova. Per que fer que cadascun dels contrastos anteriors necessitem uns estadístics segons elel contrast vulguem fer. Els passos que de per diferents segons contrast que vulguem fer. Els passos que hem hem de seguir seguir per estadístics diferents segons contrast vulguem fer. Els passos que hem denecessitem seguir per 7) Calcular els estadístics de prova. Per fer cadascun dels contrastos anteriors necessitem uns 7) Calcular els estadístics de prova. Per fer cadascun dels contrastos anteriors necessitem uns 7) Calcular elsdiferents estadístics deFprova. Per fer que cadascun delsfer. contrastos anteriors necessitem uns per estadístics segons el Els passos que de seguir calcular les per acontrast un disseny devulguem dos factors (amb interacció) elshem podem resumir aper la taula: estadístics diferents segons el contrast que vulguem fer. Els passos que hem de seguir estadístics diferents segons el contrast que vulguem fer. Els passos que hem detaula: seguir estadístics diferents segons el contrast que vulguem fer. Els passos que hem de seguir per estadístics diferents segons el contrast que vulguem fer. Els passos que hem de seguir per per calcular les F per a un disseny de dos factors (amb interacció) els podem resumir a la calcular les F per a un disseny de dos factors (amb interacció) els podem resumir a la taula: calcular les F per a un disseny de dos factors (amb interacció) els podem resumir a la taula: estadístics diferents segons el contrast que vulguem fer. Els passos que hem de seguir per estadístics diferents segons el contrast que vulguem fer. Els passos que hem de seguir per Font de diferents segons el contrast que vulguem fer. Els passos que hem de seguir per estadístics calcular les F aaaal.un de factors (amb interacció) els resumir aaaala Suma quadrats Quadrats mitjans Fmitjans calcular FF per un disseny de dos (amb interacció) els podem resumir la taula: calcular les Fper per undisseny disseny dedos dos factors (amb interacció) elspodem podem resumir taula: calcular les un disseny de dos (amb interacció) els podem resumir lalataula: taula: calcular les Fles per aper ung. disseny de dos factors (amb interacció) podem resumir a laQuadrats taula: Font de variació g. factors l.factors Sumaels quadrats F variació calcular les F per a un disseny de dos factors (amb interacció) els podem resumir a la taula: calcular les F per a un disseny de dos factors (amb interacció) els podem resumir a la taula: Font de variació g. l. Suma quadrats Quadrats mitjans FF Font de variació g. l. Suma quadrats Quadrats mitjans Font de variació g. l. Suma quadrats Quadrats mitjans F calcular les F per a un disseny de dos factors (amb interacció) els podem resumir a la taula: Font de Suma quadrats Quadrats mitjans F de variació g. l.l.l. Suma quadrats Quadrats mitjans Font devariació variació g. l.g. Suma quadrats Quadrats mitjans Font de variació g.g.l. quadrats Quadrats mitjans FontFont de variació quadrats Quadrats F FFF 2 mitjans Entreg.files aSuma –Suma 1Suma Font de variació g. l. Suma quadrats Quadrats mitjans F Q = br ( – ) Font de variació l. quadrats Quadrats mitjans F f 2 Font deEntre variació g.–l.1aa––11 Suma quadrats Quadrats mitjans files Entre files aa– Entre files =F Qbr Qf f==br br( –( ( )–2– )2)2 Qf = Entre files 1 2 Entre files a–1 = == Q br Entre Entre files Q = Entre files Qfff = br( ((–( ( )–––2–2 )))2)22 Entre filesfiles a – a1aa–––111 Q br f==br Q = br = f Entre Entre filesfiles Qbr ) ) = === Entre files a a– –1a1 – 1 f = br( ( –(– )2– f= QQ f = br =2= = Entre columnes b–1 Q = ar ( – ) c 2 Entre columnes = Entre columnes b – 1bb––11 Entre columnes ar( (–( –)2– )2)2 Qc =QQ ar c c==ar == = 2 Entre columnes b – 1 2 Entre Q = ar ( – ) Entre columnes b – 1 2 Entre columnes b – 1 2 cc c= =arar ((–( ––)– 2 )) )2 Entre columnes bb––11b – 1 Entre columnes QQ Qc =Q ar = c = ar ( Entre columnes b b– –1b1 – 1 Entre columnes Q = = === Q = ar columnes Entre columnes c c Qc = ar ar( ( –( – )–2) ) = = = Interacció (a – 1) % (b Q = r ( – – + I Interacció = Interacció (a –(a (a–%–1) Interacció 1) (b1)% %(b(bQI =QQ rI I==rr( (–( ––– ––+ ++ == = Interacció (a – 1) % (b – 1) Q = r ( – – + Interacció (a – 1) % (b Interacció (a – 1) % (b I Q = r ( – – + Q Interacció (a –(a – 1) Interacció 1) rII I==rr( (–( ––– ––+ ++ 2 = I =Q 1)% %(b(bQQ 1)1)–%––(b Interacció (a(a–––1) (a 1) Interacció %1) (b Q = = === Interacció I Q = r rI = r( ( 2 –( –)2 2––– –++ +) Interacció (a – 1)(b –––% –(b 1) 1) I = 1) 1) = = ) 2) – 1)– 1) 2 – 1) – 1) 2 2 ) – 1) ) 2) Residu o error ab(r – 1) )2)2 ))2 Qr = 2 (xijk – )2 2 2 ) Residu o error ab(r – 1) = Residu o error ab(r – 1) Residu o error ab(r – 1) Qr =QQr r== (xijk (x –(xijkijk––) )2) = = = 2 Residu o error ab(r – 1) 2 Residu ––– 2 )) 2) Residu oooerror Residu error ab(rab(r ab(r Q === (x (x (x Residu error 1)1) Qr =Q Residu o error –1)1)–––1) ijk QQrrr r= = –(xijk ab(r –ab(r ijkijk– ) 2 ) 2 ijk (x Residu o error ab(r – 1) Residu o error ab(r – 1) = === Q = (x Q = (x – Residu o error ab(r – 1) r ijk o error Qr =r (xijkijk– –)2) ) =2= = Total abr – 1 Q = (x – ) t ijk 2 Total Total Total abr abr –abr 1 ––11 Qt =QQt t== (xijk (x –(xijkijk–)2– )2)2 Total abr –1 Q (x ––2– )))22)2 Total Total Q = Qttt = (xijk Total abr Total abr–abr –1abr 1 –––111 ijk Total abr Q (x t== (xijk (x ijk– Q = – ) ijk t Total Total abr–abr –1 1 – 1 Qt = (x(xijk–(x –ijk)–2)2 )2 Total abr t= QQ t= ijk

Per facilitar els càlculs, les sumes de quadrats es poden calcular amb fórmules algebraicamen els les de esespoden calcular fórmules algebraicament Perfacilitar facilitar elscàlculs, càlculs, lessumes sumes dequadrats quadrats poden calcular amb fórmules algebraicament Per Per facilitar els càlculs, les sumes de sumes quadrats poden calcular ambamb fórmules algebraicament Per facilitar els càlculs, les deesquadrats escalcular poden calcular amb fórmules Per facilitar els càlculs, les sumes de quadrats es poden amb fórmules algebraicament idèntiques: Per facilitar els càlculs, les sumes de quadrats es poden calcular amb fórmules algebraicament Per facilitar elscàlculs, càlculs, lessumes sumes dequadrats quadrats poden calcular amb fórmules algebraicament Per facilitar els les de esespoden calcular fórmules algebraicament Peridèntiques: facilitar els càlculs, les sumes de quadrats es poden calcular ambamb fórmules algebraicament idèntiques: idèntiques: Per facilitar els càlculs, les sumes de quadrats es poden calcular fórmules algebraicament Perfacilitar facilitar elscàlculs, càlculs, lessumes sumes quadrats poden calcular ambamb fórmules algebraicament algebraicament idèntiques: Per els les dedequadrats esespoden calcular amb fórmules algebraicament idèntiques: idèntiques: idèntiques: idèntiques: idèntiques: idèntiques: idèntiques: idèntiques: 112 112 112112 111112 112 112 112 112 112 112 112


Josep Maria Mateo Sanz

QI = r

Qt =

x2ijk – abr

Qf = br

2

– abr

2

Qc = ar

2

– abr

2

2

– br

2

2

– ar

2

+ abr

2

Qr = Qt – Qf – Qc – QI

8. A partir dels valors dels estadístics de prova F i les zones d’acceptació de cada

8) A partir dels decidir valors dels estadístics de prova F i per les azones hipòtesi, quina és la hipòtesi certa cadad’acceptació contrast. de cada hipòtesi, decidir quina és laelhipòtesi certa per ade cada contrast. crític o p-valor de cada contrast: a f, 9. Calcular valor del nivell significació c

acc i acI. El p-valor de cada contrast es troba calculant la probabilitat que una f c I distribució Fisher els graus de ollibertat corresponents que 9) Calcular el valor Fdeldenivell de amb significació crític p-valor de cada contrast:al"contrast c , "c i "c . El pescada vol analitzar gran laque l’estadístic prova F del contrast corresvalor de contrast essigui trobamés calculant probabilitat quede una distribució F de Fisher amb els ponent, és a dir: graus de llibertat corresponents al contrast que es vol analitzar sigui més gran que l’estadístic de > F f) = acf a dir: • P(Fa–1,ab(r–1) prova F del contrast corresponent, és • P(Fb–1,ab(r–1) > F c) = acc > Ff) = "cf • P(Fa–1,ab(r–1) I I • P(F(a–1)(b–1),ab(r–1) c > F ) = ac c • P(Fb–1,ab(r–1) > F ) = "c

f c I • P(F F ) = "de c a , a i a i de a, decidir quina és la hipòtesi certa per 10. A (a–1)(b–1),ab(r–1) partir dels>valors c c c a cada contrast. I

I

10) A partir dels valors de "cf, "cc i "cI i de ", decidir quina és la hipòtesi certa per a cada

Exemple Es va fer un experiment per estudiar l’efecte de dos factors, altura d’escala i ritme de pujada d’escales, en el ritme cardíac de les persones. Es van considerar dues altures Exemple diferents d’escala, 14.6 cm i 29.2 cm, i tres ritmes diferents de pujada d’escales, 14 esEs va fer un21experiment per estudiar l’efecte de dosPer factors, i ritme dedifepujada cales/minut, escales/minut i 28 escales/minut. tant,altura hi had’escala 6 combinacions d’escales, en el ritme cardíac de les persones. Es van Es considerar dues5altures diferents rents dels diversos nivells considerats dels factors. van agafar persones per ad’escala, cada combinació. La variable es diferents va mesurar és la diferència entre el ritme cardíac abans 14,6 cm i 29,2 cm, i tres que ritmes de pujada d’escales, 14 escales/minut, 21 escales/minut de ifer activitat i el que teniahidesprés de fer l’activitat. Elsdels resultats ser:considerats dels 28 l’escales/minut. Per tant, ha 6 combinacions diferents diversosvan nivells contrast.

factors. Es van agafar 5 persones per a cada combinació. La variable que es va mesurar és la Ritme pujada diferència entre el ritme cardíac14 abans de fer l’activitat 21 i el que tenia després 28 de fer l’activitat. Els resultats ser: 10 15 14 6 0 10 22 20 14 9 15 24 22 39 20 Altura van 14.6 escala 29.2 11 22 6 33 8 14 30 45 35 6 66 51 37 63 33

113

112


Estadística pràctica pas a pas

Suposant que l’increment de ritme cardíac de cada nivell dels factors considerats es distribueix normalment i que hi ha la mateixa variància en els diversos nivells, es vol analitzar si hi ha diferències significatives, amb α = 0.05, entre l’increment del ritme cardíac dels diversos nivells considerats dels dos factors que es volen estudiar. Solució 1. Els factors que es volen considerar són l’altura d’escala i el ritme de pujada d’escales. Del factor altura d’escala es consideren dos nivells diferents: 14.6 cm i 29.2 cm. Del factor ritme de pujada d’escales es consideren tres nivells diferents: 14 escales/minut, 21 escales/minut i 28 escales/minut. La variable resposta que es vol estudiar és l’increment de ritme cardíac després de fer l’activitat. 2. Hem suposat que es compleixen les condicions per aplicar ANOVA de dos factors: les observacions de cada nivell del factor es distribueixen normalment i hi ha la mateixa variància en els diversos nivells. 3. Hi ha tres H0, una per a cada factor i una per contrastar si hi ha interacció entre els dos factors, i són: (no hi ha efecte del factor altura de l’escala) • H0f: α14.6 = α29.2 • H0c: β14 = β21 = β28 (no hi ha efecte del factor ritme de pujada d’escales) • H0I: no hi ha interacció entre l’altura de l’escala i el ritme de pujada 4. Hi ha tres H1, una per a cada factor i una per contrastar si hi ha interacció entre els dos factors, i són: • H1f: α14.6 ≠ α29.2 (hi ha efecte de l’altura de l’escala en l’increment del ritme cardíac) • H1c: βi ≠ βj per a alguna parella i ≠ j (hi ha efecte del ritme de pujada d’escales en l’increment del ritme cardíac) • H1I: hi ha interacció entre l’altura de l’escala i el ritme de pujada 5. Determinem la zona de les taules on s’accepta la H0 de cada contrast: • Contrast del factor altura d’escala: s’ha de consultar la taula F de Fisher amb (1,24) graus de llibertat. A la taula anterior, hem de trobar el punt que deixa a la seva dreta una àrea de α = 0.05. Aquest punt és Fαf = 4.26. Per tant, la zona de les taules on s’accepta la H0f és l’interval (0, 4.26). • Contrast del factor ritme de pujada: s’ha de consultar la taula F de Fisher amb (2,24) graus de llibertat. A la taula anterior hem de trobar el punt que deixa a la seva dreta una àrea de α = 0.05. Aquest punt és Fαc = 3.40. Per tant, la zona de les taules on s’accepta la H0c és l’interval (0, 3.40). 113


Josep Maria Mateo Sanz

• Contrast de la interacció: s’ha de consultar la taula F de Fisher amb (2,24) graus de llibertat. A la taula anterior, hem de trobar el punt que deixa a la seva dreta una àrea de α = 0.05. Aquest punt és FαI = 3.40. Per tant, la zona de les taules on s’accepta la H0I és l’interval (0, 3.40). 6. Determinem la zona de les taules on s’accepta la H1 de cada contrast: • Contrast del factor altura d’escala: la zona de les taules on s’accepta la H1f és l’interval (4.26, ∞). • Contrast del factor ritme de pujada: la zona de les taules on s’accepta la H1c és l’interval (3.40, ∞). • Contrast de la interacció: la zona de les taules on s’accepta la H1I és l’interval (3.40, ∞). 7. Calculem els estadístics de prova, un per al factor altura d’escala, un per al factor ritme de pujada d’escales i un per a la interacció entre l’altura de l’escala i el ritme de pujada: Font de variació

g. l.

Suma quadrats

Quadrats mitjans

F

Altura escala

1

1613.33

1613.33

12.85

Ritme pujada

2

3121.67

1560.83

12.43

Interacció

2

501.67

250.83

2.00

Residu o error

24

3014

125.58

Total

29

8250.67

8. Hi haurà una conclusió per a cada contrast: • Contrast del factor altura d’escala: com que l’estadístic de prova F f = 12.85 es troba a l’interval on s’accepta H1f, direm que acceptem H1f i que, per tant, l’increment mitjà del ritme cardíac no és el mateix per a les dues altures d’escala considerades. • Contrast del factor ritme de pujada: com que l’estadístic de prova F c = 12.43 es troba a l’interval on s’accepta H1c, direm que acceptem H1c i que, per tant, l’increment mitjà del ritme cardíac no és el mateix per als tres ritmes de pujada d’escales considerats. • Contrast de la interacció: com que l’estadístic de prova F I = 2.00 es troba a l’interval on s’accepta H0I, direm que acceptem H0I i que, per tant, no s’ha demostrat que la interacció entre l’altura de l’escala i el ritme de pujada sigui significativa. 114


Estadística pràctica pas a pas

9. Hi ha un p-valor per a cada contrast: • Contrast del factor altura d’escala: el valor del nivell de significació crític o p-valor, acf, és 0.0015. • Contrast del factor ritme de pujada: el valor del nivell de significació crític o p-valor, acc, és 0.0002. • Contrast de la interacció: el valor del nivell de significació crític o p-valor, acI, és 0.1576. 10. Segons el p-valor, hi haurà una conclusió per a cada contrast: • Contrast del factor altura d’escala: com que el p-valor corresponent, acf = 0.0015, és més petit que el nivell d’error amb el qual volem treballar, α = 0.05, acceptem H1f i arribem a la mateixa conclusió que abans. • Contrast del factor ritme de pujada: com que el p-valor corresponent, acc = 0.0002, és més petit que el nivell d’error amb el qual volem treballar, α = 0.05, acceptem H1c i arribem a la mateixa conclusió que abans. • Contrast de la interacció: com que el p-valor corresponent, acI = 0.1576, és més gran que el nivell d’error amb el qual volem treballar, α = 0.05, acceptem H0I i arribem a la mateixa conclusió que abans.

6.5.1 Excel: ANOVA de dos factors amb diverses mostres per grup Per fer una ANOVA de dos factors amb diverses mostres per grup amb Excel cal seguir els passos següents: 1. Hem d’introduir les dades en el full de càlcul. Si seguim amb l’exemple de la pujada d’escales, hem de posar les dades d’un factor en files i les de l’altre factor en columnes, però per a cada nivell del factor fila hem de reservar tantes files com observacions hi hagi a cada combinació de nivells dels dos factors considerats (en el nostre cas, 5). També podem posar un rètol que indiqui a quin nivell corresponen les dades de cada fila i de cada columna. La pantalla 5 ens mostra com han de quedar les dades una vegada introduïdes a Excel.

115


però per a cada nivell del factor fila hem de reservar tantes files com observacions hi hagi a cada combinació de nivells dels dos factors considerats (en el nostre cas, 5).

Josep Maria Mateo Sanz

També podem posar un rètol que indiqui a quin nivell corresponen les dades de cada fila i de cada columna. La pantalla 5 ens mostra com han de quedar les dades una vegada

Pantalla 5. Dades Excel de dos factors amb diverses mostres per grup

introduïdes a Excel.

Pantalla 5. Dades Excel de dos factors amb diverses mostres per grup.

2. Del menú “Herramientas”, triem “Análisis de datos”. Demenú les funcions que apareixen, triemde “Análisis 2)3. Del “Herramientas”, triem “Análisis datos”. de varianza de dos factores con varias muestras por grupo” i acceptem. Ha d’aparèixer el quadre que es veu a la pantalla 6.

3) De les funcions que apareixen, triem “Análisis de varianza de dos factores con varias muestras por grupo” i acceptem. Ha d’aparèixer el quadre que es veu a la pantalla 6.

Pantalla 6. Quadre de “Análisis de varianza de dos factores con varias muestras por grupo”

117

4. Del quadre anterior, hem d’emplenar: a) Rango de entrada. Hem de seleccionar les caselles on es troben les dades que volem analitzar. En aquest cas, és obligat posar i agafar els rètols dels nivells dels dos factors. b) Fila por muestra. Hem de posar quantes dades hi ha a cada combinació de nivells dels dos factors. Si seguim el nostre exemple, hem de posar 5. c) Alfa. S’ha de posar el nivell d’error amb què volem treballar. d) Opciones de salida. Aquí triem on volem els resultats. Deixem marcada l’opció “En una hoja nueva”. 116


Estadística pràctica pas a pas

5. El resultat apareix en una fulla nova. Hi ha dos quadres: quadre “Resumen” i quadre “Análisis de varianza”. 6. Quadre Resumen. Obtenim, de cada nivell considerat de cada factor, quantes dades hi ha, la seva suma, la seva mitjana i la seva variància. 7. Quadre Análisis de varianza. És el quadre amb el resultat dels càlculs que s’han de fer per obtenir els estadístics de prova. El més interessant són les tres últimes columnes d’aquest quadre: a) F. Són els valors dels estadístics de prova F f, F c i F I. En el nostre exemple tenim que F f = 12.85, F c = 12.43 i F I = 2.00. b) Probabilidad. Són els valors del nivell de significació crític o p-valor de cada contrast. En el nostre exemple, tenim acf = 0.0015, acc = 0.0002 i acI = 0.1576. c) Valor crítico para F. Són els valors de la taula F, amb els graus de llibertat corresponents, que fan de frontera entre acceptar la H0 i la H1 de cada contrast. En el nostre exemple tenim que Fαf = 4.26, Fαc = 3.40 i FαI = 3.40. Observacions 1. En aquest exemple de dos factors amb interacció, les mitjanes de cada combinació d’altura d’escala i ritme de pujada d’escales coincideix amb els valors de l’exemple de dos factors amb una sola mostra per a cada combinació de nivells dels dos factors considerats. Abans s’obtenia que no s’havia demostrat que l’altura de les escales o que el ritme de pujada de les escales provoqués diferències en l’increment del ritme cardíac i ara s’obté que sí que hi ha diferències significatives en l’increment del ritme cardíac, tant en canviar l’altura de les escales com en canviar el ritme de pujada de les escales. A què pot ser degut aquest canvi en les conclusions? 2. Per comprovar la força de la interacció, es pot fer un gràfic de les mitjanes de les diverses combinacions dels nivells dels dos factors. Realment es veu que hi ha una certa interacció, encara que numèricament s’obté que aquesta no està demostrada de manera clara.

117


Josep Maria Mateo Sanz

118


7 

7. Proves d’independència i de bondat d’ajustament PROVES D’INDEPENDÈNCIA I DE BONDAT D’AJUST.

           

Les proves per contrastar si dues característiques observades d’una població són independents i per contrastar si les dades recollides en una mostra segueixen una certa dis tribució estadística tenen un punt en comú: es pot usar l’anomenada prova khi quadrat  per fer cadascun d’aquests contrastos.  Aquesta prova es basa a comparar les freqüències que s’han observat en recollir les dades de les mostres amb les freqüències que s’ esperarien certa  la hipòtesi          si fos   nul·la  que es vol contrastar. L’estadístic que s’ha de calcular per aplicar la prova khi quadrat és:               

χ = 

(   −

 =

  )    

     en   dividit   espai         on k és el  nombre de successos què s’ha cert mostral. Aquests successos

han de formar una partició de l’espai mostral, és a dir, han de ser disjunts i la seva unió   ha de coincidir amb l’espai mostral.

Si les freqüències observades s’assemblen a les freqüències esperades segons la hipòtesi nul·la, llavors és raonable pensar que la hipòtesi nul·la és certa. En canvi, si les  freqüències observades són molt diferents de les freqüències esperades segons la hipò sembla   pensar     tesi nul·la, llavors lògic que la hipòtesi nul·la no  és  certa.              



Exemple. Suposem que tenim un dau i volem comprovar si està trucat o no. Per comprovar-ho, llancem el dau 300 vegades obtenim els resultats següents:     i           

 Resultat 1 2 3 4 5 6        Freq. observada 45 52 56 48 53 46         119

              


Josep Maria Mateo Sanz

Si el dau no està trucat, esperaríem que la freqüència de cada puntuació del dau fos 50. Veiem que les freqüències observades en fer els 300 llançaments són semblants a les que s’esperarien si el dau no estigués trucat. Per tant, podem afirmar que el dau no està trucat. Exemple. Suposem que agafem un altre dau i volem comprovar si està trucat o no. Per fer la comprovació, llancem aquest dau 300 vegades i obtenim els resultats següents: Resultat

1

2

3

4

5

6

Freq. observada

20

90

10

80

15

85

En aquest cas, veiem que les freqüències observades en fer els 300 llançaments són bastant diferents de les que s’esperarien si el dau no estigués trucat. Per tant, podem afirmar que el dau està trucat.

7.1 Prova d’independència Suposem que volem determinar si existeix alguna relació entre dues característiques diferents en les quals una població ha estat classificada i on cada característica es troba dividida en cert nombre de categories. Per exemple, existeix alguna relació entre l’edat de les persones i el color del seu cotxe? En aquest exemple, s’ha classificat la població en dues característiques, on suposem que cadascuna té almenys dues categories exhaustives i mútuament excloents. Aquestes dues característiques són la franja d’edat a la qual pertany una persona i el color del seu cotxe. Les categories per a aquestes dues característiques podrien ser: • Per a l’edat de cada persona: té entre 18 i 30 anys, entre 30 i 45 anys o és major de 45 anys. • Per al color del seu cotxe: vermell, blau, negre o gris. Generalitzant, suposem que tenim una població Ω que admet dues descomposicions diferents en categories excloents: Ω = A1 + ... + Ar = B1 + ... + Bs Suposem que tenim una mostra de n elements, de manera que: nij és la freqüència absoluta del succés Ai ∩ Bj Les freqüències observades de la mostra es posen en una taula de contingència r × s. Una taula de contingència es forma per les freqüències que s’observen per a les dues classificacions i les seves categories corresponents. 120


Estadística pràctica pas a pas

B1 A1 A2

A1 A2 .

.

.

. . Ar

. Ar

%

nn = n j =j⋅j !

!

B2

...

...

Bs

Bs

Bn n121 12 n nn22 22 11 n21 ... ... ...

B ... ...2 ... n...12 n22 ... ... ...

...n n1s 1s n2s n... 2s ... ... ... ...

nn nr2r1 r2

n ... ...r2

...n nrs rs

Bn n1s 1 n nn2 2 1s n. 2s . . . ... . . nn nrrs r

n1

n nn2⋅1 2

n⋅2... ...

n n...s s

nn⋅s n

%

%

B2

n n11 11 n n21A21 1 A2 . ... ... . . A n nr1 r1r n1

nii⋅ n=i =

B1

%

%

%

!

!

%

%

%

%

!

n1⋅ n2⋅ . . . nr⋅

!

n

lafreqüència freqüència absoluta absoluta de AA i (total de la fila i). ésés (total fila i). és lalafreqüència absoluta de de Ai (total de lade filalai). i

és la freqüència freqüènciaabsoluta absolutadede (total la decolumna la columna Bj B (total j). j). j dede és la freqüència absoluta de Bj (total la columna j).

L’objectiu és contrastar si aquestes dues característiques en què s’ha dividit la població són independents elles o, en canvi,ensiquè hi ha relació. L’objectiu és contrastar si aquestesentre dues característiques s’ha dividit la població són L’objectiu és contrastar si aquestes dues característiques en què s’ha dividit la població són Els passos cal seguir perrelació. contrastar si dues característiques són independents independents entre elles o, que en canvi, si hi ha independents entre elles o, en canvi, si hi ha relació. o no són: 1. Determinar quines són les dues característiques, A i B, en què s’ha dividit la poEls passos que cal seguir per contrastar si dues característiques són independents o no són: Els passos que cal seguir peri que contrastar si duesd’característiques o no són: categories, A blació són objecte estudi. També són s’haindependents de precisar en quines i i Bj, s’ha subdividit cada característica.

1) Determinar quines són les dues característiques, A i B, en què s’ha dividit la població i que 1) Determinar quines són les dues la característiques, i B,. La en H quèsempre s’ha dividit serà la la població mateixa:i que 2. Determinar hipòtesi nul·la,A H 0 0 són objecte d’estudi. També s’ha de precisar en quines categories, A i Bj, s’ha subdividit cada són objecte d’estudi. També s’ha de precisar en quines categories, Ai i iBj, s’ha subdividit cada H0: P(Ai ∩ Bj) = P(Ai)P(Bj) ∀ i,j característica. característica.

Això vol dir que, si es compleix H0, les característiques A i B són independentsnul·la, i queHno. La hi H ha sempre relacióserà entre A i B. 2) Determinar la hipòtesi la mateixa:

0 0 2) Determinar la hipòtesi nul·la, H0. La H0 sempre serà la mateixa: sempre serà la mateixa: 3. Determinar la hipòtesi alternativa, H1. La H' H0: P(Ai & Bj) = P(Ai) % P(Bj) 1 i,j H0: P(A ' i,j i & Bj) = P(Ai) % P(Bj) Això vol dir que, si es compleix H0, ∩ les Bcaracterístiques A i Bper són aindependents i que hi ha H1:HP(A ) ≠ P(Ai)P(B alguna parella i,j no Això vol dir que, si es compleix A ji) B són independents i que no hi ha i característiques j 0, les relació entre A i B. H significa que A i B són dependents i que hi ha relació entre les categories relació entre A i B. 1

de les característiques A i B. 3) Determinar la4. hipòtesi alternativa, Hde H1 sempre serà la mateixa: 1. La Construir la taula freqüències esperades sota la suposició que H0 és certa. En 3) Determinar la hipòtesi alternativa, H1. La H 1 sempre serà la mateixa: freqüència dealaalguna cel·laparella Ai ∩ Bi,jj, sota H0, és: Haquest & Bla P(Ai) % P(Besperada per j) ! j) 1: P(Ai cas, H1: P(Ai & Bj) ! P(Ai) % P(Bj) per a alguna parella i,j H1 significa que A i B són dependents i que hin ha entre les categories de les /relació n entre ⋅j H1 significa que A i B són dependents i que hi hai⋅nrelació les categories de les característiques A i B. característiques A i B. 122 122

121


Josep Maria Mateo Sanz

La taula de esperades seria:    freqüències  



⋅ ⋅B

1



A1 A2 . . .  Ar



⋅B ⋅ ⋅⋅ n1⋅n⋅2/n n2⋅n⋅2/n  ...

 nr⋅⋅n⋅1⋅/n

 nr⋅⋅n⋅2⋅/n

 ... 

2

⋅⋅ n1⋅n⋅1/n n2⋅n⋅1/n  ...

⋅ n⋅1



⋅B ⋅

⋅

s

...

⋅⋅ n1⋅n⋅s/n n2⋅n⋅s/n  ...

 ...

 nr⋅⋅n⋅s⋅/n

... ... 

⋅ n⋅2



 ...

⋅ n⋅s

⋅ n1⋅ n2⋅ . . . n⋅ r⋅

 n

   5. Calcular l’estadístic de prova, que en aquest cas anomenarem χ2. Aquest estadís-

tic es calcula segons la fórmula:  

χ =  

 =  =

(



−  )



=   =  =

(



−       )

     

6. Determinar la zona de les taules on s’accepta la H0. La taula que s’ha de consultar    Per a un nivell de significació α, si χ2α és la χ2 amb (r – 1)(s – 1) graus de llibertat.     dreta   deixa a la seva és tal que P( χ2 > χ2α) = α (és a dir, el punt de la taula χ2 que  una àrea igual a α), la zona de les taules on s’accepta la H0 és l’interval (0, χ2α ).   7. Determinar la zona deles   taules on s’accepta la H1. Serà la zona complementària  a la que hem trobat al pas 6), és a dir, serà l’interval ( χ2α , ∞ ).  2 8. Segons els valors de l’estadístic de provaχ i les zones d’acceptació de cada hipò tesi, decidir quina és la hipòtesi certa.   9. Calcular el valor del nivell de significació crític o p-valor ac. El p-valor es troba cal culant la probabilitat que una distribució χ2 amb (r – 1)(s – 1) graus de llibertat            2      sigui més gran que l’estadístic de prova χ , és a dir, P(χ2(r –1)(s–1) > χ2) = ac.  10. Segons els valors de ac i de a, decidir quina és la hipòtesi certa. 

α

Observacions   s’          1. Quan aplica la prova khi quadrat s’ha de procurar que les freqüències espe  rades siguin superiors a 5. Si aquesta   αcondició no es verifica, és recomanable agrupar successos perquè les freqüències augmentin; en aquest cas disminui ran els graus de llibertat. αα 2. La fórmula per calcular l’estadístic de prova χ2 també es pot expressar com a: 

 

122




Observacions Observacions Observacions Observacions 1) Quan Quan s’aplica s’aplica la la prova prova khi khi quadrat quadrat s’ha s’ha de de procurar procurar que que les les freqüències freqüències esperades esperades siguin siguin 1) Quan s’aplica prova quadrat s’ha procurar freqüències esperades siguin 1) 1) Quan s’aplica la la prova khikhi quadrat s’ha de de procurar queque lesles freqüències esperades siguin Estadística a pas superiors aa 5. 5. Si aquesta aquesta condició condició no no es es verifica, verifica, és és recomanable recomanable agrupar pràctica successospas perquè superiors agrupar successos perquè superiors a 5. Si aquesta condició verifica, recomanable agrupar successos perquè superiors a 5. Si Si aquesta condició nono es es verifica, és és recomanable agrupar successos perquè les freqüències freqüències augmentin; augmentin; en en aquest aquest cas cas disminuiran disminuiran els els graus graus de de llibertat. llibertat. les freqüències augmentin; aquest disminuiran els graus de llibertat. lesles freqüències augmentin; en en aquest cascas disminuiran els graus de llibertat. 2) La La fórmula fórmula per per calcular calcular l’estadístic l’estadístic de de prova prova2 &&222 també també es es pot pot expressar expressar com com a: a: 2) també expressar com 2) La fórmula per calcular l’estadístic de prova 2) La fórmula per calcular l’estadístic de prova & &també es es potpot expressar com a: a:

3) En En una una taula taula 22 (( 2, 2, aquesta aquesta fórmula fórmula és: és: En 2 ×fórmula 2,fórmula aquesta 3) una taula (taula 2, aquesta 3) 3) EnEn una3. taula 2una (2 2, aquesta és:és:fórmula és:

Si en en una una taula taula 22 (( 22 les les freqüències freqüències esperades esperades són són petites, petites, haurem haurem d’usar d’usar la la correcció correcció de de Si taula 2 les esperades petites, haurem d’usar la correcció Si Si en en unauna taula (2 2(taula les freqüències sónsón petites, haurem d’usar la correcció dedela Si en 2una 2freqüències × 2 les esperades freqüències esperades són petites, haurem d’usar Yates, que que consisteix consisteix aa utilitzar utilitzar la la fórmula: fórmula: Yates, Yates, consisteix a utilitzar laconsisteix fórmula: a utilitzar la fórmula: correcció dea utilitzar Yates, que Yates, queque consisteix la fórmula:

4) Quan Quan en en una una taula taula de de contingència contingència s’accepta s’accepta que que hi ha ha dependència dependència entre entre les dues dues 4. Quan entaula una taula de contingència s’que accepta que hi ha dependència entre les 4) Quan contingència s’accepta quehi hi hiha hadependència dependència entrelesles les dues 4) 4) Quan en en unaunataula de de contingència s’accepta entre dues característiques A i B estudiades, convé calcular el coeficient: característiques B calcular coeficient: dues característiques A iconvé B estudiades, calcular el coeficient: característiques ABii estudiades, B estudiades, estudiades, convé calcular elconvé coeficient: característiques A iA convé calcular el el coeficient:

sent qq = = mín{r,s} –– 1. 1. C C és és el el coeficient coeficient de de contingència contingència de de Cramer, Cramer, que que proporciona proporciona sent sent = mín{r,s} mín{r,s} – 1. és coeficient contingència Cramer, que proporciona sent q =q mín{r,s} –mín{r,s} 1. CC és– el1.el coeficient dede contingència dede Cramer, que proporciona sent q = C és el coeficient de contingència de Cramer, una mesura mesura del del grau grau d’associació d’associació entre entre els els successos successos A A1,, ..., ..., A Ar ii els els successos successos B Bque ...,proBs.. 1,, ..., una 1 r 1 ss. Ai rels i els successos ..., Bels mesura grau d’associació entre A..., 1, ..., 1,A unauna mesura deldel grau d’associació entre elsels successos A1,entre Arels successos ,B..., Bis.B porciona una mesura del grau d’ asuccessos ssociació successos A1B, 1..., r Aquest coeficient coeficient verifica verifica que: que: Aquest Aquest coeficient verifica , ...,que: Bque: . Aquest coeficient verifica que: successos B Aquest coeficient verifica 1 s a) 0 ) C ) 1. ) C ) 1. a) )) C0 )≤ C ≤ 1. 1. a) a) a) 0 )00 C 1. b) Si C = 0 existeix independència independència completa. completa. C 00C existeix b) Si C 0= =Si existeix independència completa.completa. = 0independència existeix independència b) b) Si Si Cb) = existeix completa. c) Com Com més més gran gran sigui sigui el el valor valor de de C, C, més més dependència dependència hi hi ha ha entre entre les les categories categories de de les les c) Com més gran sigui valor C, més dependència entre les categories de c) més Com més gran sigui elde valor dedependència C, més dependència hi entre lesdecategoc) c) Com gran sigui el el valor de C, més hi hi ha ha entre lesha categories lesles característiques A ii B. B. característiques ries de les A i B. característiques Acaracterístiques característiques A iA B.i B.

Exemple. Es vol estudiar si hi ha alguna relació entre l’edat de les persones i el color del seu cotxe. Per fer aquest estudi s’agafen 300 persones i es classifiquen segons la seva 124 franja d’edat i el color del seu cotxe. Les124 franges 124 124 d’edat que s’han considerat són: de 18 a 30 anys, de 30 a 45 anys i més de 45 anys. El color del cotxe pot ser: vermell, blau, negre i gris. Els resultats obtinguts es mostren a la taula de contingència següent: vermell

blau

negre

gris

18 - 30 anys

60

40

3

7

110

30 - 45 anys

15

8

22

75

120

+ 45 anys

5

2

35

28

70

80

50

60

110

300

123


Josep Maria Mateo Sanz

Volem veure si hi ha independència o no (α = 0.05) entre l’edat de les persones i el color del seu cotxe. Solució 1. Les dues característiques que es consideren són: edat i color del cotxe. Les categories en què s’ha dividit l’edat són: de 18 a 30 anys, de 30 a 45 anys i més de 45 anys. Les categories en què s’ha tingut en compte el color del cotxe són: vermell, blau, negre i gris. 2. La H0 és: H0: l’edat i el color del cotxe són característiques independents (no estan relacionades). H0 significa que, per exemple, dintre d’una franja d’edat, la fracció de persones que tenen un color de cotxe o un altre és semblant a la fracció del total de persones que tenen aquell color de cotxe, és a dir, trobar-se en una franja d’edat o una altra no té influència en el color del cotxe. 3. La H1 és: H1: l’edat i el color del cotxe són característiques dependents (estan relacionades). Això vol dir que, sota H1, la fracció del nombre de cotxes d’un color o un altre depèn de la franja d’edat de l’usuari. 4. La taula de freqüències esperades sota H0 és: vermell

blau

negre

gris

18 - 30 anys

110⋅80/300

110⋅50/300

110⋅60/300

110⋅110/300

110

30 - 45 anys

120⋅80/300

120⋅50/300

120⋅60/300

120⋅110/300

120

+ 45 anys

70⋅80/300

70⋅50/300

70⋅60/300

70⋅110/300

70

80

50

60

110

300

és a dir, vermell

blau

negre

gris

18 - 30 anys

29.3

18.3

22

40.3

110

30 - 45 anys

32

20

24

44

120

+ 45 anys

18.7

11,7

14

25,7

70

80

50

60

110

300

124


 

 

 

 

 

 

       Estadística pràctica pas a pas         ( (  − ) ( − )  −  )   + ++           2  5. Calculem l’estadístic de prova, χ.    

( −  ( −  )  ) ( − )  + ++        

   2  6. S’ha de consultar la taula χ amb (3 – 1)(4 – 1) = 6 graus de llibertat. A la taula  

anterior hem de trobar el punt que deixa a la seva dreta una àrea de α = 0.05.      2 Aquest punt és χ α = 12.6. Per tant, la zona de les taules on s’accepta la H0 és    l’interval (0, 12.6).

                    7. La zona de les taules on s’accepta la H1 és l’interval (12.6 , ∞).  2  

8. Com que l’estadístic de prova χ = 189.59 es troba a l’interval on s’accepta H1,  direm que acceptem H1 i que, per tant, hi ha dependència entre l’edat i el color                 de cotxe.  α  del nivell de significació crític o p-valor, ac, és 3.1 · 10–38.  9. El valor  10. Com que el p-valor, a= 3.1 · 10–38, és més petit que el nivell d’error amb el  α c    α  i arribem qual volem treballar, α = 0.05, acceptem H 1  a la mateixa conclusió que abans.    11. En aquest casαté sentit calcular el coeficient de contingència de Cramer:      χ       = =   =    

χ 

   =    a unadistribució. 7.2 Proves de bondat d'ajust 7.2 Proves de bondat d’ajustament a una distribució  =

=

L’o bjectiu d’aquest apartat és  donar les bases per, donat un conjunt       de dades, contrastar   si aquestes dades suposar que  segueixen una certa distribució determinada. Per 7.2 Proves de bondat d'ajust a una distribució.   podem        realitzar aquest contrast, ho podem fer a través de dues aproximacions diferents:   Avaluant les diferències hi ha esperades sota  la distri-     que  entre  les freqüències      bució posada com a hipòtesi nul·la i les freqüències observades; en aquest cas s’usarà la            prova khi quadrat.  Comparant la funció de distribució de la distribució posada com a hipòtesi nul·la  i la funció de distribució mostral; sota aquesta aproximació s’usarà el test de Kolmogorov-Smirnov. 



125


Josep Maria Mateo Sanz

7.2.1 La prova khi quadrat Partim de la base que tenim unes dades mostrals, x1, x2, ..., xn, que provenen d’una població. El que volem contrastar és si aquestes dades podem suposar que segueixen certa variable aleatòria X o no. X pot ser qualsevol de les distribucions conegudes: binomial, Poisson, normal, exponencial, uniforme... Per fer aquest contrast de bondat d’ajustament segons la prova khi quadrat, cal seguir els passos següents: 1. Determinar la hipòtesi nul·la, H0. S’ha d’especificar quina és la distribució de referència X a partir de la qual volem comprovar si les dades s’hi ajusten o no. La H0: H0: les dades segueixen la distribució X 2. Determinar la hipòtesi nul·la, H1. La H1 serà la contrària que la H0: H1: les dades no segueixen la distribució X 3. Calcular les freqüències observades. Per fer això, dividirem el camp on pot prendre valors la variable aleatòria X en intervals de classe disjunts I1, I2, ..., Ik i calcularem les freqüències absolutes n1, n2, ..., nk, sent ni el nombre de valors . mostrals que pertanyen a l’interval 4) Calcular les freqüències esperades sota la IH i 0. Les freqüències esperades seran np1, np2, ..., les freqüències esperades sota , onCalcular pi és la probabilitat de l’interval Ii sota H0.la H0. Les freqüències esperades seran npk4. np1, np2, ..., npk, on pi és la probabilitat de l’interval Ii sota H0. 5. Calcular l’estadístic de prova, que en aquest cas anomenarem χ2. estadístic Aquest estadíses calcula 5) Calcular l’estadístic de prova, que en aquest cas anomenarem !2. Aquest es calcula segons la fórmula: segonstic la fórmula: 2

k

" =$ i=1

(obsi # espi ) espi

2

k

=$ i=1

(ni # npi )

2

npi

6. Determinar la zona de les taules on s’accepta la H0. La taula que s’ha de consultar taula que de consultar és la !2 6) Determinar la zona taulesde onllibertat, s’acceptaon lasH k –de s –les 1 graus és0.elLanombre de s’ha paràmetres que s’han és la χ2 amb ! amb k hagut – s – 1d’graus de allibertat, onles s ésdades el nombre de paràmetres que s’han haguta un d’estimar, estimar, partir de mostrals, de la distribució X. Per nivell a tal que P(X.χ2Per > χa2un ) = α (és a dir, el punt de la2taula χ2 deles significació α, si χde2αlaésdistribució partir de dades mostrals, α nivell de significació ", si ! " és tal que que deixa a la seva dreta una àrea igual a α), la zona de les taules on s’accepta la P( !2 > !2") = " (és a dir, el punt de la taula !2 que deixa a la seva dreta una àrea igual a "), la H0 és l’interval ( 0 , χ2α ). zona de les taules on s’accepta la H0 és l’interval ( 0 , !2" ). 7. Determinar la zona de les taules on s’accepta la H1. Serà la zona complementària a la trobada al pas 6), és a dir, serà l’interval ( χ2α , ∞ ). 7) Determinar la zona de les taules on s’accepta la H21. Serà la zona complementària a la trobada 8. Segons els valors de l’estadístic de prova χ i les zones d’acceptació de cada hipò2 al pas 6), és a dir, serà l’interval ( ! " , ! ). tesi, decidir quina és la hipòtesi certa. 8) Segons els valors de l’estadístic de prova !2 i les zones d’acceptació de cada hipòtesi, decidir quina és la hipòtesi certa.

126

9) Calcular el valor del nivell de significació crític o p-valor !c. El p-valor es troba calculant la


Estadística pràctica pas a pas

9. Calcular el valor del nivell de significació crític o p-valor ac. El p-valor es troba calculant la probabilitat que una distribució χ2 amb k – s – 1 graus de llibertat sigui més gran que l’estadístic de prova χ2, és a dir, P(χ2k–s–1 > χ2) = ac. 10. Segons els valors de ac i de a, decidir quina és la hipòtesi certa. Observacions 1. La prova khi quadrat és de naturalesa discreta, és a dir, es comparen les freqüències observades i les freqüències esperades per a un nombre finit de categories. Per tant, si a la hipòtesi nul×la tenim una variable aleatòria X contínua, caldrà dividir el rang de possibles valors de la variable X en un nombre finit d’intervals de classe. 2. La prova khi quadrat ens afirma que l’estadístic χ2 tendeix a una khi quadrat a mesura que n augmenta. S’ha vist que, a partir que n sigui 5 vegades el nombre d’intervals de classe, els resultats són acceptables. Per tant, seria bo seleccionar els intervals de classe de manera que tota freqüència esperada sigui major que 5. Això es pot aconseguir ajuntant intervals de classe veïns, però cal tenir en compte que el nombre de graus de llibertat es redueix en 1 cada vegada que ajuntem dos intervals. Exemple 1. A la taula següent tenim el nombre de faltes comeses per alumne (hi ha 50 alumnes) en un dictat i volem veure si aquestes dades s’ajusten a una distribució de Poisson (α = 0.05). Faltes

0

1

2

3

4

5

6

7

Nombre d’alumnes

2

6

11

11

12

4

3

1

Solució 1. La H0 és: H0: les faltes per alumne segueixen una distribució Poisson 2. La H1 és: H1: les faltes per alumne no segueixen una distribució Poisson 3. Les freqüències observades es donen a la taula de l’enunciat. Faltes

0

1

2

3

4

5

6

7 o més

Nombre d’alumnes observats

2

6

11

11

12

4

3

1

127


   Faltes     0 1 2          Nombre observats    d’alumnes      2 6 11 Josep Maria Mateo Sanz          

3

4

5

6

11

12

4

3

7om

1

4) Per calcular les freqüències esperades, hem de suposar que les dades

4. Per calcular les freqüències esperades, hem de suposar que les dades segueixen           '  Poisson. Com que no ens donen paràmetre que té la una Poisson. Com que no ens donen el paràmetre λelque té la distribució dedistribució de  d’estimar a partir demitjana la mitjana mostrali obtenim i obtenim ==3,08. 3.08. Poisson, l’hem d’estimar a partir de la mostral   λ  A partir apliquem la fórmula de la funciódedelaprobabilitat A partir d’aquí apliquem la d’aquí fórmula de la funció de probabilitat Poisson, de la Poisson  amb λ = 3.08, per saber quina és la de faltes. faltes. per saber quina ésprobabilitat la probabilitatdedecada cadanombre nombre de   Faltes 0 1 2 3 4 5 6 7 o més          Probabilitat (pi) 0.0460 0.1416 0.2180 0.2238 0.1723 0.1062 0.0545 0.0377                   129 fan zero falPer exemple, la probabilitat esperada del nombre d’alumnes que 

tes és:

 

   

Les freqüències esperades seran:

   1 Faltes 0    Nombre d’alumnes  2.30 7.08   esperats 

 2   10.90 

 3   11.19 

 4   8.62 

5   5.31 

6   2.72 

7 o més     1.89  



Com que hi ha freqüències esperades que són més petites que 5, ajuntem in       tervals de classe:      

      Faltes 1 o menys 2 3 45 o més    Nombre d’alumnes esperats 9.38 10.90 11.19 8.62 9.92

 Fem el mateix amb les observades:     

Faltes 1 o menys    Nombre d’alumnes observats 8





 

2  3  4  5 o més     11 11 12 8

  5. Calculem l’estadístic de prova: 

( − ) + ( − ) + ( − ) + ( − ) + ( − )  









6. S’ha de consultar la taula χ2 amb k – s – 1 = 5 – 1 – 1 = 3 graus de llibertat (k    és 5 perquè, al final, s’han agafat 5 intervals de classe i s és 1 perquè s’ha hagut               d’estimar el paràmetre λ delaPoisson). A la taula anterior hem  de trobar el punt

  

128




Estadística pràctica pas a pas

que deixa a la seva dreta una àrea de α = 0.05. Aquest punt és χ2α = 7.8. Per tant, la zona de les taules on s’accepta la H0 és l’interval (0, 7.8). 7. La zona de les taules on s’accepta la H1 és l’interval (7.8 , ∞). 8. Com que l’estadístic de prova χ2 = 1.91 es troba a l’interval on s’accepta H0, direm que acceptem H0 i que, per tant, podem suposar que el nombre de faltes per alumne s’ajusta a una distribució Poisson. 9. El valor del nivell de significació crític o p-valor, ac, és 0.58. 10. Com que el p-valor, ac = 0.58, és més gran que el nivell d’error amb el qual volem treballar, α = 0.05, acceptem H0 i arribem a la mateixa conclusió que abans. Exemple 2. S’han recollit dades corresponents als pesos de 150 persones i s’ha obtingut una mitjana de 72 quilos i una desviació estàndard de 6 quilos. Volem saber si aquestes dades s’ajusten a una distribució normal (amb α = 0.05) i, per això, s’han agrupat les dades en 6 intervals de classe. La taula següent mostra els resultats una vegada s’han agrupat els pesos. Pes

50-61

61-65

65-69

69-74

74-80

80-110

Nombre de persones

8

12

20

54

34

22

Resolució. 1. La H0 és: H0: el pes segueix una distribució normal 2. La H1 és: H1: el pes no segueix una distribució normal 3. Les freqüències observades es donen a la taula de l’enunciat. Pes

61 o menys

61-65

65-69

69-74

74-80

80 o més

Nombre de persones

8

12

20

54

34

22

4. Per calcular les freqüències esperades, hem de suposar que les dades segueixen una normal on s’han estimat els valors de la mitjana i la desviació estàndard; aquests valors són 72 i 6, respectivament. A partir d’aquí busquem a les taules de la normal per saber quina és la probabilitat de cada interval de pesos fet.

129


Josep Maria Mateo Sanz

Pes

61 o menys

61-65

65-69

69-74

74-80

80 o més

Probabilitat (pi)

0.0334

0.0883

0.1869

0.3220

0.2782

0.0912

Per exemple, la probabilitat esperada del nombre d’alumnes que pesen entre 61 i 65 quilos és: P(61 < N(72,6) < 650) = 0.0883

 Les freqüències esperades seran: 

     

Pes 61 o menys   Nombre de persones 5.01  esperades

61-65 65-69 69-74 74-80 80 o més      13.24 28.03 48.30 41.73 13.68

 Com que no hi ha freqüències esperades que siguin més petites que 5, no

ajuntarem intervals de classe i treballarem amb els que tenim actualment.  

5. Calculem l’estadístic de prova:

 

( − ) + ( −  ) +  + ( − ) 







    6. S’ha de consultar la taula χ2 amb k – s – 1 = 6 – 2 – 1 = 3 graus de llibertat (k

6 perquè s’han agafat de classe i s és  2 perquè s’han hagut d’estimar  és     6intervals       els  paràmetres i desviació estàndard de la distribució taula  mitjana       normal).  Ala

anterior hem de trobar el punt que deixa a la seva dreta una àrea de α = 0.05. Aquest punt és χ α = 7.8. Per tant, la zona de les taules on s’accepta la H0 és l’in terval (0, 7.8).  7. La zona de les taules on s’accepta la H1 és l’interval (7.8, ∞). 2 8. Com que l’estadístic de prova χ = 11.37 es troba a l’interval on s’accepta H1, di rem que acceptem H1 i que, per tant, els pesos de les persones no s’ajusten a una   distribució normal.   9. El valor del nivell de significació crític o p-valor, ac, és 0.001.  10. Com que el p-valor, a = 0.001, és més petit que el nivell d’error amb el qual voc a la mateixa conclusió que abans. lem treballar, α = 0.05, acceptem H1 i arribem  α    2

  α  

130

7.2.2 El test de Kolmogorov-Smirnov.


Estadística pràctica pas a pas

7.2.2 El test de Kolmogorov-Smirnov Per aplicar la prova de la khi quadrat cal un nombre relativament elevat de dades perquè es compleixi que les freqüències esperades, sota la H0, de cada interval de classe sigui major que 5 i que hi hagi un nombre d’intervals de classe suficient per no quedar-nos sense graus de llibertat quan consultem la taula χ2. Per exemple, si disposem de menys de 20 dades i volem comprovar si podem suposar que les dades provenen d’una distribució normal, hauríem de tenir un màxim de 3 intervals de classe perquè a cadascun hi hagués un mínim de 5 dades esperades. A més, cal estimar 2 paràmetres: la mitjana i la desviació estàndard de la normal; en aquest cas, els graus de llibertat amb què caldria consultar la taula χ2 serien 3 – 2 – 1 = 0 graus de llibertat!!! La prova de Kolmogorov-Smirnov no necessita que les dades es trobin agrupades i es pot aplicar quan les mostres tenen pocs elements. Com s’ha comentat abans, en aquest test es compararà la funció de distribució de la distribució proposada a la hipòtesi nul·la i la funció de distribució de la mostra una vegada aquesta ha estat ordenada. Si aquesta comparació ens mostra una diferència prou gran entre les funcions de distribució mostral i la proposada sota H0, llavors la hipòtesi nul·la es rebutja; si la diferència és petita, llavors s’accepta la H0. Per aplicar el test de Kolmogorov-Smirnov els passos que cal seguir són: 1. Determinar la hipòtesi nul·la, H0. S’ha d’especificar quina és la distribució de referència X a partir de la qual volem comprovar si les dades s’hi ajusten o no. La H0: H0: les dades segueixen la distribució X. 2. Determinar la hipòtesi nul·la, H1. La H1 serà la contrària que la H0: H1: les dades no segueixen la distribució X. 3. Calcular la funció de distribució mostral de les dades ordenades. Per això, suposem que tenim una mostra x1, ..., xn i l’ordenem. Notem mitjançant x(1), ..., x(n) la mostra ordenada: 3) Calcular la funció de distribució mostral de les dades ordenades. Per això, suposem que tenim x(1) < ... < xx(n) , ..., x la mostra ordenada: una mostra x , ..., x i l’ordenem. Notem mitjançant 1

n

(1)

(n)

x(1) < ... < x(n)

La funció de distribució mostral és:

La funció de distribució mostral és:

És a dir, per a qualsevol valor ordenat x de la mostra aleatòria, Sn(x) és la proporció del nombre de valors a la mostra que són iguals o menors que x. 131

4) Calcular la funció de distribució, suposant certa la H0, en cadascun dels valors mostrals ordenats. És a dir, per a cada valor x(i), cal trobar F(x(i)) = P(X ( x(i)).


Josep Maria Mateo Sanz

És a dir, per a qualsevol valor ordenat x de la mostra aleatòria, Sn(x) és la proporció del nombre de valors a la mostra que són iguals o menors que x. 4. Calcular la funció de distribució, suposant certa la H0, en cadascun dels valors mostrals ordenats. És a dir, per a cada valor x(i), cal trobar F(x(i)) = P(X ≤ x(i)). 5. Calcular l’estadístic de prova, que en aquest cas notarem amb Dn i s’anomena estadístic de Kolmogorov-Smirnov. Aquest estadístic és la diferència màxima entre la funció de distribució mostral ordenada i la funció de distribució sota H0 i es defineix com a: Dn = màx ⎥Sn(x) – F0(x)⎥ A efectes pràctics, cal tenir present que es poden donar dues situacions diferents:

a) La distància màxima entre F(x) i Sn(x) l’obtenim just abans d’arribar fins a xh i val |Sn(xh–1) – F(xh)|. b) La distància màxima és |Sn(xh) – F(xh)|. Per tant, quan apliquem el test, s’ha de calcular per a cada punt xh: Dn(xh) = màx {|Sn(xh–1) – F0(xh)|, |Sn(xh) – F0(xh)|} i després agafem el màxim d’aquests Dn(xh). Aquest últim valor serà Dn. 6. Determinar la zona de les taules on s’accepta la H0. Tenim una taula especial, taula de Kolmogorov-Smirnov, que conté, per a cada n > 1, els punts crítics aα tals que: P(Dn > aα) = α per a diferents valors de α. Llavors, per a un nivell de significació α, la zona de les taules on s’accepta la H0 és l’interval (0, aα ). 7. Determinar la zona de les taules on s’accepta la H1. Serà la zona complementària a la que hem trobat al pas 6), és a dir, serà l’interval ( aα , 1 ). 132


Estadística pràctica pas a pas

8. Segons els valors de l’estadístic de prova Dn i les zones d’acceptació de cada hipòtesi, decidir quina és la hipòtesi certa. Exemple. Volem contrastar, amb α = 0.5, si la mostra següent de durades de vida de cert dispositiu es pot suposar exponencial: 16, 8, 10, 12, 6, 10, 20, 7, 2, 24. Solució 1. La H0 és: H0: la durada segueix una distribució exponencial. 2. La H1 és: H1: la durada no segueix una distribució exponencial. 3, 4 i 5. Com que no s’especifica quin és el paràmetre λ de la funció exponencial que hem d’usar, el primer que farem és estimar-lo a partir de les dades. Com que la mitjana mostral és 11.5, l’estimació del paràmetre λ serà 1/11.5. Construïm la taula següent: xh

F(xh)

Sn(xh)

Sn(xh–1)

|Sn(xh) – F(xh)|

|Sn(xh–1) – F(xh)|

Dn(xh)

2 6 7 8 10 10 12 16 20 24

0.16 0.41 0.46 0.5 0.58 0.58 0.65 0.75 0.82 0.88

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

0.06 0.21 0.16 0.10 0.08 0.02 0.05 0.05 0.08 0.12

0.16 0.31 0.26 0.20 0.18 0.08 0.05 0.05 0.02 0.02

0.16 0.31 0.26 0.20 0.18 0.08 0.05 0.05 0.08 0.12

L’estadístic Dn pren un valor de 0.31. 6. Agafant un nivell de significació α = 0.05, obtenim a la taula de KolmogorovSmirnov (n = 10) un valor a0.05 = 0.409. Per tant, la zona de les taules on s’accepta la H0 és l’interval (0, 0.409). 7. La zona de les taules on s’accepta la H1 és l’interval (0.409, 1).

133


7) La zona de les taules on s’accepta la H1 és l’interval (0,409 , 1). Josep Maria Mateo Sanz

8) Com que l’estadístic de prova Dn = 0,31 es troba a l’interval on s’accepta H0, direm que

acceptem i que, perde tant, podem quetroba la durada del dispositiu segueix 8. Com queHl’e0 stadístic prova Dn suposar = 0.31 es a l’interval on s’accepta Huna , di-distribució 0 exponencial. rem que acceptem H0 i que, per tant, podem suposar que la durada del dispositiu segueix una distribució exponencial. 7.2.2.1 El contrast de Kolmogorov-Smirnov-Lilliefors

7.2.2.1 El contrast de Kolmogorov-Smirnov-Lilliefors

Suposem que estem sota les mateixes condicions amb les quals aplicàvem el contrast de

Suposem que estem sota les mateixes condicions amb les quals aplicàvem el contrast de Kolmogorov-Smirnov i que contrastar volem contrastar la distribució és N(µ,"), Kolmogorov-Smirnov i que volem que laque distribució de XdeésXN(μ,σ), on on μ iµ i " són i S, respectivament. respectivament. Això ens desconegutso no. o no. Aleshores,estimarem estimaremμµi iσ"mitjançant mitjançant σ són desconeguts Aleshores, Això ens permetrà permetràespecificar especificardedemanera maneracompleta completa model sota hipòtesi nul·la i, per el el model sota la la hipòtesi nul%la i, per tant, poder tant, poder operar com en el cas del contrast de Kolmogorov-Smirnov utilitzant, en operar com en el cas del contrast de Kolmogorov-Smirnov utilitzant, en aquest cas, la taula aquest cas, la taula de Lilliefors. de Lilliefors.

Exemple. Volem contrastar, amb α = 0.05, si la mostra següent de durades de vida de cert dispositiu es pot suposar que segueix una distribució normal: 16, 8, 10, 12, 6, 10, 20,136 7, 2, 24. Solució 1. La H0 és: H0: la durada segueix una distribució normal. 2. La H1 és: H1: la durada no segueix una distribució normal. 3, 4 i 5. Com que no s’especifica quins són els paràmetres μ i σ de la distribució normal, el primer que farem és estimar-los a partir de les dades. Aquestes estimacions són 11.5 i 6.72, respectivament. Construïm la taula següent:

134


Estadística pràctica pas a pas

xh

F(xh)

Sn(xh)

Sn(xh–1)

⎜Sn(xh) – F(xh)⎜

⎜Sn(xh–1) – F(xh)⎜

Dn(xh)

2 6 7 8 10 10 12 16 20 24

0.08 0.21 0.25 0.30 0.41 0.41 0.53 0.75 0.90 0.97

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

0.02 0.01 0.05 0.10 0.09 0.19 0.17 0.05 0.00 0.03

0.08 0.11 0.05 0.00 0.01 0.09 0.07 0.05 0.10 0.07

0.08 0.11 0.05 0.10 0.09 0.19 0.17 0.05 0.10 0.07

L’estadístic Dn pren un valor de 0.19. 6. Agafant un nivell de significació α = 0.05, obtenim a la taula de Lilliefors (n = 10) un valor a0.05 = 0.262. Per tant, la zona de les taules on s’accepta la H0 és l’interval (0, 0.262). 7. La zona de les taules on s’accepta la H1 és l’interval (0.262, 1). 8. Com que l’estadístic de prova Dn = 0.19 es troba a l’interval on s’accepta H0, direm que acceptem H0 i que, per tant, podem suposar que la durada del dispositiu segueix una distribució normal.

135



8. Regressió lineal

8.1 Relació entre variables Per relacionar dues o més variables a través d’alguna funció tenim diverses tècniques estadístiques. L’aplicació d’una tècnica o d’una altra dependrà de la quantitat de variables, el tipus de variables i la funció que relaciona les variables. El cas més general de relació entre variables seria: G(y1, y2, ..., ym) = F(x1, x2, ..., xn) on les variables yi s’anomenen variables dependents i les variables xi s’anomenen variables independents. L’objectiu general és predir valors de les variables dependents a partir dels valors de les variables independents. En el cas particular que només hi hagi una sola variable dependent, la relació la notarem segons: y = F(x1, x2, ..., xn) Les tècniques estadístiques que podem usar per relacionar variables són:

137


Josep Maria Mateo Sanz

Variable dependent 1 Numèrica

No numèrica

Numèrica

Regressió simple

Regressió logística

No numèrica

ANOVA 1 factor

Numèrica

Regressió múltiple

Anàlisi discriminant

Anàlisi canònica

No numèrica

ANOVA 2 o més factors

Anàlisi conjunta

MANOVA 2 o més factors

ANCOVA

Regressió logística i ordinal

MANCOVA

1

Variable independent >1

>1

Barreja

En el cas que la funció F sigui lineal, es diu que fem regressió lineal simple i regressió lineal múltiple. En aquests casos tindrem que les relacions entre variables són donades per: • Regressió lineal simple: Y = α + βX, equació d’una recta on α és l’ordenada a l’origen i β és el pendent de la recta. El pendent d’una recta indica en quina quantitat augmenta (o disminueix, si el signe del pendent és negatiu) la variable Y per cada unitat que augmenta la variable X. L’ordenada a l’origen indica quin és el valor de la Y quan la X és 0 (punt de tall de la recta amb l’eix d’ordenades). • Regressió lineal múltiple: Y = β0 + β1X1 + β2X2 +...+ βnXn, on β0 és el terme independent de l’equació i els restants βi són els coeficients que acompanyen cadascuna de les variables independents. La interpretació de cada coeficient βi seria anàloga a la del pendent però referint-se a la variable Xi que acompanya el coeficient βi, és a dir, és la quantitat que augmenta (o disminueix, si el signe del coeficient βi és negatiu) la variable Y per cada unitat que augmenta la variable Xi (suposant que la resta de variables independents es mantenen fixes). En el cas que la funció no sigui lineal, direm que fem regressió no lineal. Aquesta pot adoptar diverses formes: potencial, logarítmica, exponencial, polinòmica...

138


Estadística pràctica pas a pas

8.2 Model de regressió mostral simple La formulació d’un model de regressió requereix delimitar el fenomen que es vol estudiar, localitzar les variables i establir les relacions que hi ha entre aquestes. Exemples • Podem establir una relació lineal entre el pes (P) i les altures (A): P = α + βA • Existeix una relació no lineal entre quantitat produïda (Q) i capital (K) i treball (L) del tipus: Q = ALαKβ Per altra banda, l’observació de la realitat ens permetrà obtenir les dades necessàries sobre les variables que componen el model per tenir una base sobre la qual treballarem. A partir del model que proposem i de les dades observades, s’usaran tècniques d’inferència estadística per estimar i verificar el model, la finalitat del qual serà fer prediccions.

8.2.1 Components d’un model Distingim quatre elements en un model: equacions, variables, paràmetres i terme de pertorbació. • Equacions: són les relacions que hi ha o hi pot haver entre les variables que estem estudiant. Per trobar el tipus d’equació o funció que millor s’ajusta a les nostres dades, podem fer un gràfic amb les dades i veure quina relació existeix entre elles. • Variables: la classificació més generalitzada ens divideix les variables que formen part del model en: a) Variables explicades o endògenes: són les variables dependents que es volen explicar a través del model. b) Variables explicatives o exògenes: són les variables independents i que intenten explicar el comportament de les variables explicades. • Paràmetres: són els coeficients que afecten les variables explicatives i mesuren l’efecte de les fluctuacions d’aquestes variables sobre la variable explicada. • Terme de pertorbació: introduirem aquest component del model amb un exemple. Suposem que ens trobem davant d’un model lineal on es vol explicar 139


Josep Maria Mateo Sanz

la quantitat de vi en cert lloc (V) a partir de la pluja caiguda el mes de maig (P): V = α + βP. Per cada valor de la pluja (P) existeix un valor de la quantitat de vi (V) que ens és donat per l’equació anterior. Es tracta d’una relació on no hi ha aleatorietat. Per tant, segons aquest model, tots els anys que plogui el mateix (P), la producció de vi serà la mateixa, i sabem que això no és així. Per tant, en aquest model hi falta algun terme que ens pugui explicar les diferències que hi ha entre els individus. Si introduïm aquest terme, el model ens queda: V = α + βP + u, on u serà una v. a. que anomenem terme de pertorbació. Les principals funcions del terme de pertorbació són: a) recollir les variables explicatives que no són al model. b) recollir especificacions incorrectes de l’equació del model. c) recollir els errors en la mesura de les variables. d) recollir el comportament aleatori dels resultats.

8.2.2 Hipòtesis bàsiques del model de regressió lineal simple Suposarem que tenim una variable explicada i una variable explicativa. El model de regressió lineal simple es basa en una sèrie d’hipòtesis sobre els diferents components del model. Respecte a l’equació. Existeix una relació lineal entre la variable explicada i la variable explicativa. Formalment escriurem: Yi = α + βXi + ui

i = 1, 2, ..., n

on: • Yi: variable explicada, • Xi: variable explicativa, • α, β: paràmetres, • ui: terme de pertorbació. El subíndex i indica les observacions mostrals que tenim. Respecte a la variable explicativa (Xi). El nombre d’observacions ha de ser més gran que el nombre de paràmetres. En el cas de la regressió lineal simple, el nombre d’observacions ha de ser més gran que 2. Respecte als paràmetres. α i β són constants al llarg del mostreig. Aquestes són les constants que tractarem d’aproximar mitjançant la inferència estadística. 140


Respecte aa l’equació. l’equació. Existeix Existeix una una relació relació lineal lineal Respecte tractarem d’aproximar mitjançant la inferència estadística. tractarem d’aproximar mitjançant la inferència estadística. tractarem d’aproximar mitjançant la inferència estadística. explicativa. Formalment Formalment escriurem: escriurem: explicativa. c)

recollir els errors en la mesura de les variables.

Estadística pràctica pas Ya Yiipas #Xii ++ uuii == !! ++ #X

ii ==

on: on: 8.3 lineal estimació de recta de 8.3 Regressió Regressió lineal simple: simple: estimació de la la recta de regressió regressió 8.3 Regressió lineal simple: estimació de la recta de regressió

d) recollir comportament aleatori dels resultats. variable explicada, explicada, 8.3 Regressió linealelsimple: estimació de la recta•• YYde regressió i:i: variable

variable explicativa, explicativa, •• XXi:i: variable A la pràctica la recta de regressió poblacional serà desconeguda i l’haurem d’estimar per obtenir

A lalapràctica laregressió recta depoblacional regressió poblacional serà desconeguda l’haurem per d’estimar A la pràctica serà desconeguda i l’hauremid’estimar obtenirper obtenir A la pràctica larecta rectadede regressió poblacional serà desconeguda i l’haurem d’estimar per Una vegada tinguem Una vegada la recta tinguem de regressió la rectamostral, de regressió ens apareixeran mostral, ens els!, apareixeran errors d’estimació els errorso d’estimació o • !, #: paràmetres, • #: paràmetres, iii ... L’estimació d’aquesta recta rep recta de regressió ii es d’aquesta rep nom dede recta dede regressió mostral es irepresenta representa i . L’estimació d’aquesta recta repmodel elrecta nom deelelrecta de regressió mostral imostral es mostral representa L’L’estimació estimació d’ aquesta recta rep elnom nom recta regressió obtenir 8.2.2 Hipòtesis bàsiques del de regressió lineal simple residus, ei, els quals residus, es defineixen ei, els qualscom es defineixen la diferència com entre la diferència el valor real entre Y i el el valor valor real estimat Y i el valor : estimat : terme de de pertorbació. pertorbació. i ••iuui:i: terme es representa mitjançant: Una vegada tinguem la recta de regressió mostral, ens apareixeran els errors d’estimació o mitjançant: mitjançant: mitjançant:

Una vegada dei =eregressió ens apareixeran els errors Una vegada tinguem la rectatinguem de regressió mostral, apareixeran els...,errors d’estimació o d’estimació = la Yi –recta =ens Y 2,ii–..., nmostral, i =El 1,subíndex 2, n ii indica El subíndex indica les observacions observacions mostralsoque que ten ten les mostrals i 1, Suposarem tenim unaei variable una variable explicativa. El model de regressió quals es defineixen comexplicada la diferència entre el valor real Y i el valor estimat : residus, ei, elsque i = + X = + X = + X i i i residus, ei, els quals esla defineixen la el diferència el valor valor estimat real Yi i el :valor estimat : residus, ei, els quals es defineixen com diferènciacom entre valor realentre Yi i el lineal simple es basa en una sèrie ed’hipòtesis sobre els diferents components del model. = Y – i = 1, 2, ..., n i i Una vegada tinguem la recta de regressió mostral, ens apareixeran elsexplicativa errors d’e!(X s-i #).i).de e = Y – i = 1, 2, ..., n Yi – i un =és1, 2, ..., n estimar eés icriteri i per Respecte la variable variable explicativa (X Ellanombre nombre dd aa la El i =determinar El problema queElse’ns problema planteja queara se’ns planteja ara determinar unRespecte criteri els paràmetres per estimar !elsi #paràmetres de la i

timació o residus, e , els quals es defineixen com la diferència entre el valor real Y i el

i ide nombre debasa paràmetres. En el cas de la regressió regressió linea line nombre de paràmetres. recta. El criteri recta. delsamínims El criteri quadrats dels mínims ordinaris quadrats (MQO) ordinaris es basa (MQO) en la minimització es en lademinimització laEn suma dela suma l’equació. Existeix una relació lineal entre la variable explicada i el laicas variable : valor estimat ElRespecte problema que se’ns planteja ara és determinar un criteri per estimar els paràmetres ! # de la ˆ 142 142 142 Yi El problema que se’ns planteja éscriteri determinar un criteri per estimar els ! i # dels de la ser més gran que 2.!suma ser més gran 2. El que se’ns planteja aracriteris és determinar un peren estimar els paràmetres i # paràmetres de la de la suma delsproblema quadrats dels dels residus. quadrats Altres dels residus. serien Altreselara criteris que es serien basa el la que minimització es basa enque lademinimització la dels explicativa. Formalment escriurem: recta. El criteri dels mínims quadrats ordinaris (MQO) es basa en la minimització de la suma Yi – Yˆ i ordinaris i = 1, 2, ..., n es basa en la minimització de la suma ei = quadrats recta.mínims El criteri dels mínims (MQO) recta. criteriresidus dels quadrats (MQO) esresidus basa la minimització de laser suma residusEl(aquest criteri no (aquest dóna una criteri solució noordinaris dóna única, una ja solució que+ els única, jaen poden que els ser residus positius poden o negatius positius o negatius Y = ! + #X u i = 1, 2, ...,n i i el que i dels quadrats dels residus. Altres criteris serien es basa en la minimització de la suma dels Elcompensar-se problema que se’ns planteja ara éses determinar unescriteri per estimar els paràmedels quadrats dels residus. Altres criteris serien el que basa en labasa minimització de la sumadedels dels quadrats dels residus. Altres criteris serien el que basa en la minimització de la suma dels Respecte als paràmetres. ! i # són constants al llarg llarg de d Respecte als paràmetres. ! i # són constants i la manera de i la manera de entre compensar-se ells pot ser entre diversa) ells pot i el ser que diversa) es basa i en el que la minimització es en la de minimització la laal on: (aquest criteri no dóna una solució única, ja que els residus poden ser positius o negatius residus tres α i residus β de la(aquest recta. El criteri dels mínims quadrats ordinaris (MQO) es basa en la criteri no(aquest dóna única, ja quetéels residus poden ser de positius oinferència negatius residus (aquest criteri no dóna solució única, ja solució que els residus poden ser positius negatius tractarem d’aproximar mitjançant lacriteri inferència estadís tractarem d’aproximar mitjançant suma dels valors suma absoluts dels valors delsuna residus absoluts delsuna residus criteri té (aquest l’inconvenient, criteri l’inconvenient, respecte alocriteri respecte alla de estadís •Y explicada, i: variable i la manera de compensar-se entrequadrats ells pot ser i elAltres que escriteris basa enserien la minimització la minimització de la suma dels delsdiversa) residus. el que es de basa i la manera de compensar-se entre ser diversa) i ellaque es basa laabsoluts minimització de la imínims la manera de compensar-se entre ells ser diversa) el que esamb basa en minimització de la quadrats mínims ordinaris, quadrats que ordinaris, méspotcomplicat que és ells més de ipot treballar complicat de valors treballar absoluts amb valors deencertes de certes X explicativa, en la •minimització de laés suma dels residus no dóna una solució única,de ja i: variable suma dels valors absoluts dels residus (aquest(aquest criteri técriteri l’inconvenient, respecte al criteri suma dels dels valorsresidus dels criteri residusté(aquest criteri té respecte l’inconvenient, respecte al criteri de suma dels valors absoluts (aquest al segons criteri que els residus poden serabsoluts positius o anegatius i l’inconvenient, lademanera dedoncs, compensar-se entre ells pot el i certes segons el quantitats que quantitats els seus quequadrats). amb els Anem quadrats). deduir,Anem doncs, atreballar els deduir, valors de valors elsi valors de de • amb !, #: paràmetres, mínims quadrats ordinaris, queseus és més complicat amb absoluts desimple: 8.3 Regressió lineal simple: estimaci 8.3 Regressió lineal estimació mínims quadrats ordinaris, que és més complicat de treballar amb valors absoluts mínims ser quadrats ordinaris, que és més complicat de treballar amb valors absoluts de certesdels re-de certes diversa) i el que es basa en la minimització de la suma dels valors absoluts • u : terme de pertorbació. criteri MQO. criteri MQO. quantitatsi que amb els seus quadrats). Anem a deduir, doncs, els valors de i segons el sidus (aquest criteri té l’inconvenient, respecte al criteri de mínims quadrats ordinaris, quantitats que amb els seus quadrats). Anem a deduir, doncs, els valors de i segons el quantitatsEl que amb els seus quadrats). Anem a deduir, doncs, els valors de i segons el subíndex i indica les observacions mostrals que tenim.A A la la pràctica pràctica la la recta recta de de regressió regressió poblacional poblacional serà serà des de criteriésMQO. que més complicat de treballar amb valors absoluts de certes quantitats que amb els criteri MQO. criteri El queMQO. intenta elElcriteri que intenta MQO és el criteri minimitzar MQOlaésfunció minimitzar següent: la funció següent: L’estimació d’aquesta recta rep rep el el nom nom de de rr iii ..segons L’estimació d’aquesta recta el criteri MQO. seus quadrats). Anem a deduir, doncs, els valors de Respecte a la variable explicativa (Xi). El nombre d’observacions ha de ser més gran que el que intenta criteri MQO és ==minimitzar lamitjançant: funció següent: El queEl intenta el criteri minimitzar la funció següent: mitjançant: ) = elMQO = és ) = = intentaéselminimitzar criteri MQO la funció següent: El que intenta el El criteri MQO la és funció següent: nombre deque paràmetres. En el cas de la minimitzar regressió lineal simple, el nombre d’observacions ha de == ++ ) =problema = deunmàxims ser més granhoque 2. un Això ho podem Això resoldre podem com resoldre com problema i =mínims de màxims amb més i mínims d’unaamb variable. més d’una El variable. El )= = )= = == resultat que obtenim resultat és:que obtenim és: Això ho podem resoldre com un problema de màxims i mínims amb més d’una variable. El Això ho podem resoldre un problema màxims i d’una mínims més d’una Això podem resoldre com problema dedemàxims i Aquestes mínims amb mésconstants d’una variable. El Això ho podem resoldre com un problema de un màxims i mínims amb més variable. El Respecte als ho paràmetres. ! i # sóncom constants al llarg del mostreig. sónamb les que resultat que obtenim és: variable. El és: resultat que obtenim 142 142 resultat que obtenim és: laés: resultat que obtenim tractarem d’aproximar mitjançant inferència i estadística. i

i

i i 8.3 Regressió lineal simple: estimació de la recta de regressió i

Manipulant la primera Manipulant expressió la primera anterior expressió obtenim anterior altres obtenim expressions altres equivalents expressions perequivalents a . En per a . En A la pràctica la recta de regressió poblacional serà desconeguda i l’haurem d’estimar per obtenir primera expressió anterior obtenim altres expressions equivalents aquests casos Manipulant obtenim: aquests casoslaobtenim: Manipulant la primera expressió anterior obtenim altres expressions equivalents per a . En lacasos primera expressió anterior obtenim altres expressions per a . En . En L’estimació d’aquesta recta rep el nom expressions de recta de regressió mostral i. es .Manipulant aquests obtenim: per alai primera Manipulant expressió anterior obtenim altres equivalents per aequivalents Enrepresenta aquests casos obtenim: aquests casos obtenim: mitjançant: aquests casos obtenim: =

i i Propietats

Propietats

Propietats Propietats Propietats

i+

i i

i 142 141

Xi


eal múltiple és quasi imprescindible treballar

pliquen molt. Aquí presentem els resultats

ositat.

Josep Maria Mateo Sanz

Propietats • La suma dels residus és zero: ∑ei = 0. eratura + #2 · Pressió •  • La suma dels valors reals dec)la Yelsels éserrors igual aenla suma dels valors ajustats c) variable recollir errorsen mesura variables. recollir lalamesura dedeleslesvariables. de la variable Y segons la recta deregressió:    ∑Yi = ∑ Yˆ i .  

d)d)

recollirelelcomportament comportamentaleatori aleatoridels delsresultats. resultats. recollir

Exemple. Suposem que entre l’alçada (Y) i el pes (X) de les persones hi ha una relació lineal. A partir de les dades hembàsiques de trobar els paràmetres la recta de lineal simpl 8.2.2següents Hipòtesis del modelde dede regressió 8.2.2 Hipòtesis bàsiques del model regressió lineal simple  regressió:  



Y  X

174  77

       Suposaremque quetenim tenimuna unavariable variableexplicada explicadai una i unavariable variableexplicativa. explicativa.ElElmod mo Suposarem 168 181 170 158 177 159 164 linealsimple simple basaenen unasèrie sèrie d’hipòtesis sobreelselsdiferents diferentscomponents componentsdel delm lineal basa una   eses   d’hipòtesis  sobre  70 79 68 56 80 56 64

Respectea al’equació. Existeixuna unarelació relaciólineal linealentre entrelalavariable variableexplicada explica Respecte Existeix 68.75 l’equació. = 168.875 X= Y  explicativa.Formalment Formalment escriurem: explicativa. escriurem:     2 Promedio de ...,n Y Y !Y!+ +#X#X uiui i =i =1,1,2,2,...,n Yi Xi Xi X i= i+ i= i+ i i Valor crítico     los F de F174 on: on: 77 5929 13398 cuadrados     168 4900 11760 :70variableexplicada, explicada, 0,36189438 11,6007894 0,02162379 • •YiY : ivariable 0,03119567    181 79 6241 14299 : variableexplicativa, explicativa, • •XX:  variable i i

   68 4624 11560 #:paràmetres, paràmetres, • •!,!,#: Estadístico t Probabilidad 158 3136 8848     :56 termededepertorbació. pertorbació. • •uiu: iterme 1,31894005 0,25762905 177 ElElsubíndex 80 i indica 6400 14160 subíndex i indicales lesobservacions observacions mostralsque quetenim. tenim. mostrals     –2,92826328 0,04288807 3,63093621 0,02214152 159 56 3136 8904     164 Respecte 64a la variable 4096explicativa 10496 nombred’observacions d’observacionshahadedeser serm a la variable explicativa (X(X i).i).ElElnombre  Respecte  orrelació r (0,92355277), el coeficient 1351 550 38462 93425 nombrededeparàmetres. paràmetres.EnEnelelcas casdedelalaregressió regressiólineal linealsimple, simple,elelnombre nombred’obse d’ob nombre    eterminació corregit (0,77942457)  sermés mésgran granque que2.2. ser Aleshores:   170

paràmetres.! !i #i #són sónconstants constantsalalllarg llargdel delmostreig. mostreig.Aquestes Aquestessón sónle      Respecte Respecte paràmetres.   als als   −    = 8,39525622, β = –   tractarem d’aproximar mitjançant la inferència estadística. tractarem d’aproximar mitjançant    −   la inferència estadística.           

ls paràmetres:





α  β   −  

8.3 Regressió Regressiólineal linealsimple: simple:estimació estimacióde delalarecta rectade deregr reg 8.3



Per tant, la recta deregressió obtenim lapràctica pràctica rectadeés: deregressió regressiópoblacional poblacional seràdesconeguda desconegudai l’haurem i l’hauremd’esti d’es  αla βque AA lalarecta serà      

Yˆ i =

. L’estimació d’aquesta rectarep repielelnom nomdederecta rectadederegressió regressiómostral mostra = 111.3187 + 0.837182X i+i . X L’estimació d’aquesta recta i

mitjançant: mitjançant:

8.4 Regressió lineal simple: mesures de bondat d'ajust. 

142



= = + + XiXi


8.4 Regressió lineal simple: mesures de bondat d’ajustament Estadística pràctica pas a pas

La bondat de l’ajustament d’una funció, en el nostre cas d’una recta, al núvol de punts es pot mesurar amb diferents coeficients: el coeficients de correlació r, el coeficient de determinació r 8.4 Regressió lineal simple: mesures de bondat d’ajustament

2

i l’error estàndard.

La bondat de l’ajustament d’una funció, en el nostre cas d’una recta, al núvol de punts es pot mesurar amb diferents coeficients: el coeficients de correlació r, el coeficient de Si en un model obtenim que les mesures de bondat d’ajustament lineal no són bones, això pot determinació r2 i l’error estàndard. ser degut a dues causes: Si en un model obtenim que les mesures de bondat d’ajustament lineal no són 1) No existeix relació lineal entre les dues variables, però existeix algun altre tipus de bones, això pot seruna degut a dues causes: per exemple, logarítmica, o quadràtica. 1. relació, No existeix una relació linealexponencial entre les dues variables, però existeix algun altre 2) Notipus existeix cap mena de relaciólogarítmica, entre les dues variables. oLes dues variables són de relació, per exemple, exponencial quadràtica. independents. 2. totalment No existeix cap mena de relació entre les dues variables. Les dues variables són totalment independents. es gràfic fa el gràfic de dispersió lesvariables dues variables tenir idea aproximaSi es Si fa el de dispersió de les de dues podrempodrem tenir una ideauna aproximada de si el da dedesi relació el tipusentre de relació les dues variables és olineal, no lineal o inexistent. tipus les duesentre variables és lineal, no lineal inexistent. 8.4.1 de correlació 8.4.1Coeficient Coeficient de correlació El coeficient de correlació de Pearson, r, mesura la relació lineal que hi ha entre dues El coeficient correlació de Pearson, r, mesura relació lineal que hi ha entre dues variables i variables i esdecalcula mitjançant alguna de leslafórmules següents: es calcula mitjançant alguna de les fórmules següents: r=

=

=

=

Propietats Propietats

a) r ésa) un restimador del coeficient de correlació *. és un estimador del coeficient depoblacional correlació poblacional ρ. b) –1 b) ) r )–1 1. ≤ r ≤ 1.

r <diu1,que es diu que la correlació és ipositiva i indica que, si incrementem el c) Si 0c) < Si r <01,< es la correlació és positiva indica que, si incrementem el valor de la de las’incrementarà variable X, també s’incrementarà variablevalor X, també el valor de la variable Y.el valor de la variable Y. d) Si –1 < r < 0, es diu que la correlació és negativa i indica que, si incrementem 145el valor de la variable Y. el valor de la variable X, disminuirà

143


Josep Maria Mateo Sanz

e) Si r = ±1, vol dir que una variable és exactament combinació lineal de l’altra i es diu que existeix correlació total. f) Si r = 0, vol dir que no existeix cap mena de relació lineal entre les dues variables estudiades i diem que les variables estan incorrelacionades. A les figures següents s’han representat diversos tipus de relacions que poden aparèixer. Correlació negativa r ≈ -0.95

Correlació positiva r ≈ 0.95

Possible correlació positiva r ≈ 0.6

Possible correlació negativa r ≈ -0.6

Relació no lineal r≈0

No correlació r≈0

8.4.2 Coeficient de determinació Definició. El coeficient de determinació és el percentatge de la variació total de la variable explicada que queda explicada per la variable explicativa. Per calcular r2 només cal elevar el coeficient de correlació r al quadrat. Propietats a) 0 ≤ r2 ≤ 1, fet que resulta evident de la primera propietat del coeficient de correlació.

144


subíndexi indica i indicaleslesobservacions observacionsmostrals mostralsque quetenim. tenim ElElsubíndex

Propietats

a) 0 ) r2 ) 1, fet que resulta evident de la primera propietat del coeficient de correlació. pràctica pas(X a(X pas Respecte alalavariable variable explicativa nombred’ob d’o Respecte aEstadística explicativa ). ).ElElnombre i i

b) Com més a prop d’1 valgui r , més significativa és lanombre relació lineal entre X i Y i, el enelcas canvi, com nombrede deparàmetres. paràmetres. casdedela laregressió regressiólineal lineals EnEn 2

mésb) a prop 0 valgui r2, d’1 menys significativa és la relació lineal Y. entre X i Y i, Comdemés a prop valgui r2, més significativa ésgran la entre relació més gran que2.X2.ilineal sersermés que

c) Si el model linealcom és perfecte, el coeficient de determinació r2 = 1. és la relació lineal significativa en canvi, més a prop de 0 valgui r2, menysserà

entrelineal X i Y. d) Si el model no explica res de la variació total de Y, el coeficient de determinació serà 0. alalllarg Respecte paràmetres. són constants llargdel delm Respecte alsalsparàmetres. ! !i #i #són constants

c) Si el model lineal és perfecte, el coeficienttractarem de determinació seràmitjançant r2 = 1. lalainferència tractaremd’aproximar d’aproximarmitjançant inferènciaestadística estadístic d) Si el model lineal no explica res de la variació total de Y, el coeficient de deter8.4.3 Error estàndard minació serà 0. Quan aproximem els valors Yi mitjançant

=

8.4.3 Error estàndard o residus ei, on:

+

8.3 Regressió Regressiólineal linealsimple: simple:estimació estimaciód 8.3 Xi, ens trobem amb els errors d’estimació

pràcticalalarecta rectadederegressió regressiópoblacional poblacionalserà seràdescon desc AAlalapràctica

i = 1, 2, ..., ei = Yi – . L’estimació d’aquesta recta repelelnom nomdederecta rec i+in . L’estimació d’aquesta recta rep X , ens trobem amb els errors Quan aproximem els valors Yi mitjançant Yˆ i = i d’estimació o residus ei, on: mitjançant: mitjançant: Com més grans siguin aquests residus, – Yˆ serà i la=relació 1, 2, ...,lineal n que existeix entre les variables = = + + XiX ei = Ypitjor i i X i Y. A l’inrevés, com més petits siguin aquests residus, millor serà la relació lineal que existeix

Com més grans siguin aquests residus, pitjor serà la relació lineal que existeix en-

entre variablesXX ii Y. Y. A l’inrevés, com més petits siguin aquests residus, millor serà la tre leslesvariables

relació lineal que existeix entre les variables X i Y. També enelcompte nombre d’observacions que tenim. D’aquesta També s’ha des’ha tenirde entenir compte nombreeld’observacions que tenim. D’aquesta manera podem manera podemestàndard calcularmitjançant l’error estàndard mitjançant calcular l’error l’expressió següent: l’expressió següent: Su =

8.4.4 Contrast de significativitat de la regressió

8.4.4 Contrast de significativitat de la regressió

Quan tenimunun coeficient de correlació ens podem preguntar: Quan tenim coeficient de correlació donatdonat ens podem preguntar: Aquest coeficient de correlació és significatiu? • • Aquest coeficient de correlació és significatiu? A partir devalor quinesvalor es pot considerar que un coeficientésdesignificatiu? correlació és • • A partir de quin pot considerar que un coeficient de correlació significatiu? Cal esmentar que, per a un nivell de significació donat, no hi ha un valor concret a 147 partir del qual un coeficient de correlació es pugui considerar significatiu, ja que aquest valor depèn del nombre de dades de què disposem. Per determinar si el coeficient de correlació realment és significatiu o no, és a dir, per determinar si realment té sentit ajustar una recta de regressió a unes dades, cal fer un contrast d’hipòtesis. Els passos que s’han de seguir per fer un contrast d’hipòtesis sobre el coeficient de correlació poblacional ρ serien:

145

142 142


1) Determinar la hipòtesi nul·la, H0. En aquest cas, la H0 és: Josep Maria Mateo Sanz

H0: * = 0

Això vol dir que, sota H0, el coeficient de correlació no és significatiu i no té sentit ajustar una

recta de regressió.

1. Determinar la hipòtesi nul·la, H0. En aquest cas, la H0 és:

: ρ = cas, 0 la H1 és: Haquest 2) Determinar la hipòtesi alternativa, H1. En 0 Això vol dir que, sota H0, el coeficient H1: * "de 0 correlació no és significatiu i no té sentit ajustar recta de regressió. Això vol dir que, sotauna H0, el coeficient de correlació és significatiu i té sentit ajustar una recta de 2. Determinar la hipòtesi alternativa, H1. En aquest cas, la H1 és: regressió. H1: ρ ≠ 0

3) Determinar zona les taules s’accepta és la significatiu H0. La taulai té quesentit s’ha de coeficient deoncorrelació Això volladir que,desota H1, el estadístiques consultar és la tuna de Student n – 2 graus de llibertat. Per a un nivell de significació !, si t!/2 és ajustar recta deamb regressió. tal3. queDeterminar P(t > t!/2) = !la/zona 2 (és de a dir, punt de la taula t de on Student que deixa la seva tauladreta queuna leseltaules estadístiques s’accepta la H0a. La

s’haade de Student ambonn s’accepta – 2 grauslade Per( a–tun nivell és l’interval àrea igual ! /consultar 2), la zonaés delalattaula t de Student H0llibertat. !/2 , t!/2 ).

de significació α, si tα/2 és tal que P(t > tα/2) = α / 2 (és a dir, el punt de la taula t de Student que deixa a la seva dreta una àrea igual a α / 2), la zona de la taula 4) Determinar la zona de les taules estadístiques on s’accepta la H1. Serà la zona complementària t de Student on s’accepta la H0 és l’interval ( –tα/2 , tα/2 ). a la trobada al pas 3), és a dir, serà ( –+ , –t!/2 ) $ ( t!/2 , +). 4. Determinar la zona de les taules estadístiques on s’accepta la H1. Serà la zona complementària a la trobada al pas 3), és a dir, serà ( –∞ , –tα/2 ) ∪ ( tα/2 , ∞). 5) Determinar la zona de l’estadístic mostral on s’accepta la H0. En aquest cas, l’estadístic 5. Determinar la zona de l’estadístic mostral on s’accepta la H0. En aquest cas, mostral el coeficient de correlació r i s’acceptarà la H0 si:r i s’acceptarà la H si: l’eés stadístic mostral és el coeficient de correlació 0 .

6. Determinar la zona de l’estadístic mostral on s’accepta la H1. Serà la zona com-

6) Determinar la zonala detrobada l’estadístic mostral on s’accepta la H1. Serà la zona complementària a plementària al mostral pas 5), és dir, s’acceptarà H1 lasi: 6) Determinar la zonaa de l’estadístic on as’accepta la H1. Serà zona complementària a la trobada al pas 5), és a dir, s’acceptarà H1 si: 148 la trobada al pas 5), és a dir, s’acceptarà H1 si: .

.

7) 7. Calcular l’estadístic de prova, t, de lat,manera següent: següent: Calcular l’estadístic de prova, de la manera 7) Calcular l’estadístic de prova, t, de la manera següent:

8) Segons els valors de l’estadístic de prova t i l’estadístic mostral r i les zones d’acceptació de 8) Segons els valors de l’estadístic de prova t i l’estadístic mostralmostral r i les zones 8. Segons els valors de l’estadístic de prova t i l’estadístic r i lesd’acceptació zones d’ac-de cada hipòtesi, decidir quina és la hipòtesi certa. ceptació de cada hipòtesi, decidir quina és la hipòtesi certa. cada hipòtesi, decidir quina és la hipòtesi certa.

9. Calcular el valor del nivell de significació crític o p-valor ac. Per portar a ter9) Calcular el valor del nivell de significació crític o p-valor "c. Per portar a terme aquest càlcul me aquest cal de trobar la probabilitat que una distribució t deaquest Student, 9) Calcular el valorcàlcul del nivell significació crític o p-valor " . Per portar a terme càlcul c

cal trobar la probabilitat que una distribució t de Student, amb n – 2 graus de llibertat, sigui cal trobar la probabilitat que una distribució t de Student, amb n – 2 graus de llibertat, sigui 146 aquesta probabilitat per 2. Matemàticament, major que l’estadístic t i després multiplicar major que l’estadístic t i després multiplicar aquesta probabilitat per 2. Matemàticament, tindrem: tindrem:


Estadística pràctica pas a pas

amb n – 2 graus de llibertat, sigui major que l’estadístic |t| i després multiplicar aquesta probabilitat per 2. Matemàticament, tindrem: ac = 2 · P(tn–2 > |t|). 10. Segons els valors de ac i de a, decidir quina és la hipòtesi certa. Exemple. Seguint amb l’exemple dels pesos i les alçades, calcularem les diverses mesures de bondat d’ajustament estudiades. Recordem que la recta de regressió obtinguda és: Yˆ i = 111.3187 + 0.837182Xi El quadre següent mostra els resultats de les operacions prèvies que cal realitzar per calcular les diverses mesures de bondat d’ajustament: Yi

Xi

X2i

XiYi

Y2i

174 168 181 170 158 177 159 164

77 70 79 68 56 80 56 64

5929 4900 6241 4624 3136 6400 3136 4096

13398 11760 14299 11560 8848 14160 8904 10496

30276 28224 32761 28900 24964 31329 25281 26896

1351

550

38462

93425

228631

Yˆ i 175.782 169.921 177.456 168.247 158.201 178.293 158.201 164.898

ei

e2i

–1.782 –1.921 3.544 1.753 –0.201 –1.293 0.799 –0.898

3.17 3.69 12.56 3.07 0.04 1.67 0.64 0.81 25.66

Aleshores:





           













                

    





   





 







  

 147              




Josep Maria Mateo Sanz

Finalment, per determinar si el coeficient de correlació és significatiu o no, amb α = 0.05, seguirem els passos indicats per fer el contrast: 1. H0: ρ = 0. 2. H1: ρ ≠ 0. 3. Com que n = 8, s’ha de consultar la taula t de Student amb 6 graus de llibertat i mirar quin punt deixa a la seva dreta una àrea de α / 2 = 0.025. Aquest punt és el 2.45. Per tant, la zona de la taula t de Student on s’accepta la H0 és l’interval ( –2.45 , 2.45 ). 4. La zona de la taula t de Student on s’accepta la H1 és ( –∞, –2.45 ) ∪ ( 2.45, ∞). 5. La H0 s’acceptarà si r compleix que: r ∈ (–0.7072, 0.7072) 6. La H1 s’acceptarà si r compleix que: r ∈ (–1, –0.7072) ∪ (0.7072,1)  7. L’estadístic de prova, t, és: =

 −

− 

=  

   8. Com que r i t pertanyen a la zona on s’accepta la H , s’accepta que el coeficient 1

de correlació és significatiu i que té sentit fer la regressió lineal.   9. Calculem el p-valor ac:   2 · P(t aα= c

n–2

> t) = 2 · 2.42 · 10–5 = 4.84 · 10–5. 



α   que el nivell d’error amb el 10. Com que el p-valor, ac = 4.84 · 10–5, és més petit  qual volem treballar, α = 0.05, acceptem H1 i arribem a la mateixa conclusió que abans. α   

8.5 Regressió lineal simple: punts influents i punts atípics

8.5 Regressió lineal simple: punts influents i punts atípics. Definició. Un punt o observació influent és un punt que, si es fan els càlculs de la re gressió amb aquest punt o sense aquest punt, provoca resultats diferents ja sigui de   l’estimació de la recta de regressió o del coeficient de correlació o d’ambdós.

                148 


Estadística pràctica pas a pas

Definició: un punt o observació atípic és un punt que s’aparta del comportament de la resta de punts. Per detectar punts influents i punts atípics hi ha diverses eines, la més senzilla de les quals és fer el gràfic de dispersió de les dades. Posteriorment es poden ajustar rectes de regressió amb i sense els punts candidats a ser influents i/o atípics per valorar-ne la influència i/o comportament. Exemple 1. En el gràfic següent es mostra un punt influent, ja que el coeficient de correlació sense tenir en compte el punt influent és r = –0.11 (no significatiu), i tenint en compte el punt influent és r = 0.85 (significatiu). Punt influent

Exemple 2. En el gràfic següent també es mostra un punt influent, ja que el coeficient de correlació sense tenir en compte el punt influent és r = 0.9955 (molt significatiu) i tenint en compte el punt influent és r = 0.02 (no significatiu).

Punt influent

Exemple 3. En el gràfic següent es mostra un punt atípic, ja que té un comportament diferent de la resta de punts. La valoració de si és un punt influent no és tan clara,

149


correlació sense tenir en compte el punt atípic és r = 0,95 i tenint en compte el punt atípic és r = 0,89. sense tenir en compte el punt atípic és r = 0,95 i tenint en compte el punt atípic és correlació

Josep Maria Mateo Sanz

r = 0,89.

ja que el coeficient de correlació sense tenir en compte el punt atípic és r = 0.95 i tenint en compte el punt atípic és r = 0.89.

Punt atípic

8.6 Regressió Regressió lineal simple: construcció d’intervals de predicció 8.6 lineal simple: construcció d’intervals de predicció 8.6 Regressió lineal simple: construcció d’intervals de predicció Una aplicacióimportant important la regressió la d’usar el model estimat fer prediccions, Una aplicació de de la regressió és laés d’usar el model estimat per fer per prediccions, és a dir, correspon a un valor determinat Xexplicativa. de la variable és a dir, determinar el valor Y0 quea un 0 determinar el valor Y0 que determinat X0 de laper variable Una aplicació important de correspon la regressió és lavalor d’usar el model estimat fer prediccions, és aAixí, dir, explicativa. Així, tenint en compte que: tenint en compte que:Y0 que correspon a un valor determinat X0 de la variable explicativa. Així, determinar el valor tenint en compte que:

=

+

Xi

per a Xi = X0 tenim que:

=

+

Xi

per a Xi = X0 tenim que:

=

+

X0

=

+

X0

per a Xi = X0 tenim que: on

serà una predicció puntual de Y0.

on

serà una predicció puntual de Y0.

on una predicció de Yexplicativa . Yˆ 0 serà És clar que un valor concret puntual de la variable X0 no sempre produirà un mateix valor de 0 produirà És clar que un valor concret de la variable explicativa X0 no la Y0. Seria correcteexplicativa pensar queXels possibles valors desempre Y estarien dintre Ésvariable clar queexplicada un valor concret demés la variable 0 no sempre produirà un 0mateix valor de un mateix valor de la variable explicada Y0. Seria més correcte pensar que els possibles d’un rang de nombresYque posarem en forma d’interval. Cal distingirvalors si aquest ésdintre per a la variable explicada . Seria més correcte pensar que els possibles de Yinterval estarien valors de Y0 estarien 0dintre d’un rang de nombres que posarem en forma 0d’interval. Cal valorsrang particulars de Y0 que o perposarem a l’esperança de Yd’interval. d’un nombres forma Cal intervaldeésYper 0. l’esperança . a distingir sideaquest interval és per en a valors particulars de distingir Y0 o persiaaquest 0 valors particulars de Y0 o per a l’esperança de Y0.

8.6.1Interval Interval a valors particulars 8.6.1 perper a valors particulars de Y0 de Y0 8.6.1 Interval per a valors particulars de Y0

Si volem construir un interval amb un nivell de confiança igual a 1 – α, farem servir les taules de la t de Student amb n – 2 graus de llibertat per tal de trobar el valor tα/2 que deixa a la seva dreta una àrea igual a α / 2.153 Amb aquestes eines puc construir l’interval de predicció per a valors particulars de Y0, amb un nivell de significació α: 153

150


Si volem construiramb un interval ambde unllibertat nivell de a 1 t– !,quefarem les taules de la t de Student n – 2 graus perconfiança de trobarigual el valor deixaservir a la seva dreta !/2 de laàrea t de igual Student – 2 graus de llibertat per de trobar el valor t!/2deque deixa a la dreta una a !amb / 2.nAmb aquestes eines puc construir l’interval predicció perseva a valors Estadística pràctica pas a pas

una àrea igual ! / 2. eines puc particulars de Y0a, amb unAmb nivellaquestes de significació !: construir l’interval de predicció per a valors particulars de Y0, amb un nivell de significació !: – t!/2Su – t!/2Su

) Y0 ) ) Y0 )

+ t!/2Su + t!/2Su

8.6.2 Interval per a l’esperança de Y0

8.6.2 perper a l’esperança de Y0 de Y0 8.6.2Interval Interval a l’esperança l’interval per a És natural natural pensar l’interval perper a l’esperança d’und’un valorvalor Y0 serà És pensarque que l’interval a l’esperança Y0més seràpetit mésque petit que l’interÉs natural pensar que l’interval per a l’esperança d’un valornivell petit que l’interval perela valors (suposant que treballem el mateix demés significació). L’interval val perparticulars a valors particulars (suposant queamb treballem ambY0elserà mateix nivell de significació). valors particulars (suposant treballem amb el mateix nivell de significació). L’interval el L’interval trobem fent elsque càlculs següents: trobem fentelels càlculs següents: trobem fent els càlculs següents: – t!/2Su – t!/2Su

) Y0 ) ) Y0 )

+ t!/2Su + t!/2Su

Exemple: seguint amb l’exemple dels pesos i les alçades anterior, suposem que volem estimar Exemple:d’una seguint amb que l’exemple delspesa pesos les La alçades suposem que volem estimar l’alçada persona sabem que 75i kg. recta anterior, de regressió obtinguda és:

Exemple: seguint amb l’exemple dels pesos i les alçades anterior, suposem que vo-

l’alçada d’unal’persona que sabem que=pesa kg.+La rectapesa de regressió obtinguda és: lem estimar alçada d’una persona que75sabem que 111,3187 0,837182X i 75 kg. La recta de regressió = 111,3187 + 0,837182Xi obtinguda és:

= 111.3187 0.837182Xi Yˆ i l’alçada Per tant, una predicció puntual de quan X+ 0 = 75 és: Per tant, una predicció puntual=de111,3187 l’alçada +quan X0 = 75· 75 és:= 174,1074 0,837182

Per tant, una predicció puntual de l’alçada quan X0 = 75 és: = 111,3187 + 0,837182 · 75 = 174,1074

Yˆ 0 = 111.3187 + 0.837182 · 75 = 174.1074 Si volem els intervals de predicció per a ! = 0,05, tenim les dades següents: Si volem els intervals de predicció per α = 0,05, tenim les dades següents: Si volem els intervals 0,05,a tenim les dades següents: n = 8 deXpredicció = 75 per a ! == 174,1074 t = 2,45

nn ==88

0

0,025, 6

X =X 75 = 75 = 174,1074 t0,025, = 2,45 6 =2.45 Yˆ 0 ==174.1074 Su =0 2,068 68,75 ,X2i =t0.025, 38.462 0 6 2 SSu ==2,068 = 68,75 ∑X,X 2 i = 38.462 2.068 = 68.75 = 38462 X i u

L’interval de predicció per a valors particulars de Y0 és: L’interval de predicció per a valors particulars de Y0 és: L’interval de174,1074 predicció–per és: 2,45a valors · 2,068particulars · 1,0886 ) de Y Y )0174,1074 + 2,45 · 2,068 · 1,0886 0

174,1074 – 2,45 · 2,068 · 1,0886≤) )Y Y00 ) )≤ 179,6228 174,1074 · 2,068 · 1,0886 174.1074+ 2,45 + 2.45 · 2.068 · 1.0886 174.1074 – 2.45 · 2.068 · 168,5920 1.0886 Y 0

168,5920≤)Y Y0 )≤ 179,6228 179.6228 168.5920 0

L’interval de predicció per a l’esperança de Y0 és: de Y és: L’interval de predicció per a l’esperança 0 L’interval de predicció per a l’esperança de Y0 és:

174.1074 – 2.45 · 2.068 · 0.4303 ≤ Y0 ≤ 174.1074 + 2.45 · 2.068 · 0.4303 154 154

171.9274 ≤ Y0 ≤ 176.2873

151


Josep Maria Mateo Sanz

8.7 Regressió no lineal simple En aquest apartat suposarem que la relació existent entre la variable explicada i la variable explicativa no és de tipus lineal. En alguns casos haurem de fer algun tipus de transformació per aconseguir una relació lineal, Y’ = α’ + β’X’, entre les variables transformades. Posem 3 exemples de regressió no lineal entre una variable explicada i una d’explicativa: Exemple 1. La relació que es compleix és del tipus: eY = a · Xb on a i b són els paràmetres desconeguts. Si prenem logaritmes, obtenim: Y = ln a + b · ln X Aquesta equació és lineal i podem treballar normalment agafant com a: • Variable explicada: Y’ = Y • Variable explicativa: X’ = ln X • Paràmetres: α’ = ln a i β’ = b. Una vegada hem estimat els paràmetres α’ i β’ per MQO podrem recuperar l’equació inicial. Exemple 2. La relació que es compleix és del tipus: Y = a · Xb on a i b són els paràmetres desconeguts. Si prenem logaritmes, obtenim: ln Y = ln a + b · ln X Aquesta equació és lineal i podem treballar normalment agafant com a: • Variable explicada: Y’ = ln Y • Variable explicativa: X’ = ln X • Paràmetres: α’ = ln a i β’ = b. Una vegada hem estimat els paràmetres α’ i β’ per MQO podrem recuperar l’equació inicial. Exemple 3. La relació que es compleix és del tipus: Y=a+ on a i b són els paràmetres desconeguts. 152

b X


Estadística pràctica pas a pas

Aquesta equació és lineal i podem treballar normalment agafant com a: • Variable explicada: Y’ = Y • Variable explicativa: X’ = 1/X • Paràmetres: α’ = a i β’ = b Una vegada hem estimat els paràmetres α’ i β’ per MQO podrem recuperar l’equació inicial.

8.8 Regressió lineal múltiple El model estudiat en el tema de regressió lineal simple es pot generalitzar i s’hi pot incloure el cas en què tinguem una variable dependent Y i K variables independents X1, X2, ..., XK. En el model de regressió lineal múltiple també s’han d’especificar una sèrie d’hipòtesis bàsiques sobre les components del model, que, en tot cas, són semblants a les especificades en el model de regressió lineal simple.

8.8.1 Hipòtesis bàsiques del model de regressió lineal múltiple Respecte a l’equació. Existeix una relació lineal entre la variable dependent i les variables independents. Formalment escriurem: Yi = β0 + β1Xi1 + β2Xi2 + ... + βKXiK + ui

i = 1, 2, ..., n

on: • Yi: variable dependent • Xik: variable independent, k = 1, ..., K • βk: paràmetres, k = 0, 1, 2, ..., K • ui: terme de pertorbació El subíndex i indica les observacions mostrals que tenim, i el subíndex k, la variable independent amb la qual estem treballant o el seu paràmetre corresponent. Respecte a les variables independents. El nombre d’observacions ha de ser més gran que el nombre de paràmetres. En el cas de la regressió lineal múltiple, el nombre d’observacions ha de ser més gran que K + 1. Respecte als paràmetres. β0, β1, ..., βK són constants al llarg del mostreig. Aquestes són les constants que s’aproximaran mitjançant la inferència estadística.

153


constants que s’aproximaran mitjançant la inferència estadística. Josep Maria Mateo Sanz 8.8.2 Mesures Mesures de de bondat bondat d’ajustament d’ajustament en en regressió regressió lineal lineal múltiple múltiple 8.8.2 2 8.8.2 Mesures de d’ajustament en regressió lineal múltiple L’inconvenient quebondat presenta el coeficient coeficient de determinació determinació al model model de de regressió regressió lineal lineal L’inconvenient que presenta el de rr2 al múltiple és és que, que, aa mesura mesura que que augmentem augmentem el el nombre nombre de de variables variables independents al al model, model, rr22 2 múltiple independents

L’inconvenient que presenta el coeficient de determinació r al model de regressió lineal també augmenta. augmenta. Ens podem que trobar que en en un un model model afegimde variables queindependents no tinguin tinguin res res aaalveure veure múltiple és que,Ens a mesura augmentem el nombre variables motambé podem trobar que afegim variables que no 2 2 sigui més més alten que elmodel model afegim que no no variables contingui aquesta aquesta amb rla la també variableaugmenta. que es es vol vol Ens explicar podem trobar quealt unel que no del, que model que contingui amb variable que explicar ii rr2 sigui mésmesurar alt que el tinguin veure amb la variable es vol explicar r2 sigui per variable res no asignificativa. significativa. Per tant, el elque coeficient que es es iproposa proposa per mesurar la model bondatque de variable no Per tant, coeficient que la bondat de no continguiésaquesta variable no significativa. Per tant, elcorregit coeficient, que es proposacom per l’ajustament és el que que s’anomena s’anomena coeficient coeficient de de determinació determinació corregit que es es defineix defineix com l’ajustament el , que mesurar la bondat de l’ajustament és el que s’anomena coeficient de determinació cora: a: regit r 2 , que es defineix com a: == 11 ––

(1 –– rr22)) (1

Aquest coeficient coeficient també també estarà estarà entre entre 00 ii 11 ii només només augmenta augmenta en en el el cas cas que que la la variable variable introduïda introduïda Aquest Aquest coeficient també estarà entre 0 i 1 i només augmenta en el cas que la variserveixi per explicar explicar la variable variable dependent. serveixi per la dependent.

able introduïda serveixi per explicar la variable dependent.

Entre dos dos models models diferents diferents triarem triarem el el que que tingui tingui un un més gran. gran. més Entre Entre dos models diferents triarem el que tingui un

2 r més gran.

Per altra altra banda, l’error l’error estàndard en el el cas casen deelregressió regressió lineal múltiple múltiple esmúltiple calcula mitjançant mitjançant Perbanda, altra banda, estàndard cas de regressió lineales es calcula Per l’error estàndard en de lineal calcula l’expressió següent: següent: mitjançant l’expressió següent: l’expressió SSuu ==

8.9 Contrastos de significació en regressió lineal múltiple

8.9 Contrastos Contrastos de de significació significació en en regressió regressió lineal lineal múltiple múltiple 8.9 El model de regressió lineal ens ofereix la possibilitat de contrastar diverses hipòtesis sobre els coeficients. Podem fer:

• Contrastos coeficient a coeficient per estudiar la rellevància de cada variable independent per separat. Les hipòtesis 157 que es contrasten són: 157 –– H0: βi = 0, el coeficient βi no és significatiu, la variable Xi no influeix de manera lineal sobre la variable Y i no té sentit que estigui en el model. –– H1: βi ≠ 0, el coeficient βi és significatiu, la variable Xi influeix de manera lineal sobre la variable Y i té sentit que estigui en el model. • En el cas de la regressió lineal múltiple, un contrast conjunt per a tots els coeficients que ens servirà per estudiar la significació del model en conjunt. Les hipòtesis que es contrasten són:

154


Estadística pràctica pas a pas

regressió lineal múltiple és quasi imprescindible treballar

–– H : el model lineal no és significatiu; les variables Xi, en conjunt, no influeixen de manera lineal sobre la variable Y. –– H1: el model lineal és significatiu; les variables Xi, en conjunt, influeixen de manera lineal sobre la variable Y.

uls es compliquen molt. Aquí0 presentem els resultats

ndex de porositat.

Per fer aquests contrastos, partirem d’un exemple concret on es fabriquen tapes + #1 · Temperatura + #2 · Pressió d’alumini a partir de motlles on es posa alumini líquid a certa pressió. Es mesura la temperatura de l’alumini líquid, la pressió amb què aquest s’injecta al motlle i l’índex de porositat trobat a les tapes finals d’alumini. Les dades són: nt:

uma de adrados

2378876 2478267 4857143

ror típico 6515374 0786106 0356909

Temperatura (ºC)

Pressió (kg/cm2)

Índex de porositat

640

950

6.09

660

954

5.53

638

1005

6.78

662

997

6.16

651

976

5.93

653

972

6.12

647 977 5.92 Promedio de Valor crítico los F desón F variables independents i l’índex de porositat és la La temperatura i la pressió cuadrados variable dependent. És a dir, hem de trobar els coeficients β de l’expressió: 0,36189438 11,6007894 0,02162379 0,03119567

Porositat = β0 + β1 · Temperatura + β2 · Pressió

Estadístico t Probabilidad 1,31894005 0,25762905 8.9.1 Contrastos per a coeficients particulars –2,92826328 0,04288807  3,63093621 0,02214152

En aquest subapartat volem fer contrastos del tipus:    βi no és significatiu. H : el coeficient oeficient de correlació r 0(0,92355277), el coeficient H1: el coeficient βi és significatiu.  oeficient de determinació corregit mínim (0,77942457) L’estimació quadràtica dels coeficients del model anterior es pot fer usant les  tècniques de regressió lineal. El programa Excel dóna els resultats d’aquesta estimació. 

estimació dels paràmetres:

  = 8,39525622,  = –−      

    

           

162

 155 •  

•            


2 (0,85294971), el coeficient de determinació corregit nçament trobem el valor del coeficient rde(0,92355277), correlació rde (0,92355277), m el valor del coeficient de correlació eldeterminació coeficient elr coeficient

i(0,77942457) l’error estàndard Su (0,17662295). minació r2 (0,85294971), el determinació coeficient de corregit determinació corregit (0,77942457) 5294971), el coeficient de Josep Maria Mateo Sanz

stàndard Su (0,17662295). ,17662295).

A la columna “Coeficientes” trobem l’estimació dels paràmetres:

mna “Coeficientes” trobem l’estimació =– = 8,39525622, =i – =són entes” trobem l’estimació 0,01295912. 0,02301924, Aixòdels volparàmetres: dir quedels elsparàmetres: valors de =, 8,39525622, 8.3953, –0.023 i 0.013 i que els

valors de αc per fer els contrastos individuals de cada coeficient són 0.2576, 0.0429 i 24, = 0,01295912. 295912. 0.0221, respectivament. Si nosaltres volem agafar un valor de α = 0.05, la conclusió que s’obté és que: • El coeficient β0 no és significatiu perquè αc = 0.2576 > α = 0.05. 162 la • El coeficient β1 és significatiu perquè αc = 0.0429 < α = 0.05. Conclusió: temperatura 162influeix de manera lineal en l’índex de porositat. 162 • El coeficient β2 és significatiu perquè αc = 0.0221 < α = 0.05. Conclusió: la pressió influeix de manera lineal en l’índex de porositat.

8.9.2 Contrast global En els resultats obtinguts a l’Excel també es pot veure si el model de regressió lineal en conjunt és significatiu, és a dir, si les variables independents usades en el model serveixen per explicar el comportament de la variable resposta. En aquest cas, el contrast que fem és: • H0: el model lineal no és significatiu. • H1: el model lineal és significatiu. L’estadístic que s’usa per fer aquest contrast és l’estadístic F de la taula de l’anàlisi de la variància. En el nostre exemple, aquest estadístic té un valor d’11.6 amb un αc = 0.0216. Per tant, podem afirmar que el model de regressió lineal és significatiu en el conjunt de les variables independents, ja que αc = 0.0216 < α = 0.05.

8.10 Resultats amb el programa Excel Avui dia tenim programes informàtics que ens estalvien la feina de fer els càlculs per estimar els diferents paràmetres i mesures que ens apareixen quan volem fer estudis de regressió. Presentarem les pantalles que apareixen al programa Excel quan fem regressió lineal simple i regressió lineal múltiple. Per fer regressió a Excel es pot anar a “Herramientas” → “Análisis de datos” → “Regresión”. Apareix un quadre on: • Hem de triar les dades corresponents a la variable dependent Y. • Hem de triar les dades corresponents a les variables independents (poden ser una o més d’una). • Hem de marcar “Rótulos” si hem incorporat els rètols a les dades d’entrada. 156

= 8,39


Estadística pràctica pas a pas

Altres opcions ens permeten: • Obligar que la recta ajustada passi pel punt (0,0) (“Constante igual a 0”). • Determinar un nivell de confiança per quan es fan intervals de confiança dels paràmetres de la recta de regressió (“Nivel de confianza”). • Mostrar els residus (ja sigui numèricament o a través d’un gràfic). • Posar en un gràfic els valors pronosticats pel model i els valors reals de la variable dependent en funció de cada variable independent. • Fer un gràfic de probabilitat normal amb els valors de la variable dependent.

8.10.1 Regressió lineal simple amb Excel

La pantalla que apareix quan treballem amb les dades de l’exemple dels pesos i les alçades és:

La pantalla que apareix quan treballem amb les dades de l’exemple dels pesos i les alçapesos i les alçades és: Estadísticas de des és: la regresión Coeficiente de Estadísticas de la regresión correlación

0,97295688

Coeficiente Coeficiente de 0.97295688 0,94664509 de correlación

determinación Coeficiente R^2deajustado 0,9377526 0.94664509 determinación Error típico 2,06789119 Observaciones 8 R^2 ajustado 0.9377526 Error típico ANÁLISIS2.06789119 DE

VARIANZA 8 Observaciones Análisis de varianza

Valor de crítico F de libertad F Regresión Regresión 1 4,8446E6,454498 Residuos 05 Residuos 6 Total

babilidad 081E-06 446E-05

Total

7

Promedio de Suma de los cuadrados Promedio cuadrados F

480.875

F

Coeficientes Error típico Estadístico t Probabilidad Intercepción 111,318707 5,62612068 19,7860503 1,081E-06 Coeficientes Error típico Estadístico t Probabilidad Pes 0,83718245 0,08114058 10,3176789 4,8446E-05

Intercepción Pes

Valor crítico de Valor crítico de F F de cuadrados de los cuadrados 4,8446E1 455,217956 455,217956 106,454498 05 455.217956 455.217956 106.454498 4.8446E-05 6 25,6570439 4,27617398 25.6570439 4.27617398 7 480,875

Grados de Grados libertadSuma

111.318707

5.62612068

19.7860503

1.081E-06

0.83718245 10.3176789 4.8446E-05 Al començament apareix 0.08114058 el valor del coeficient de correlació r (0,97295688), el valor del

7295688), el valor delcoeficient de determinació r2 (0,94664509), el coeficient de determinació corregit

començament apareix el valor del coeficient de correlació r (0.97295688), el valor erminació corregit Al(0,9377526) i el valor de l’error estàndard Su (2,06781199). 2 del coeficient de determinació r2 (0.94664509), el coeficient de determinació corregit r

(0.9377526) i el valor de l’error estàndard Su (2.0678119). columna“Coeficientes” “Coeficientes”trobem trobem elelresultat resultat de de (correspon aa“Intercepción”) (correspon “Intercepción”)i iel de AAla lacolumna ntercepción”) i el de (correspon (correspon a “Pes”). a “Pes”). 157

A la columna “Probabilidad” apareixen els p-valors per contrastar si l’ordenada a l’origen i el

ordenada a l’origen i elpendent són significativament diferents de zero o no, respectivament. En aquest cas, com que


Josep Maria Mateo Sanz

A la columna “Probabilidad” apareixen els p-valors per contrastar si l’ordenada a l’origen i el pendent són significativament diferents de zero o no, respectivament. En aquest cas, com que tant el p-valor per fer el contrast sobre l’ordenada a l’origen, que és 1.081E-06, com el p-valor per fer el contrast sobre el pendent, que és 4.8446E-05, són més petits que 0.05, podem afirmar que tant l’ordenada a l’origen com el pendent són significativament diferents de zero.

8.10.2 Regressió lineal múltiple amb Excel Per fer els càlculs quan treballem amb regressió lineal múltiple és quasi imprescindible treballar amb els ordinadors, ja que els càlculs es compliquen molt. Aquí presentem els resultats obtinguts quan agafem l’exemple de l’índex de porositat. El model que ajustem és: Porositat = β0 + β1 · Temperatura + β2 · Pressió La pantalla que ens apareix és la següent: Estadísticas de la regresión Coeficiente de correlación

0.92355277

Coeficiente de determinación

0.85294971

R^2 ajustado

0.77942457

Error típico

0.17662295

Observaciones

7

Análisis de varianza Grados de libertad

Suma de cuadrados

Promedio de los cuadrados

F

Valor crítico de F

Regresión

2

0.72378876

0.36189438

11.6007894

0.02162379

Residuos

4

0.12478267

0.03119567

Total

6

0.84857143

Coeficientes

Error típico

Estadístico t

Probabilidad

Intercepción

8.39525622

6.36515374

1.31894005

0.25762905

Temperatura

–0.02301924

0.00786106

–2.92826328

0.04288807

Pressió

0.01295912

0.00356909

3.63093621

0.02214152

158


0,25762905 0,04288807 0,02214152

Temperatura –0,02301924 0,00786106 –2,92826328 0,04288807 Pressió 0,01295912 0,00356909 3,63093621 0,02214152 Pressió 0,01295912 0,00356909 3,63093621 0,02214152

Al començament trobem el valor del coeficient de correlació r (0,92355277), coeficient Estadística pràcticaelpas a pas Al començament trobem el valor del coeficient de correlació r (0,92355277), el coeficient 2 el coeficient de determinació corregit (0,77942457) determinació r (0,85294971), 355277), el coeficient de de determinació r2 (0,85294971), el coeficient de determinació corregit (0,77942457) el valor del coeficient de correlació r (0.92355277), el coel’error estàndardtrobem S (0,17662295). egit (0,77942457)Alicomençament i l’error estàndardu2Su (0,17662295). ficient de determinació r (0.85294971), el coeficient de determinació corregit r 2

(0.77942457) i l’error estàndard Su (0.17662295). A la columna “Coeficientes” trobem l’estimació dels paràmetres: = 8,39525622, = – = 8,39525622, la columna “Coeficientes” trobem l’estimació dels paràmetres: = 8.39525622, = – A la A columna “Coeficientes” trobem l’estimació dels paràmetres: = 8,39525622, = –0.02301924, = – 0,02301924, = =0,01295912. 0.01295912. 0,02301924, = 0,01295912. A la columna “Probabilidad” trobem el nivell de significació crític que resulta de contrastar si la variable independent corresponent és significativa, és a dir, si la variable independent aporta alguna cosa al model lineal per explicar el comportament de la variable Y. Com més petit sigui el valor del nivell de significació crític, més significativa és la varia162 són més petits que 0.05, a banda ble independent. En aquest cas, com que tots els p-valors 162 del corresponent al terme independent, podem dir que les dues variables, per separat, del model són significatives. A la columna “Valor crítico de F” de l’anàlisi de la variància trobem el nivell de significació crític 0.02162379, que resulta de contrastar si les variables independents en conjunt són significatives; en aquest cas, podem afirmar que, agafant un nivell de significació de 0.05, les variables explicatives en conjunt són significatives per explicar de manera lineal el comportament de la variable Y.

8.10.3 Regressió no lineal simple amb Excel La regressió no lineal simple amb Excel la farem a partir del gràfic de les dades que volem treballar. Per tant, primer hem de fer un gràfic de dispersió. Agafant l’exemple dels pesos i les alçades, els passos per fer el gràfic són: 1. Posem les dades en dues columnes de manera que les dades de la variable independent, Pes, ocupin una columna i les de la variable dependent, Alçada, ocupin la columna del costat dret. 2. Seleccionem les dues columnes de dades. 3. Anem a “Insertar” → “Gráfico”. 4. Triem “XY (Dispersión)”. Com a “Subtipo”, triem el gràfic de dalt. Cliquem sobre “Siguiente”. 5. Si hem seleccionat bé les dades, ens surt una previsualització de com quedarà el gràfic i no hem de tocar cap opció. Cliquem sobre “Siguiente”. 6. En aquesta pantalla surt un quadre de diàleg amb diverses pestanyes on hi ha diverses opcions del gràfic, com ara posar títol al gràfic i als eixos o mostrar una llegenda per al gràfic. Per ara, podem deixar les coses com estan i cliquem sobre “Siguiente”.

159


Josep Maria Mateo Sanz

7. Per no tenir problemes amb la mida del gràfic, triem “En una hoja nueva” i cliquem sobre “Finalizar”. 8. Apareix una fulla nova amb el gràfic de dispersió de les dades on tenim, a l’eix d’abscisses, la variable Pes i, a l’eix d’ordenades, la variable Alçada. A partir d’aquí podem ajustar diversos models a les dades. Nosaltres ajustarem els següents: a) Lineal: y = ax + b. b) Quadràtic: y = ax2 + bx + c. c) Logarítmic: y = a ln x + b. d) Potencial: y = axb. e) Exponencial: y = aebx. Els passos que hem de seguir per fer els diversos ajustos a partir del gràfic obtingut són: 1. Cliquem, amb el botó dret, sobre una de les dades representades. Del menú que apareix, triem “Agregar línea de tendencia”. 2. A la pestanya “Tipo” triem el model que volem ajustar. Si triem el model polinomial, també hem d’indicar el grau del polinomi que hi volem ajustar. Per seguir amb el nostre exemple, triem lineal. 3. A la pestanya “Opciones”, marquem les caselles “Presentar ecuación en el gráfico” i “Presentar el valor R cuadrado en el gráfico”. D’aquesta manera ens apareixerà l’equació ajustada al gràfic i el seu coeficient de determinació r2. Cliquem sobre “Aceptar”. 4. Al gràfic ens ha d’aparèixer la funció ajustada y = 0.8372x + 111.32 i un valor del coeficient de determinació de r2 = 0.9466. Els passos anteriors els repetiríem per a les altres funcions que volem ajustar i podem posar els diversos resultats obtinguts en una taula com la següent:

Model

Funció

r2

Lineal Quadràtic Logarítmic Potencial Exponencial

y = 0.8372x + 111.32 y = 0.0054x2 + 0.1067x + 135.65 y = 55.988 ln x – 67.484 y = 41.371x0.3329 y = 119.84e0.005x

0.9466 0.9485 0.9401 0.9464 0.9513

160


Estadística pràctica pas a pas

Com que els models no tenen el mateix nombre de paràmetres per estimar, per decidir quin és el millor model que ajusta les dades, hem de calcular el coeficient de deCom que els models no tenen el mateix nombre de paràmetres per estimar, per decidir terminació ajustat i triar el model que tingui un valor més gran. Per fer-ho, hem de tenir quin és en el millor model que ajusta les de dades, coeficient determinació en compte que tots els models el valor K +hem 1 ésde2,calcular perquèel hi ha dos de paràmetres ajustat i triarenel elmodel quequadràtic, tingui un valor gran. Per+fer-ho, de tenir en compte per estimar, menys model on elmés valor de K 1 és 3,hem perquè hi ha tres paràmetres Per tant, la taula completar la columna dels queper en estimar. tots els models el valor de anterior K + 1 és es 2, pot perquè hi ha dosamb paràmetres per estimar, valors calculats delelcoeficient de determinació menys en model quadràtic, on el valor ajustat: de K + 1 és 3, perquè hi ha tres paràmetres per estimar. Per tant, la taula anterior es pot completar amb la columna dels valors calculats del coeficient Model de determinació ajustat: Funció

r2

Model Funció y = 0.8372x + 111.32 Lineal 0.9466 Lineal y = 20,8372x + 111,32 y = 0.0054x + 0.1067x Quadràtic + 135.65 0.9485 Quadràtic y = 0,0054x2 + 0,1067x + 135,65 Logarítmic ln x –ln67.484 Logarítmicy = 55.988 y = 55,988 x – 67,484 0.9401 0.3329 Potencial 0.9464 41.371x 0,3329 Potencial yy = = 41,371x 0,005x 0.005x Exponencial 0.9513 119.84e Exponencial y = 119,84e

r

2

r2 0.9377 0,9466 0.9279 0,9485 0.9301 0,9401 0.9375 0,9464 0.9432 0,9513

0,9377 0,9279 0,9301 0,9375 0,9432

més model exponencial i considerem que aquest El model quetétéun unvalor valor El model que mésgran granésésel el model exponencial i considerem que és aquest éselelmodel modelque quemillor millor ajusta dades. ajusta les les dades. Observació. Si volem ajustar un model no lineal diferent dels que apareixen en les opcions gràfiques d’Excel i aquest model és linealitzable mitjançant alguna transforObservació. Si volem ajustar un model no lineal diferent dels que apareixen en les opcions mació de les variables originals, caldrà fer aquesta transformació i, amb les variables gràfiques d’Excel i aquest és linealitzable transformació transformades, seguir els passos quemodel s’indiquen a l’apartatmitjançant “Regressióalguna lineal simple amb de les variables originals, caldrà fer aquesta adequades transformació i, amb dels les variables Excel”. Posteriorment, i fent les operacions a partir resultatstransformades, obtinguts seguir els podrem passos que s’indiquen a l’apartat lineal simple amb Excel”. Posteriorment, i fent amb Excel, recuperar l’equació no“Regressió lineal inicial. les operacions adequades a partir dels resultats obtinguts amb Excel, podrem recuperar l’equació no lineal inicial.

161

165



Taules estadĂ­stiques


Josep Maria Mateo Sanz

TAULA NORMAL ESTÀNDARD (àrees a la dreta del punt) TAULA NORMAL ESTÀNDARD (àrees a la dreta del punt) z

0

1

2

3

4

5

6

7

8

9

0.0

0.5000

0.4960

0.4920

0.4880

0.4840

0.4801

0.4761

0.4721

0.4681

0.4641

0.1

0.4602

0.4562

0.4522

0.4483

0.4443

0.4404

0.4364

0.4325

0.4286

0.4247

0.2

0.4207

0.4168

0.4129

0.4090

0.4052

0.4013

0.3974

0.3936

0.3897

0.3859

0.3

0.3821

0.3783

0.3745

0.3707

0.3669

0.3632

0.3594

0.3557

0.3520

0.3483

0.4

0.3446

0.3409

0.3372

0.3336

0.3300

0.3264

0.3228

0.3192

0.3156

0.3121

0.5

0.3085

0.3050

0.3015

0.2981

0.2946

0.2912

0.2877

0.2843

0.2810

0.2776

0.6

0.2743

0.2709

0.2676

0.2643

0.2611

0.2578

0.2546

0.2514

0.2483

0.2451

0.7

0.2420

0.2389

0.2358

0.2327

0.2296

0.2266

0.2236

0.2206

0.2177

0.2148

0.8

0.2119

0.2090

0.2061

0.2033

0.2005

0.1977

0.1949

0.1922

0.1894

0.1867

0.9

0.1841

0.1814

0.1788

0.1762

0.1736

0.1711

0.1685

0.1660

0.1635

0.1611

1.0

0.1587

0.1562

0.1539

0.1515

0.1492

0.1469

0.1446

0.1423

0.1401

0.1379

1.1

0.1357

0.1335

0.1314

0.1292

0.1271

0.1251

0.1230

0.1210

0.1190

0.1170

1.2

0.1151

0.1131

0.1112

0.1093

0.1075

0.1056

0.1038

0.1020

0.1003

0.0985

1.3

0.0968

0.0951

0.0934

0.0918

0.0901

0.0885

0.0869

0.0853

0.0838

0.0823

1.4

0.0808

0.0793

0.0778

0.0764

0.0749

0.0735

0.0721

0.0708

0.0694

0.0681

1.5

0.0668

0.0655

0.0643

0.0630

0.0618

0.0606

0.0594

0.0582

0.0571

0.0559

1.6

0.0548

0.0537

0.0526

0.0516

0.0505

0.0495

0.0485

0.0475

0.0465

0.0455

1.7

0.0446

0.0436

0.0427

0.0418

0.0409

0.0401

0.0392

0.0384

0.0375

0.0367

1.8

0.0359

0.0351

0.0344

0.0336

0.0329

0.0322

0.0314

0.0307

0.0301

0.0294

1.9

0.0287

0.0281

0.0274

0.0268

0.0262

0.0256

0.0250

0.0244

0.0239

0.0233

2.0

0.0228

0.0222

0.0217

0.0212

0.0207

0.0202

0.0197

0.0192

0.0188

0.0183

2.1

0.0179

0.0174

0.0170

0.0166

0.0162

0.0158

0.0154

0.0150

0.0146

0.0143

2.2

0.0139

0.0136

0.0132

0.0129

0.0125

0.0122

0.0119

0.0116

0.0113

0.0110

2.3

0.0107

0.0104

0.0102

0.0099

0.0096

0.0094

0.0091

0.0089

0.0087

0.0084

2.4

0.0082

0.0080

0.0078

0.0075

0.0073

0.0071

0.0069

0.0068

0.0066

0.0064

2.5

0.0062

0.0060

0.0059

0.0057

0.0055

0.0054

0.0052

0.0051

0.0049

0.0048

2.6

0.0047

0.0045

0.0044

0.0043

0.0041

0.0040

0.0039

0.0038

0.0037

0.0036

2.7

0.0035

0.0034

0.0033

0.0032

0.0031

0.0030

0.0029

0.0028

0.0027

0.0026

2.8

0.0026

0.0025

0.0024

0.0023

0.0023

0.0022

0.0021

0.0021

0.0020

0.0019

2.9

0.0019

0.0018

0.0018

0.0017

0.0016

0.0016

0.0015

0.0015

0.0014

0.0014

3.0

0.0013

0.0013

0.0013

0.0012

0.0012

0.0011

0.0011

0.0011

0.0010

0.0010

3.1

0.0010

0.0009

0.0009

0.0009

0.0008

0.0008

0.0008

0.0008

0.0007

0.0007

3.2

0.0007

0.0007

0.0006

0.0006

0.0006

0.0006

0.0006

0.0005

0.0005

0.0005

3.3

0.0005

0.0005

0.0005

0.0004

0.0004

0.0004

0.0004

0.0004

0.0004

0.0003

3.4

0.0003

0.0003

0.0003

0.0003

0.0003

0.0003

0.0003

0.0003

0.0003

0.0002

3.5

0.0002

0.0002

0.0002

0.0002

0.0002

0.0002

0.0002

0.0002

0.0002

0.0002

3.6

0.0002

0.0002

0.0001

0.0001

0.0001

0.0001

0.0001

0.0001

0.0001

0.0001

3.7

0.0001

0.0001

0.0001

0.0001

0.0001

0.0001

0.0001

0.0001

0.0001

0.0001

3.8

0.0001

0.0001

0.0001

0.0001

0.0001

0.0001

0.0001

0.0001

0.0001

0.0001

3.9

0.0000

0.0000

0.0000

0.0000

0.0000

0.0000

0.0000

0.0000

0.0000

0.0000

164


Estadística pràctica pas a pas

TAULA KHI QUADRAT TAULA KHI QUADRAT àrees a la dreta del punt 0.995

0.99

0.975

0.95

0.9

0.75

0.5

0.25

0.1

0.05

0.025

0.01

1

0.0

0.0

0.0

0.0

0.0

0.1

0.5

1.3

2.7

3.8

5.0

6.6

7.9

2

0.0

0.0

0.1

0.1

0.2

0.6

1.4

2.8

4.6

6.0

7.4

9.2

10.6

3

0.1

0.1

0.2

0.4

0.6

1.2

2.4

4.1

6.3

7.8

9.3

11.3

12.8

4

0.2

0.3

0.5

0.7

1.1

1.9

3.4

5.4

7.8

9.5

11.1

13.3

14.9

5

0.4

0.6

0.8

1.1

1.6

2.7

4.4

6.6

9.2

11.1

12.8

15.1

16.7

6

0.7

0.9

1.2

1.6

2.2

3.5

5.3

7.8

10.6

12.6

14.4

16.8

18.5

7

1.0

1.2

1.7

2.2

2.8

4.3

6.3

9.0

12.0

14.1

16.0

18.5

20.3

8

1.3

1.6

2.2

2.7

3.5

5.1

7.3

10.2

13.4

15.5

17.5

20.1

22.0

9

1.7

2.1

2.7

3.3

4.2

5.9

8.3

11.4

14.7

16.9

19.0

21.7

23.6

10

2.2

2.6

3.2

3.9

4.9

6.7

9.3

12.5

16.0

18.3

20.5

23.2

25.2

11

2.6

3.1

3.8

4.6

5.6

7.6

10.3

13.7

17.3

19.7

21.9

24.7

26.8

12

3.1

3.6

4.4

5.2

6.3

8.4

11.3

14.8

18.5

21.0

23.3

26.2

28.3

13

3.6

4.1

5.0

5.9

7.0

9.3

12.3

16.0

19.8

22.4

24.7

27.7

29.8

14

4.1

4.7

5.6

6.6

7.8

10.2

13.3

17.1

21.1

23.7

26.1

29.1

31.3

15

4.6

5.2

6.3

7.3

8.5

11.0

14.3

18.2

22.3

25.0

27.5

30.6

32.8

16

5.1

5.8

6.9

8.0

9.3

11.9

15.3

19.4

23.5

26.3

28.8

32.0

34.3

17

5.7

6.4

7.6

8.7

10.1

12.8

16.3

20.5

24.8

27.6

30.2

33.4

35.7

18

6.3

7.0

8.2

9.4

10.9

13.7

17.3

21.6

26.0

28.9

31.5

34.8

37.2

g. l. 19

6.8

7.6

8.9

10.1

11.7

14.6

18.3

22.7

27.2

30.1

32.9

36.2

38.6

20

7.4

8.3

9.6

10.9

12.4

15.5

19.3

23.8

28.4

31.4

34.2

37.6

40.0

21

8.0

8.9

10.3

11.6

13.2

16.3

20.3

24.9

29.6

32.7

35.5

38.9

41.4

22

8.6

9.5

11.0

12.3

14.0

17.2

21.3

26.0

30.8

33.9

36.8

40.3

42.8

23

9.3

10.2

11.7

13.1

14.8

18.1

22.3

27.1

32.0

35.2

38.1

41.6

44.2

24

9.9

10.9

12.4

13.8

15.7

19.0

23.3

28.2

33.2

36.4

39.4

43.0

45.6

25

10.5

11.5

13.1

14.6

16.5

19.9

24.3

29.3

34.4

37.7

40.6

44.3

46.9

26

11.2

12.2

13.8

15.4

17.3

20.8

25.3

30.4

35.6

38.9

41.9

45.6

48.3

27

11.8

12.9

14.6

16.2

18.1

21.7

26.3

31.5

36.7

40.1

43.2

47.0

49.6

28

12.5

13.6

15.3

16.9

18.9

22.7

27.3

32.6

37.9

41.3

44.5

48.3

51.0

29

13.1

14.3

16.0

17.7

19.8

23.6

28.3

33.7

39.1

42.6

45.7

49.6

52.3

30

13.8

15.0

16.8

18.5

20.6

24.5

29.3

34.8

40.3

43.8

47.0

50.9

53.7

40

20.7

22.2

24.4

26.5

29.1

33.7

39.3

45.6

51.8

55.8

59.3

63.7

66.8

50

28.0

29.7

32.4

34.8

37.7

42.9

49.3

56.3

63.2

67.5

71.4

76.2

79.5

60

35.5

37.5

40.5

43.2

46.5

52.3

59.3

67.0

74.4

79.1

83.3

88.4

92.0

70

43.3

45.4

48.8

51.7

55.3

61.7

69.3

77.6

85.5

90.5

95.0

100.4

104.2

80

51.2

53.5

57.2

60.4

64.3

71.1

79.3

88.1

96.6

101.9

106.6

112.3

116.3

90

59.2

61.8

65.6

69.1

73.3

80.6

89.3

98.6

107.6

113.1

118.1

124.1

128.3

100

67.3

70.1

74.2

77.9

82.4

90.1

99.3

109.1

118.5

124.3

129.6

135.8

140.2

165

0.005


Josep Maria Mateo Sanz

TAULA t DE STUDENT TAULA t DE STUDENT àrees a la dreta del punt

g. l.

0.45

0.4

0.3

0.25

0.2

0.1

0.05

0.025

0.01

0.005

1

0.16

0.32

0.73

1.00

1.38

3.08

6.31

12.71

31.82

63.66

2

0.14

0.29

0.62

0.82

1.06

1.89

2.92

4.30

6.96

9.92

3

0.14

0.28

0.58

0.76

0.98

1.64

2.35

3.18

4.54

5.84

4

0.13

0.27

0.57

0.74

0.94

1.53

2.13

2.78

3.75

4.60

5

0.13

0.27

0.56

0.73

0.92

1.48

2.02

2.57

3.36

4.03

6

0.13

0.26

0.55

0.72

0.91

1.44

1.94

2.45

3.14

3.71

7

0.13

0.26

0.55

0.71

0.90

1.41

1.89

2.36

3.00

3.50

8

0.13

0.26

0.55

0.71

0.89

1.40

1.86

2.31

2.90

3.36

9

0.13

0.26

0.54

0.70

0.88

1.38

1.83

2.26

2.82

3.25

10

0.13

0.26

0.54

0.70

0.88

1.37

1.81

2.23

2.76

3.17

11

0.13

0.26

0.54

0.70

0.88

1.36

1.80

2.20

2.72

3.11

12

0.13

0.26

0.54

0.70

0.87

1.36

1.78

2.18

2.68

3.05

13

0.13

0.26

0.54

0.69

0.87

1.35

1.77

2.16

2.65

3.01

14

0.13

0.26

0.54

0.69

0.87

1.35

1.76

2.14

2.62

2.98

15

0.13

0.26

0.54

0.69

0.87

1.34

1.75

2.13

2.60

2.95

16

0.13

0.26

0.54

0.69

0.86

1.34

1.75

2.12

2.58

2.92

17

0.13

0.26

0.53

0.69

0.86

1.33

1.74

2.11

2.57

2.90

18

0.13

0.26

0.53

0.69

0.86

1.33

1.73

2.10

2.55

2.88

19

0.13

0.26

0.53

0.69

0.86

1.33

1.73

2.09

2.54

2.86

20

0.13

0.26

0.53

0.69

0.86

1.33

1.72

2.09

2.53

2.85

21

0.13

0.26

0.53

0.69

0.86

1.32

1.72

2.08

2.52

2.83

22

0.13

0.26

0.53

0.69

0.86

1.32

1.72

2.07

2.51

2.82

23

0.13

0.26

0.53

0.69

0.86

1.32

1.71

2.07

2.50

2.81

24

0.13

0.26

0.53

0.68

0.86

1.32

1.71

2.06

2.49

2.80

25

0.13

0.26

0.53

0.68

0.86

1.32

1.71

2.06

2.49

2.79

26

0.13

0.26

0.53

0.68

0.86

1.31

1.71

2.06

2.48

2.78

27

0.13

0.26

0.53

0.68

0.86

1.31

1.70

2.05

2.47

2.77

28

0.13

0.26

0.53

0.68

0.85

1.31

1.70

2.05

2.47

2.76

29

0.13

0.26

0.53

0.68

0.85

1.31

1.70

2.05

2.46

2.76

30

0.13

0.26

0.53

0.68

0.85

1.31

1.70

2.04

2.46

2.75

40

0.13

0.26

0.53

0.68

0.85

1.30

1.68

2.02

2.42

2.70

60

0.13

0.25

0.53

0.68

0.85

1.30

1.67

2.00

2.39

2.66

120

0.13

0.25

0.53

0.68

0.84

1.29

1.66

1.98

2.36

2.62

#

0.13

0.25

0.52

0.67

0.84

1.28

1.64

1.96

2.33

2.58

166


Estadística pràctica pas a pas

TAULA F (àrea de 0.05 a la dreta) TAULA F (àrea de 0,05 a la dreta) g. l. 1

g. l. 2

1

2

3

4

5

6

7

8

9

10

12

15

20

24

30

40

60

120

1

161

199

216

225

230

234

237

239

241

242

244

246

248

249

250

251

252

253 254

2

18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 19.4 19.4 19.4 19.5 19.5 19.5 19.5 19.5 19.5

3

10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53

4

7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63

5

6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.37

6

5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67

7

5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23

8

5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93

9

5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71

10

4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54

11

4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40

12

4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30

13

4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21

14

4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13

15

4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07

16

4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01

17

4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96

18

4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92

19

4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88

20

4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84

21

4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81

22

4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78

23

4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76

24

4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73

25

4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71

26

4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69

27

4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67

28

4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65

29

4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.10 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64

30

4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62

40

4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51

60

4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39

#

120 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25 #

3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.10

167


Josep Maria Mateo Sanz

TAULA F (àrea de 0.025 a la dreta)

  g.l. 1 1

1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞ 648 799 864 900 922 937 948 957 963 969 977 985 993 997 1001 1006 1010 1014 1018

2

38.5 39.0 39.2 39.2 39.3 39.3 39.4 39.4 39.4 39.4 39.4 39.4 39.4 39.5 39.5 39.5 39.5 39.5 39.5

3

17.4 16.0 15.4 15.1 14.9 14.7 14.6 14.5 14.5 14.4 14.3 14.3 14.2 14.1 14.1 14.0 14.0 13.9 13.9

4

12.2 10.6 10.0 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.75 8.66 8.56 8.51 8.46 8.41 8.36 8.31 8.26

5

10.0 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62 6.52 6.43 6.33 6.28 6.23 6.18 6.12 6.07 6.02

6

8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.37 5.27 5.17 5.12 5.07 5.01 4.96 4.90 4.86

7

8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.67 4.57 4.47 4.41 4.36 4.31 4.25 4.20 4.15

8

7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.20 4.10 4.00 3.95 3.89 3.84 3.78 3.73 3.68

9

7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96 3.87 3.77 3.67 3.61 3.56 3.51 3.45 3.39 3.34

10

6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.62 3.52 3.42 3.37 3.31 3.26 3.20 3.14 3.09

11

6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 3.53 3.43 3.33 3.23 3.17 3.12 3.06 3.00 2.94 2.89

12

6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37 3.28 3.18 3.07 3.02 2.96 2.91 2.85 2.79 2.73

13

6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 3.25 3.15 3.05 2.95 2.89 2.84 2.78 2.72 2.66 2.60

14

6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15 3.05 2.95 2.84 2.79 2.73 2.67 2.61 2.55 2.50

15

6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06 2.96 2.86 2.76 2.70 2.64 2.59 2.52 2.46 2.40

16

6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05 2.99 2.89 2.79 2.68 2.63 2.57 2.51 2.45 2.38 2.32

g.l. 17 2 18

6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98 2.92 2.82 2.72 2.62 2.56 2.50 2.44 2.38 2.32 2.26

19

5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88 2.82 2.72 2.62 2.51 2.45 2.39 2.33 2.27 2.20 2.14

20

5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.68 2.57 2.46 2.41 2.35 2.29 2.22 2.16 2.09

21

5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80 2.73 2.64 2.53 2.42 2.37 2.31 2.25 2.18 2.11 2.05

22

5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76 2.70 2.60 2.50 2.39 2.33 2.27 2.21 2.14 2.08 2.01

23

5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73 2.67 2.57 2.47 2.36 2.30 2.24 2.18 2.11 2.04 1.98

24

5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70 2.64 2.54 2.44 2.33 2.27 2.21 2.15 2.08 2.01 1.94

25

5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68 2.61 2.51 2.41 2.30 2.24 2.18 2.12 2.05 1.98 1.91

26

5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.65 2.59 2.49 2.39 2.28 2.22 2.16 2.09 2.03 1.95 1.89

27

5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.63 2.57 2.47 2.36 2.25 2.19 2.13 2.07 2.00 1.93 1.86

28

5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.61 2.55 2.45 2.34 2.23 2.17 2.11 2.05 1.98 1.91 1.84

29

5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.59 2.53 2.43 2.32 2.21 2.15 2.09 2.03 1.96 1.89 1.82

30

5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.41 2.31 2.20 2.14 2.07 2.01 1.94 1.87 1.80

40

5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39 2.29 2.18 2.07 2.01 1.94 1.88 1.80 1.72 1.65

60

5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.17 2.06 1.94 1.88 1.82 1.74 1.67 1.58 1.49

5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93 2.87 2.77 2.67 2.56 2.50 2.44 2.38 2.32 2.26 2.20

120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.05 1.94 1.82 1.76 1.69 1.61 1.53 1.43 1.33 ∞

5.04 3.70 3.13 2.80 2.58 2.42 2.30 2.20 2.13 2.06 1.96 1.85 1.72 1.65 1.58 1.50 1.41 1.29 1.13

 

168


Estadística pràctica pas a pas

TAULA F (àrea de 0.01 a la dreta)

  g.l. 1 1

2

3

4

5

6

7

8

9

10

12

15

20

24

30

40

60

120

1

4052 4999 5404 5624 5764 5859 5928 5981 6022 6056 6107 6157 6209 6234 6260 6286 6313 6340 6363

2

98.5 99.0 99.2 99.3 99.3 99.3 99.4 99.4 99.4 99.4 99.4 99.4 99.4 99.5 99.5 99.5 99.5 99.5 99.5

3

34.1 30.8 29.5 28.7 28.2 27.9 27.7 27.5 27.3 27.2 27.1 26.9 26.7 26.6 26.5 26.4 26.3 26.2 26.1

4

21.2 18.0 16.7 16.0 15.5 15.2 15.0 14.8 14.7 14.5 14.4 14.2 14.0 13.9 13.8 13.7 13.7 13.6 13.5

5

16.3 13.3 12.1 11.4 11.0 10.7 10.5 10.3 10.2 10.1 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9.11 9.03

6

13.7 10.9 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 7.56 7.40 7.31 7.23 7.14 7.06 6.97 6.89

7

12.2 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.66

8

11.3 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.87

9

10.6 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 4.96 4.81 4.73 4.65 4.57 4.48 4.40 4.32

10

10.0 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.41 4.33 4.25 4.17 4.08 4.00 3.92

11

9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.40 4.25 4.10 4.02 3.94 3.86 3.78 3.69 3.61

12

9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.37

13

9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.96 3.82 3.66 3.59 3.51 3.43 3.34 3.25 3.18

14

8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94 3.80 3.66 3.51 3.43 3.35 3.27 3.18 3.09 3.02

15

8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.96 2.88

16

8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.55 3.41 3.26 3.18 3.10 3.02 2.93 2.84 2.76

g.l. 17 2 18

8.40 6.11 5.19 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.46 3.31 3.16 3.08 3.00 2.92 2.83 2.75 2.66

19

8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.30 3.15 3.00 2.92 2.84 2.76 2.67 2.58 2.50

20

8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.86 2.78 2.69 2.61 2.52 2.43

21

8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.17 3.03 2.88 2.80 2.72 2.64 2.55 2.46 2.37

22

7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.12 2.98 2.83 2.75 2.67 2.58 2.50 2.40 2.32

23

7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 2.27

24

7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.31 2.22

25

7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 3.13 2.99 2.85 2.70 2.62 2.54 2.45 2.36 2.27 2.18

26

7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09 2.96 2.81 2.66 2.58 2.50 2.42 2.33 2.23 2.14

27

7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.15 3.06 2.93 2.78 2.63 2.55 2.47 2.38 2.29 2.20 2.11

28

7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 3.03 2.90 2.75 2.60 2.52 2.44 2.35 2.26 2.17 2.08

29

7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09 3.00 2.87 2.73 2.57 2.49 2.41 2.33 2.23 2.14 2.05

30

7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.70 2.55 2.47 2.39 2.30 2.21 2.11 2.02

40

7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.66 2.52 2.37 2.29 2.20 2.11 2.02 1.92 1.82

60

7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.35 2.20 2.12 2.03 1.94 1.84 1.73 1.62

8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51 3.37 3.23 3.08 3.00 2.92 2.84 2.75 2.66 2.58

120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2.34 2.19 2.03 1.95 1.86 1.76 1.66 1.53 1.40 ∞

6.66 4.63 3.80 3.34 3.04 2.82 2.66 2.53 2.43 2.34 2.20 2.06 1.90 1.81 1.72 1.61 1.50 1.35 1.16

 

169


Josep Maria Mateo Sanz

 

  

TAULA DE KOLMOGOROVSMIRNOV

 

TAULA DE KOLMOGOROVSMIRNOV-LILLIEFORS

           n 0.1  0.1 = 0.1  0.05 = 0.05  0.01 = 0.01 n n n  = 0.1  = 0.05  = 0.01 1 0.44 1 0.95 0.975 0.995 1 0.445 0.486 0.562 1 0.95 0.975 0.995 2 0.40 0.776 0.842 0.929 2 2 0.408 0.446 0.516 2 0.776 0.842 0.929 3 0.37 0.636 0.708 0.829 3 3 0.37 0.404 0.468 3 0.636 0.708 0.829 4 0.33 0.565 0.624 0.734 4 4 0.339 0.371 0.429 4 0.565 0.624 0.734 5 0.31 0.509 0.563 0.669 5 5 0.314 0.343 0.397 5 0.509 0.563 0.669 6 0.29 0.468 0.519 0.617 6 6 0.294 0.321 0.371 6 0.468 0.519 0.617 7 0.27 0.436 0.483 0.576 7 7 0.277 0.303 0.35 7 0.436 0.483 0.576 8 0.26 8 0.41 0.454 0.542 8 0.263 0.287 0.332 8 0.41 0.454 0.542 9 0.25 9 0.387 0.43 0.513 9 0.25 0.273 0.316 9 0.387 0.43 0.513 10 0.23 0.369 0.409 0.489 10 10 0.239 0.262 0.303 10 0.369 0.409 0.489 11 0.23 0.352 0.0391 0.468 11 11 0.23 0.251 0.29 11 0.352 0.0391 0.468 12 0.22 0.338 0.375 0.449 12 12 0.221 0.242 0.28 12 0.338 0.375 0.449 13 0.21 0.325 0.361 0.432 13 13 0.214 0.234 0.27 13 0.325 0.361 0.432 14 0.20 0.314 0.349 0.418 14 14 0.207 0.226 0.261 14 0.314 0.349 0.418 15 0.20 15 0.304 0.338 0.404 15 0.201 0.219 0.254 15 0.304 0.338 0.404 16 0.19 16 0.295 0.327 0.392 16 0.195 0.213 0.245 16 0.295 0.327 0.392 17 0.19 0.286 0.318 0.381 17 17 0.19 0.207 0.24 17 0.286 0.318 0.381 18 0.18 0.279 0.309 0.371 18 18 0.185 0.202 0.233 18 0.279 0.309 0.371 19 0.18 0.271 0.301 0.361 19 19 0.18 0.197 0.228 19 0.271 0.301 0.361 20 0.17 0.265 0.294 0.352 20 20 0.176 0.192 0.222 20 0.265 0.294 0.352 21 0.17 0.259 0.287 0.344 21 21 0.172 0.188 0.218 21 0.259 0.287 0.344 22 0.16 22 0.253 0.281 0.337 22 0.168 0.184 0.213 22 0.253 0.281 0.337 23 0.16 23 0.247 0.275 0.33 23 0.165 0.18 0.209 23 0.247 0.275 0.33 24 0.16 0.242 0.269 0.323 24 24 0.162 0.177 0.204 24 0.242 0.269 0.323 25 0.15 0.238 0.264 0.317 25 25 0.159 0.173 0.201 25 0.238 0.264 0.317 26 0.15 0.233 0.259 0.311 26 26 0.156 0.17 0.197 26 0.233 0.259 0.311 27 0.15 0.229 0.254 0.305 27 27 0.153 0.167 0.193 27 0.229 0.254 0.305 28 0.15 0.225 0.25 0.3 28 28 0.15 0.164 0.19 28 0.225 0.25 0.3 29 0.14 29 0.221 0.246 0.295 29 0.148 0.162 0.187 29 0.221 0.246 0.295 30 0.14 0.218 0.242 0.29 30 30 0.146 0.159 0.184 30 0.218 0.242 0.29 31 0.14 0.214 0.238 0.285 31 31 0.143 0.157 0.181 31 0.214 0.238 0.285 32 0.14 0.211 0.234 0.281 32 32 0.141 0.154 0.179 32 0.211 0.234 0.281 33 0.13 0.208 0.231 0.277 33 33 0.139 0.152 0.176 33 0.208 0.231 0.277 34 0.13 0.205 0.227 0.273 34 34 0.137 0.15 0.173 34 0.205 0.227 0.273 35 0.13 0.202 0.224 0.269 35 35 0.135 0.148 0.171 35 0.202 0.224 0.269 36 0.13 36 0.199 0.221 0.265 36 0.134 0.146 0.169 36 0.199 0.221 0.265 37 0.13 37 0.196 0.218 0.262 37 0.132 0.144 0.167 37 0.196 0.218 0.262 38 0.13 0.194 0.215 0.258 38 38 0.13 0.142 0.164 38 0.194 0.215 0.258 39 0.12 0.191 0.213 0.255 39 39 0.129 0.14 0.162 39 0.191 0.213 0.255 40 0.12 0.189 0.21 0.252 40 40 0.127 0.139 0.16 40 0.189 0.21 0.252           >40 >40>40 >40              

170


L’objectiu principal d’aquest material és proporcionar als estudiants universitaris una eina que permeti consultar clarament i ràpidament com es pot aplicar de manera pràctica la teoria relacionada amb qualsevol dels continguts que formen part d’un curs bàsic d’estadística de nivell universitari. Per tal d’afavorir l’aprenentatge, s’explica pas a pas, i usant exemples, quan i com es poden aplicar aquestes tècniques estadístiques. També es comenta quines són les funcions i les eines estadístiques d’Excel.


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.