VBTL 6 D-gevorderde wiskunde - Leerboek Statistiek - inkijk methode

Page 1

Statistiek

D-finaliteit gevorderde wiskunde

Philip Bogaert

Filip Geeurickx

Marc Muylaert

Roger Van Nieuwenhuyze

Erik Willockx

CARTOONS

Dave Vanroye LEERBOEK

Dit boek bevat vijf hoofdstukken.

Elk hoofdstuk is opgebouwd uit verschillende paragrafen met aan het einde een handige samenvatting.

Definities vind je op een rode achtergrond. Eigenschappen vind je op een groene achtergrond. Methodes, rekenregels en formules vind je op een zachtblauwe achtergrond.

Wiskunde is een eeuwenoude wetenschap. De geschiedenis van de wiskunde en de herkomst van bepaalde begrippen worden zachtpaars afgedrukt.

Wiskunde kent veel links met andere vakken We tonen zo’n link in een paarsgekleurd kadertje.

1 Beschrijvende statistiek 1.1 Instap  Begrippen uit de beschrijvende statistiek  10 Representativiteit  1.4 Randomisatie  23 Verschil tussen samenhang en Variabiliteit  Paradox van Simpson  Geschiedenis van de statistiek  2 De normale verdeling 2.1 Histogrammen dichtheidskrommen  47 Normale verdelingen  2.3 Grafische betekenis van 55 De standaardnormale verdeling  2.5 Toepassingen  65 3 Kansverdelingen en toevalsveranderlijken 3.1 Toevalsveranderlijken  89 toevalsveranderlijken  110 4 Discrete verdelingen 4.1 De binomiale verdeling  125 Andere discrete verdelingen  4.3 De poissonverdeling  147 Algemeen overzicht  4.5 De centrale limietstelling  160 5 Betrouwbaarheidsintervallen en toetsen van hypothesen Betrouwbaarheidsinterval voor gekend)  5.2 Betrouwbaarheidsinterval voor 187 Toetsen van hypothesen  Bijlagen  Oplossingen  Trefwoordenregister  236 Statistiek
Hoe gebruik je VBTL ?
de samenstelling van de bevolking, eigendommen en inkomsten, het bedrag van geïnde belastingen, het aantal weerbare mannen (geschikt om oorlog te voeren), het aantal vaklui en werktuigen, het aantal stuks vee ... Dergelijke informatie kon je verkrijgen door eenvoudigweg te tellen, wat al in de tijd van de Romeinen gebruikelijk was. Bekend is In de 11e eeuw liet Willem de Veroveraar in Engeland het Domesday Book opstellen. In dat boek werd de verdeling van de bevolking over de verschillende standen weergegeven, maar ook de verdeling van de veestapel en van de landbouwgronden werd er keurig in genoteerd. Historici halen daar vandaag nog waardevolle Ook nu komen er nog tellingen voor. Zo vindt er bij ons in België om de tien jaar een volkstelling plaats de allereerste was er al in 1846. Statbel, het Belgische statistiekbureau (statbel.fgov.be). Jaar 1 10 66 Geschiedenis van de statistiek Statistiek omvat de wetenschap, de methodiek en de techniek van het verzamelen, bewerken en interpreteren van gegevens in verband met massaverschijnselen. – Een steekproef opstellen. – De gegevens van de steekproef verzamelen, rangschikken en samenvatten. beschrijvende statistiek – Op basis van die steekproef besluiten trekken omtrent de hele populatie.
2 Steekproef versus populatie Karakteristieken die we berekenen op basis van een steekproef noemen we (toevals)variabelen Die getallen zijn niet absoluut want een andere steekproef kan andere waarden voor die opleveren. Indien we karakteristieken van de volledige populatie berekenen, spreken we van parameters Parameters zijn constanten die iets zeggen over de hele populatie. Cijfers van een of andere rijksdienst of van de Algemene Directie Statistiek zijn vaak parameters het percentage werklozen in Vlaanderen, de verdeling van de schoolgaande jeugd over de verschillende Cijfers afkomstig van een enquête zijn altijd toevalsvariabelen. Afspraken: Voor karakteristieken gebaseerd op steekproefresultaten gebruiken we kleine letters ishet gemiddelde vaneensteekproef isde variantie vaneensteekproef standaardafwijking opbasisvaneensteekproef steekproefgemiddelde en steekproefvariantie gemiddelde: voorgegroepeerdegegevens: 1 isdegroottevandesteekproef voorgegroepeerdegegevens: Voor de karakteristieken van een populatie gebruiken we Griekse letters is de standaardafwijking op basis van de hele populatie met N :groottepopulatie

1 2 *

De nummers van de oefeningen hebben een gele kleur. Een sterretje duidt op een extra uitdaging. Maak ook kennis met voorbeeldvragen uit ijkingstoetsen en toelatingsexamens.

Achteraan in dit boek vind je de oplossingen

ICT is een ideaal hulpmiddel.

Bij dit boek hoort een webpagina van GeoGebra, gevuld met heel wat digitale oefeningen en applets.

Die vind je terug via www.polpo.be.

Wat moet je kennen en kunnen ?

Op het einde van elk hoofdstuk zie je een handig overzicht van wat je moet kennen en kunnen

WAT MOET JE KENNEN EN KUNNEN Beschrijvende statistiek 1 pagina Ik weet wat een enkelvoudige aselecte steekproef is. Ik ken de definitie van verschillende centrummaten zoals modus, mediaan en gemiddelde. 15 Ik ken de definitie van verschillende spreidingsmaten zoals spreidingsbreedte, kwartielafstand en standaardafwijking. 18 Ik weet wat representativiteit van een steekproef betekent. Ik ken enkele technieken om een representatieve steekproef te bekomen. Ik weet wat randomisatie betekent. 23 Ik ken het verschil tussen samenhang en causaliteit. Ik weet wat variabiliteit van een steekproef betekent. 26
5,39% van de pakken koffie bevat (bij benadering) kg. 77,65% van de pakken koffie weegt tussen 1000 g en 1010 g. 13,71% van de pakken koffie bevat minder dan 1 kg.
Oplossingen Oplossingen 1 Beschrijvende statistiek 64,58 km/h 12,96 km/h 2 d 65 gram Q 59 gram Q 76 gram 67,06 gram 12,47 gram 3 d Q 71,25 Q 83 Q 92 84,34 18,92 h 20,9% 4 d Q 4,76 m Q 5,15 m Q 5,43 m 5,08 0,56 m 50 g 4,12% 5 d Q 21,75 jaar Q 26 jaar Q 30 jaar 25,66 jaar 5,46 jaar De partij wordt goedgekeurd. b 14,94 euro 3,74 euro symmetrie rond klasse 61 is een uitschieter (lekke band van Raf). 35,63 minuten zonder uitschieter 35,20 minuten 11 8 leerlingen b 31 500 euro steekproef populatie populatie populatie steekproef populatie b de smaak van ijs 600 (willekeurig) gekozen personen b getrapt aselect aselect met randomgetallen leeftijd 12 jaar 13 – 18 jaar 30 jaar en ouder + 1 lid aselect te kiezen

Statistiek is de wetenschap van het verzamelen, ordenen en interpreteren van gegevens. In het dagelijkse leven kom je voortdurend data, statistieken en resultaten van statistische gegevens tegen. Met kennis en inzicht in de statistische wetenschap ben je beter in staat om daarmee om te gaan en kun je ze op hun (on)waarde taxeren.

De deductieve of beschrijvende statistiek is het deel van de statistiek dat verzamelde data, afkomstig van een steekproef of van de populatie, probeert samen te vatten in een beknopte weergave om globale patronen en kenmerken te ontdekken.

De inductieve statistiek bestaat enerzijds uit de verklarende statistiek en anderzijds uit de inferentiële statistiek. Verklarende statistiek maakt gebruik van de kansrekening ; inferentiële statistiek probeert algemene uitspraken binnen een zeker betrouwbaarheidsniveau te formuleren over de gehele populatie, op basis van een beperkt aantal gegevens : de steekproef.

Inhoud
1 Beschrijvende statistiek 1.1 Instap  9 1.2 Begrippen uit de beschrijvende statistiek  10 1.3 Representativiteit  19 1.4 Randomisatie  23 1.5 Verschil tussen samenhang en causaliteit  24 1.6 Variabiliteit  26 1.7 Paradox van Simpson  29 Geschiedenis van de statistiek  40 2 De normale verdeling 2.1 Histogrammen – dichtheidskrommen  47 2.2 Normale verdelingen  49 2.3 Grafische betekenis van μ en σ 55 2.4 De standaardnormale verdeling  56 2.5 Toepassingen  65 3 Kansverdelingen en toevalsveranderlijken 3.1 Toevalsveranderlijken  89 3.2 Rekenregels voor toevalsveranderlijken  110 4 Discrete verdelingen 4.1 De binomiale verdeling  125 4.2 Andere discrete verdelingen  138 4.3 De poissonverdeling  147 4.4 Algemeen overzicht  157 4.5 De centrale limietstelling  160 5 Betrouwbaarheidsintervallen en toetsen van hypothesen 5.1 Betrouwbaarheidsinterval voor μ (σ gekend)  182 5.2 Betrouwbaarheidsinterval voor p 187 5.3 Toetsen van hypothesen  201 Bijlagen  223 Oplossingen  225 Trefwoordenregister  235
Statistiek

Beschrijvende statistiek 1

Hier komt het introductie tekstje.

Witregels worden manueel ingegeven.

Wiskunde wordt aan de lopende band gebruikt in het dagelijkse leven. Na het plukken van de appelen in de boomgaard worden die verwerkt. Sommige worden ‘premium’ ingepakt per 6, andere worden in bulk aangeboden en de vruchten die te veel afwijken van het ideale profiel verdwijnen in appelsap. Zullen we aan de hand van gezonde Belgische appelen onze tanden zetten in de basisbegrippen van de statistiek ?

0
Hoofdstuktitel
8
1.1 Instap 9 1.2 Begrippen uit de beschrijvende statistiek 1 Voorbeeld  10 2 Histogram en ogief  11 3 Uitwerking met GeoGebra  14 4 Centrummaten  15 5 Spreidingsmaten  18 1.3 Representativiteit 1 Inleiding  19 2 Aselect met randomgetallen  20 3 Gestratificeerd aselect  20 4 Getrapt aselect  20 5 Systematisch met aselect begin  21 6 Steekproeffouten  21 7 Uitschieters  21 1.4 Randomisatie 23 1.5 Verschil tussen samenhang en causaliteit 1 Samenhang of causaliteit  24 2 Valkuil : een derde variabele  25 1.6 Variabiliteit 1 Voorbeeld  26 2 Steekproef versus populatie  28 1.7 Paradox van Simpson 29 1.8 Samenvatting en oefeningen 1 Samenvatting  30 2 Oefeningen  32 Geschiedenis van de statistiek 40 Wat moet je kennen en kunnen ? 44 1
Beschrijvende statistiek

1.1 Instap

Een frisdrankfabrikant wil zijn machinepark renoveren en doet daarom een test met twee types vulmachines.

Hij laat beide types 40 flessen frisdrank van 1 liter vullen en meet nadien de inhoud van elke fles tot op één milliliter nauwkeurig. De resultaten vind je in de onderstaande grafieken.

Welk type vulmachine is het best ?

– Bij vulmachine A zijn er slechts 6 flessen die 1 liter frisdrank bevatten.

– Bij vulmachine B bevat meer dan de helft van de flessen de gevraagde liter frisdrank.

De fabrikant zou nu van beide reeksen van 40 flessen de gemiddelde inhoud kunnen berekenen.

Voor vulmachine A is dat 993 ml, voor vulmachine B juist 1000 ml of 1 liter. Een gemiddelde berekenen is een manier om een reeks waarnemingen in één getal samen te vatten. We noemen het gemiddelde dan ook een centrummaat omdat ze centraal gelegen is. Ken je nog andere centrummaten ?

Wanneer we de reeksen iets nauwkeuriger bekijken, zien we dat het verschil tussen de hoogste waarde en de laagste waarde bij vulmachine B veel groter is dan bij vulmachine A. Het verschil tussen de hoogste en de laagste waarde noemen we de variatiebreedte. De variatiebreedte is een van de spreidingsmaten die je in de tweede graad al hebt geleerd. Ken je nog andere ?

De laagste waarde bij vulmachine B is wel zeer laag, namelijk 955 ml. Een extreem lage waarde noemen we een uitbijter, een extreem hoge waarde noemen we een uitschieter

De vraag die we ons moeten stellen, is: moeten we rekening houden met die extreme waarden of niet ?

Die waarden beïnvloeden immers het gemiddelde en de variatiebreedte.

De lage waarde zou het resultaat kunnen zijn van een verkeerde meting of van het verkeerd noteren van het waarnemingsresultaat. In een dergelijk geval moet je de uitbijter inderdaad verwijderen. Anderzijds kan die waarneming ook juist zijn en kan die kleine vulinhoud te wijten zijn aan het slecht functioneren van de vulmachine wegens bijvoorbeeld een plaatselijke verstopping. In dat geval moet de waarde opgenomen worden in de statistische verwerking.

Kortom, uitbijters en uitschieters mag je niet zomaar verwijderen uit een reeks waarnemingen zonder verder onderzoek naar het waarom van die extreme waarde.

Ozon

Toen het gat in de ozonlaag boven de Zuidpool rond 1985 werd ontdekt, bleek dat dit fenomeen al 10 jaar lang trouw opgemeten werd, maar dat die lage ozonconcentraties stelselmatig als foutieve metingen door een statistisch computerprogramma werden verwijderd.

9 1 Beschrijvende statistiek
vulmachine A 1020 1010 1000 990 980 970 960 0 vulmachine B 1020 1010 1000 990 980 970 960 0

1.2 Begrippen uit de beschrijvende statistiek

1 Voorbeeld

Om zijn appels te kunnen indelen in groot (zwaar) en klein (licht) besluit een fruitboer om de pluk van vandaag van een van zijn bomen te wegen. Er worden 72 appels gewogen, de resultaten (in gram) zijn de volgende :

enkelvoudige aselecte steekproef

Studietip : Het is nuttig om de voornaamste begrippen van de statistiek te herhalen.

Al de appels van één appelboom vormen samen de populatie appels van die boom. Al de appels van alle appelbomen uit de boomgaard samen vormen de populatie appels van de fruitteler. De 72 gewogen appels vormen één steekproef uit die populatie. Omdat we mogen veronderstellen dat de fruitteler totaal willekeurig een appelboom uit de boomgaard heeft gekozen en de gewogen appels totaal willekeurig zijn geplukt, spreken we van een enkelvoudige aselecte steekproef. De 72 metingen van de massa van een appel noteren we als x1, x2, x3, … , x72 en noemen we de waarnemingen. Samen vormen ze de data van de steekproef.

Een enkelvoudige aselecte steekproef met grootte n is een steekproef van n eenheden uit de populatie die zo gekozen is dat elke andere steekproef van n eenheden uit die populatie evenveel kans heeft om gekozen te worden. We gebruiken voor ‘enkelvoudige aselecte steekproef’ de afkorting EAS.

Je vindt ze terug in VBTL 3/4 STATISTIEK

316 294 278 219 281 269 344 282 266 254 205 221 312 293 355 298 325 251 303 232 264 325 321 221 242 268 252 273 352 273 288 332 302 222 245 295 241 304 316 328 285 276 282 202 244 272 248 242 314 336 220 291 251 231 199 317 179 279 234 302 298 238 248 237 237 249 280 132 252 242 259 278

2 Histogram en ogief

Om de massa van de appels grafisch voor te stellen, verdelen we de gevonden waarnemingen in klassen. De lichtste appel weegt 132 gram, de zwaarste 355 gram. Als klassenbreedte nemen we 20 gram en als beginklasse [ 120, 140[ . De grenzen van de intervallen noemen we klassengrenzen

Opmerkingen:

– Bij een groot aantal waarnemingen of als precieze gegevens van minder belang zijn, kun je gegevens in klassen indelen. Dat laat je toe waarnemingen te groeperen en geeft ook een beter overzicht.

De klassenbreedte is de afstand tussen de twee grenzen van een klasse. In veel gevallen is de klassenbreedte van alle klassen gelijk, maar dat hoeft niet altijd zo te zijn.

– De beginklasse is de eerste klasse waarbij de frequentie niet nul is.

Frequenties van waarnemingen kun je absoluut of relatief noteren :

• De absolute frequentie is het aantal keer dat een bepaalde waarneming voorkomt.

• De relatieve frequentie is de verhouding van de absolute frequentie tot het totale aantal ( n )

Soms wordt de relatieve frequentie in percentages uitgedrukt.

– Met een frequentietabel geef je een overzicht van de absolute en/of relatieve frequenties. –

Om onderscheid te kunnen maken, krijgen de klassen een volgnummer of index i .

11 1 Beschrijvende statistiek
index i klasse klassenmidden absolute frequentie n i relatieve frequentie f i = n i n 1 [ 120, 140[ 130 1 1,4% 2 [ 140, 160[ 150 0 0,0% 3 [ 160, 180[ 170 1 1,4% 4 [ 180, 200[ 190 1 1,4% 5 [ 200, 220[ 210 3 4,2% 6 [ 220, 240[ 230 10 13,9% 7 [ 240, 260[ 250 15 20,8% 8 [ 260, 280[ 270 11 15,3% 9 [ 280, 300[ 290 12 16,7% 10 [ 300, 320[ 310 9 12,5% 11 [ 320, 340[ 330 6 8,3% 12 [ 340, 360[ 350 3 4,2% n = 72

a Histogram

Grafisch kun je waarnemingen voorstellen door middel van een histogram. Je start met een klassenindeling op de x -as waarbij elk interval de basis (= de breedte) vormt van een rechthoek. De hoogte (= de lengte) van de rechthoek is zodanig dat de oppervlakte van de rechthoek evenredig is met het aantal waarnemingen in de klasse waarop die rechthoek staat. Zijn alle klassen even breed, dan kun je als hoogte de absolute of relatieve frequentie nemen.

Voorbeeld :

12
16 14 12 10 8 6 4 2 0 130 150 170 190 210 230 250 270 290 310 330 350 Een andere beginklasse of een andere klassenbreedte leidt tot een ander histogram.
klassenbreedte
25 gram, beginklasse [ 125, 150[ klasse klassenmidden absolute frequentie [ 125, 150[ 137,5 1 [ 150, 175[ 162,5 0 [ 175, 200[ 187,5 2 [ 200, 225[ 212,5 7 [ 225, 250[ 237,5 15 [ 250, 275[ 262,5 13 [ 275, 300[ 287,5 16 [ 300, 325[ 312,5 10 [ 325, 350[ 337,5 6 [ 350, 375[ 362,5 2 18 16 14 12 10 8 6 4 2 0 112,5 137,5 162,5 187,5 212,5 237,5 262,5 287,5 312,5 337,5 362,5 387,5
=

b Frequentiekromme of frequentiepolygoon

Verbinden we de opeenvolgende middens van de bovenzijden van de rechthoeken van het histogram door middel van lijnstukken, dan ontstaat de frequentiepolygoon

We hebben de gewoonte om aan beide zijden nog een klasse met frequentie 0 toe te voegen, zodat de polygoon begint en eindigt op de x -as. We kunnen ofwel een gebroken lijn, ofwel een vloeiende lijn tekenen. We spreken dan respectievelijk van een frequentiepolygoon of een frequentiekromme.

c Ogief of sompolygoon

Soms zijn we niet enkel geïnteresseerd in de mate waarin de waarnemingen in klassen verdeeld zijn, maar willen we ook weten hoe vaak een waarneming ‘groter dan …’ of ‘kleiner dan …’ een bepaalde waarde is.

Hoeveel appels wogen minder dan 200 gram ?

Welk percentage appels woog meer dan 300 gram ?

In dat geval zijn cumulatieve (absolute of relatieve) frequenties handiger.

De grafische voorstelling van cumulatieve frequenties gebeurt meestal met een ogief of sompolygoon. Om een ogief te tekenen, ga je als volgt te werk :

– Start met een klassenindeling op de x -as.

– Zet bij de rechtergrens van elke klasse de cumulatieve (absolute of relatieve) frequentie uit.

– Verbind de opeenvolgende punten met lijnstukken.

Bij de linkergrens van de eerste klasse is de cumulatieve frequentie nul.

13 1 Beschrijvende statistiek
index i klasse klassenmidden absolute frequentie n i relatieve frequentie f i = n i n cumulatieve absolute frequentie cn i cumulatieve relatieve frequentie cf i = cn i n 1 [ 120, 140[ 130 1 1,4% 1 1,4% 2 [ 140, 160[ 150 0 0,0% 1 1,4% 3 [ 160, 180[ 170 1 1,4% 2 2,8% 4 [ 180, 200[ 190 1 1,4% 3 4,2% 5 [ 200, 220[ 210 3 4,2% 6 8,3% 6 [ 220, 240[ 230 10 13,9% 16 22,2% 7 [ 240, 260[ 250 15 20,8% 31 43,1% 8 [ 260, 280[ 270 11 15,3% 42 58,3% 9 [ 280, 300[ 290 12 16,7% 54 75,0% 10 [ 300, 320[ 310 9 12,5% 63 87,5% 11 [ 320, 340[ 330 6 8,3% 69 95,8% 12 [ 340, 360[ 350 3 4,2% 72 100%
16 14 12 10 8 6 4 2 0 110 130 150 170 190 210 230 250 270 290 310 330 350 370 80 70 60 50 40 30 20 10 0 110 130 150 170 190 210 230 250 270 290 310 330 350 0 1 1 2 3 6 16 31 42 54 63 69 72

3 Uitwerking met GeoGebra

We brengen de gegevens in het rekenblad van GeoGebra in. Nadien selecteren we de gegevens en klikken we in de werkbalk op het icoontje onderzoek één variabele. Vervolgens kiezen we voor analyseer en dan voor histogram

We krijgen dan het volgende te zien :

Vervolgens klikken we op het kleine icoontje voor opties en vinken we bepaal manueel de klassengrenzen aan. We kiezen dan als start 120 en als breedte 20.

Als je dan ook frequentietabel en frequentiepolygoon aanvinkt, dan krijg je dit scherm :

We krijgen dan volgend histogram :

Om het ogief te krijgen, wordt cumulatief aangevinkt.

Je merkt ook dat de cumulatieve absolute frequenties worden weergegeven in de frequentietabel.

14

4 Centrummaten

Statistische gegevens worden vaak samengevat in een paar karakteristieke getallen. Je kunt dan data met elkaar vergelijken als ze in dezelfde dimensie staan.

Met centrummaten probeer je het ‘midden’ van een verdeling aan te geven. Een centrummaat is een getal waarrond de waarnemingen zich situeren.

a Modus en mediaan

De modus (mo) van een serie waarnemingsgetallen is het getal met de grootste absolute frequentie.

De mediaan (me) is het middelste waarnemingsgetal nadat alle waarnemingsgetallen naar grootte zijn gerangschikt. Bij een even aantal waarnemingen neem je voor de mediaan het gemiddelde van de middelste. 50% van de waarnemingsgetallen is kleiner dan de mediaan, 50% is groter.

De mediaan van de getallen die kleiner zijn dan de mediaan, is het eerste kwartiel.

van de waarnemingen is kleiner dan het eerste kwartiel.

mediaan van de getallen die groter zijn dan de mediaan, is het derde kwartiel

van de waarnemingen is groter dan het derde kwartiel.

Een boxplot is een grafische voorstelling van die gegevens.

Merk op dat je bij de berekening van de kwartielen met ICT resultaten krijgt die soms licht afwijken van elkaar.

15 1 Beschrijvende statistiek
132 179 199 202 205 219 220 221 221 222 231 232 234 237 237 238 241 242 242 242 244 245 248 248 249 251 251 252 252 254 259 264 266 268 269 272 273 273 276 278 278 279 280 281 282 282 285 288 291 293 294 295 298 298 302 302 303 304 312 314 316 316 317 321 325 325 328 332 336 344 352 355 Mediaan : me = 272 + 273 2 = 272,5
25%
25%
132 179 199 202 205 219 220 221 221 222 231 232 234 237 237 238 241 242 242 242 244 245 248 248 249 251 251 252 252 254 259 264 266 268 269 272 273 273 276 278 278 279 280 281 282 282 285 288 291 293 294 295 298 298 302 302 303 304 312 314 316 316 317 321 325 325 328 332 336 344 352 355 Eerste kwartiel : Q1 = 242 + 242 2 = 242 Derde kwartiel : Q3 = 298 + 302 2 = 300
De

b Gemiddelde

Het gemiddelde is de som van alle waarnemingsgetallen, gedeeld door het totale aantal waarnemingen.

Tijdens de Gentse feesten verkopen twee markt- kramers elk 60 T-shirts. De ene verkoopt ze voor € 5 per stuk, bij de andere

De verdwenen 20 euro van onze redactieVBTL

betaal je € 10 voor 3 stuks. Op het einde van de dag hebben ze samen

€ 300 + € 200 = € 500. Gemiddeld verkopen ze

Eigenschappen van het gemiddelde

Voorbeeld 2 :

Ze besluiten de volgende dag samen te werken en de T-shirts te verkopen tegen € 8 voor twee stuks. Aan het eind van de dag zijn alle 120 T-shirts verkocht en de opbrengst blijkt € 480 te zijn. Ze gaan op zoek naar de ontbrekende € 20 en beschuldigen elkaar van diefstal.

De volgende dag staan ze weer elk apart aan hun kraam… Wat ging er fout?

Voorbeeld 1 :

Als de gemiddelde massa van een aantal pakjes koffie, gewogen in kg, gelijk is aan 0,254 kg, dan zal de gemiddelde massa van die pakjes koffie gewogen in gram, 254 gram zijn.

M.a.w. we hebben elke waarneming en dus ook het gemiddelde vermenigvuldigd met factor 1000.

De resultaten van een examen aardrijkskunde kunnen zowel op 100 als op 20 gequoteerd worden.

Uit deze tabel blijkt dat als je de waarnemingen deelt door 5, ook het gemiddelde gedeeld wordt door 5.

Als alle waarnemingen xi met een factor a worden vermenigvuldigd, dan wordt het gemiddelde met dezelfde factor vermenigvuldigd.

in symbolen: ax = a x

16
x
x n n = 1 n n i = 1 x i
x =
1 + x 2 + +
Inhetvoorbeeldis x = 269,66...
Bewijs
ax
1 n n i = 1 (ax i ) = 1 n (ax 1 + ax 2 + + ax n ) = a n ( x 1 + x 2 + + x n ) = a 1 n ( x 1 + x 2 + + x n ) = a x test aardrijkskunde resultaat op 100 resultaat op 20 97,5 19,5 Emma 95,0 19,0 Simon 90,0 18,0 Robbe 85,0 17,0 Sofie 72,5 14,5 Laura 67,5 13,5 Thomas 60,0 12,0 Tuur 52,5 10,5 Lise 77,5 15,5 gemiddelde : 5 : 5
:
=

Als bij alle waarnemingen xi een vaste waarde b wordt opgeteld, dan is het nieuwe gemiddelde gelijk aan het oude gemiddelde vermeerderd met de term b

in symbolen: x + b = x + b

Bewijs : x + b = 1 n n i = 1 ( x i + b )

= 1 n ( x 1 + b + x 2 + b + + x n + b )

= 1 n ( x 1 + x 2 + + x n )+ 1 n ( b + b + b + + b )

n termen

= x + 1 n nb = x + b

Voorbeeld :

Het gemiddelde maandloon in een firma bedraagt 2317 euro.

Omdat de firma het voorbije kwartaal een uitzonderlijke omzet heeft gerealiseerd, krijgt elke werknemer deze maand een bonus van 125 euro.

Bereken het gemiddelde maandloon voor deze maand.

x nieuw =(2317 + 125) euro = 2442euro

Opmerking :

De vorige twee eigenschappen kunnen we symbolisch samenvatten als:

Voorbeeld :

Een verzekeringsbureau is van plan de brandverzekeringspremies te verhogen. Elke premie wordt 2% duurder en wordt ook verhoogd met een vast bedrag van 1 euro. Als je weet dat de gemiddelde premie nu 412,5 euro bedraagt, hoeveel bedraagt dan de gemiddelde premie na de tariefverhoging ?

x nieuw =(1,02 · 412,5 + 1) euro = 421,75euro

De som van de afwijkingen van een reeks waarnemingen t.o.v. hun rekenkundig gemiddelde is nul.

in symbolen: n i = 1 ( x i x ) = 0

Bewijs : n i = 1 ( x i x ) = x 1 x + x 2 x + ... + x n x

= ( x 1 + x 2 + + x n ) ( x + x + + x )

n termen

= n x n x

= 0

Opmerking :

Het gemiddelde is het evenwichtspunt van de verdeling : positieve en negatieve afwijkingen t.o.v. het gemiddelde houden elkaar in evenwicht.

17 1 Beschrijvende statistiek
ax + b = a · x + b

5 Spreidingsmaten

Een spreidingsmaat geeft aan of de waarnemingen dicht bij elkaar of juist ver uit elkaar liggen. Het is een maat voor het al dan niet ‘dichtbij of verder weg liggen’ van de waarnemingen t.o.v. de centrummaat.

Spreidingsbreedte (of variatiebreedte)

De spreidingsbreedte is het verschil tussen het grootste en het kleinste waarnemingsgetal.

In het voorbeeld met de appels is de spreidingsbreedte gelijk aan ( 355 – 132) g = 223 g.

(Inter)kwartielafstand

De kwartielafstand is het verschil tussen het derde en het eerste kwartiel.

In het voorbeeld is de kwartielafstand gelijk aan Q3 – Q1 = ( 300 – 242) g = 58 g.

Variantie en standaardafwijking

Om de spreiding van de waarnemingen t.o.v. het gemiddelde te berekenen, zijn er verschillende mogelijkheden. Je zou de gemiddelde som kunnen nemen van alle afwijkingen t.o.v. het gemiddelde, maar je weet dat dit nul is en dus niet bruikbaar.

1 n n i = 1 ( x i x ) = 0

Je zou de gemiddelde som kunnen nemen van de absolute waarden van de afwijkingen t.o.v. het gemiddelde zodat positieve en negatieve waarden elkaar niet langer kunnen neutraliseren. Het werken met een som van absolute waarden is wiskundig echter niet altijd zo eenvoudig bij theoretische berekeningen.

1 n n i = 1 | x i x |

Als alternatief wordt meestal de volgende vorm gebruikt: s 2 = 1 n 1 n i = 1 ( x i x )2

De variantie s 2 van een steekproef wordt gedefinieerd als de som van de kwadratische afwijkingen van de waarnemingen tot het gemiddelde, gedeeld door het aantal waarnemingen min één.

We noemen de variantie ook wel de gemiddelde kwadratische afwijking

De standaardafwijking s of standaarddeviatie is de wortel uit de variantie, s = 1 n 1 n i = 1 ( x i x )2 .

In het voorbeeld met de appels is de standaardafwijking s = 42,41 g (berekend via ICT).

De standaardafwijking is de meest gebruikte karakteristiek voor spreiding en wordt meestal samen met het gemiddelde gebruikt om de kenmerkende eigenschappen van een verdeling van gegevens te beschrijven.

De standaardafwijking van een reeks waarnemingen geeft aan in hoeverre die van elkaar en van het gemiddelde verschillen. Hoe groter de standaardafwijking, hoe groter de afwijking van de waarnemingen t.o.v. het gemiddelde.

Opmerking :

Waarom delen door n – 1 en niet door n ? We illustreren dit met een voorbeeld.

Beschouw zes getallen waarvan het gemiddelde gelijk is aan 8.

Verder ken je vijf van de zes getallen, namelijk 2, 5, 6, 8 en 15.

Op basis van die gegevens en het feit dat de som van de afwijkingen van de zes getallen t.o.v. het gemiddelde steeds nul is, kun je het zesde getal bepalen.

( x 8)+(2 8)+(5 8)+(6 8)+(8 8)+(15 8)= 0

⇐⇒ x 8 6 3 2 + 0 + 7 = 0

⇐⇒ x = 12

Als het gemiddelde en vijf van de zes getallen gekend zijn, dan ligt het zesde getal onherroepelijk vast.

Algemeen kunnen we stellen dat als je van n getallen het gemiddelde en n –1 getallen kent, het laatste (het n -de) getal te bepalen is. M.a.w. zodra je n –1 getallen gekozen hebt, kun je het laatste getal niet meer kiezen.

Het getal n –1 noemen we het aantal vrijheidsgraden van de variantie of van de standaardafwijking.

Het belang van het aantal vrijheidsgraden komt tot uiting wanneer je bepaalde karakteristieken (parameters) van een verdeling wil gaan schatten. Maar dat valt buiten dit deel van de cursus …

18

1.3 Representativiteit

1 Inleiding

Als je soep maakt en je wilt weten of de smaak goed is, dan neem je er een soeplepel van en je proeft. Op basis van die ene schep trek je de conclusie of de soep te pikant of te flauw is. Je baseert je conclusie voor de hele kom soep (= populatie) op die ene soeplepel (= steekproef). Dat mag je doen op voorwaarde dat je eerst goed geroerd hebt en dat de rest van de soep dan heel waarschijnlijk net zo smaakt als die ene lepel.

Tijdens elke fase van een statistisch onderzoek kunnen moeilijkheden optreden. Omdat elke stap zijn invloed heeft op de volgende, moet je zeer omzichtig te werk gaan. Het belangrijkste probleem bij de organisatie van een steekproef is het waarborgen van de representativiteit. Gebeurt dat niet, dan zullen de verdere resultaten en conclusies van het onderzoek, hoe nauwgezet ook uitgevoerd, weinig betrouwbaar of zelfs misleidend zijn.

Een steekproef is representatief als ze een weerspiegeling is van de populatie, m.a.w. een steekproef is representatief als ze beschouwd kan worden als de ‘populatie in het klein’.

Hoe bekom je een representatieve steekproef ?

Het uitgangspunt voor het realiseren van een representatieve steekproef is dat elk element uit de populatie dezelfde kans moet hebben om in de steekproef opgenomen te worden.

Er bestaan verschillende methodes voor het genereren van een representatieve steekproef. We vermelden er hieronder enkele : – aselect met randomgetallen – gestratificeerd aselect – getrapt aselect – systematisch met aselect begin

Opgelet : je hebt nooit een waterdichte, 100% zekere garantie dat de steekproef ook werkelijk representatief is voor de te onderzoeken variabele.

In tegenstelling tot representatieve steekproeven bestaan er ook niet-representatieve steekproeven. De meest gekende onder die laatste is de zogenaamde convenience sampling. Dat is een techniek van steekproeftrekking waarbij het gemak voor de onderzoeker een grote rol speelt. Voorbeelden hiervan zijn: straatenquêtes, enquêtes bij de receptie van een vakantieverblijf, enquêtes via internet …

19 1 Beschrijvende statistiek

2 Aselect met randomgetallen

Voorbeeld :

In een school met 600 leerlingen wil de directie de mening van de leerlingen kennen over een aantal aanpassingen in het schoolreglement. Ze besluit een steekproef van 40 leerlingen te nemen, die dan samen met de directie mee van gedachten mogen wisselen.

De 600 leerlingen van de school krijgen elk een nummer (van 1 tot 600) en uit die 600 nummers worden er willekeurig 40 uitgeloot. Op die manier krijgen we een gelote steekproef of een aselecte steekproef op basis van randomgetallen.

Algemeen :

Ken aan elk element uit de populatie een getal toe. Selecteer nu de steekproefelementen op basis van volkomen toevallige getallen (random numbers). Op die manier heeft elk element van de populatie evenveel kans om geselecteerd te worden.

Opmerking :

Bij die methode is het mogelijk dat alle leerlingen uit één bepaalde graad komen of dat één bepaalde graad oververtegenwoordigd is.

3 Gestratificeerd aselect

Voorbeeld :

In de school uit het vorige voorbeeld zitten 270 leerlingen in de eerste graad, 150 leerlingen in de tweede graad en 180 leerlingen in de derde graad. De directeur stelt voor om via een gelote steekproef 18 leerlingen te kiezen uit de eerste graad, via een andere gelote steekproef 10 leerlingen uit de tweede graad en via een derde gelote steekproef 12 leerlingen uit de derde graad. Op die manier is elke graad vertegenwoordigd in dezelfde verhouding als de hele schoolpopulatie.

Algemeen :

Deel de populatie op in een aantal homogene deelgroepen of subpopulaties. Uit elke deelgroep wordt dan een aselecte steekproef genomen met steekproefgroottes in dezelfde verhouding als de onderlinge verhouding van de grootte van de subpopulaties. Op die manier krijg je een gestratificeerde aselecte steekproef. Een voordeel van stratificeren is dat de steekproef nauwkeuriger is.

4 Getrapt aselect

Voorbeeld :

Om organisatorische redenen en om het lesgebeuren niet te veel te storen, besluit de directie om per graad twee klassen te selecteren. Uit die klassen worden dan respectievelijk de 18 leerlingen van de eerste graad, de 10 leerlingen van de tweede graad en de 12 leerlingen van de derde graad gekozen.

Algemeen :

Net zoals bij de gestratificeerde steekproef delen we de populatie op in een aantal homogene deelgroepen of subpopulaties. Uit elke deelgroep worden dan lukraak enkele kleinere deelpopulaties gekozen waaruit

een aselecte steekproef genomen wordt met steekproefgroottes in dezelfde verhouding als de onderlinge verhouding van de grootte van de subpopulaties. Dit noemen we getrapt aselect

20

5 Systematisch met aselect begin

Voorbeeld :

Omdat de directeur uit de school niet houdt van al het tijdverlies dat gepaard gaat met het trekken van steekproeven, besluit hij de volgende eenvoudige methode te hanteren. Hij maakt via de computer een lijst van alle 600 leerlingen gesorteerd (en genummerd) volgens leeftijd. Nu kiest hij ergens een willekeurig nummer, bijvoorbeeld 257. De leerlingen die nu in aanmerking komen om geraadpleegd te worden, zijn de nummers:

Algemeen :

Genereer één random getal. De andere steekproefelementen volgen hieruit door met vaste stapgrootte door de hele populatie te lopen.

6 Steekproeffouten

Bij het uitvoeren van een steekproefonderzoek kunnen een aantal fouten optreden. Die fouten kunnen verschillende oorzaken hebben en opgesplitst worden in twee soorten : de steekproeffout en de niet-steekproeffout.

Steekproeffouten

Steekproeffouten treden op doordat je niet de hele populatie maar slechts een deel ervan bekijkt.

De grootte van de fout is afhankelijk van de grootte van de steekproef en van het homogene karakter van de populatie. Hoe homogener de populatie en hoe groter de steekproef, hoe kleiner de steekproeffout.

De inductieve statistiek houdt via de variabiliteit rekening met dit soort fouten.

Niet-steekproeffouten

Niet-steekproeffouten splitsen op hun beurt op in non-responsfouten en responsfouten.

Non-responsfouten ontstaan doordat mensen niet willen meewerken aan enquêtes.

Voorbeelden van responsfouten zijn:

– codeerfouten : dat zijn fouten in de gegevensverwerking zoals tikfouten (dit zijn dus fouten gemaakt door de onderzoeker);

– interviewfouten : die ontstaan wanneer er een slechte communicatie is tussen de interviewer en de geïnterviewde. De een begrijpt de vraag slecht of de ander interpreteert het antwoord verkeerd ; – respondentfouten : die ontstaan wanneer de geïnterviewde foutieve of onware antwoorden geeft.

7 Uitschieters

Thomas wil de elasticiteit van een botsballetje onderzoeken en besluit om een botsballetje 70 keer van op een meter hoogte te laten vallen. Hierbij meet hij op een centimeter nauwkeurig tot op welke hoogte het balletje telkens terugbotst.

Zijn metingen vind je in volgende tabel :

21 1 Beschrijvende statistiek
… 182 197 212 227 242 257 272 287 302 317 332 …
78 82 82 79 79 85 82 83 80 83 79 76 83 76 57 80 76 79 81 82 80 78 80 80 74 53 83 86 79 85 82 78 81 74 80 78 78 72 80 83 82 81 87 77 78 87 81 80 86 84 84 84 76 80 73 60 80 78 78 73 84 71 81 80 81 79 79 82 74 83

Wanneer hij die waarden uitzet in een histogram, vindt hij volgend resultaat :

Op de drie waarnemingen uiterst links na, vindt hij een min of meer symmetrisch interval rond de waarde 80. Die drie waarnemingen die blijkbaar sterk afwijken van de rest noemen we uitschieters. Omdat het uitschieters zijn naar beneden toe, worden ze ook wel uitbijters genoemd.

We bekijken de gegevens nogmaals in een ander diagram waarbij de gegevens chronologisch zijn voorgesteld :

Bij de berekening van het gemiddelde vindt Thomas de waarde 78,99 cm en een standaardafwijking van 5,9 cm.

Laat hij echter de drie uitbijters achterwege in zijn berekeningen, dan vindt hij een gemiddelde waarde van 79,99 cm en een kleinere standaardafwijking van 3,6 cm.

Hij vraagt zich af wat hij moet doen. Mag hij die drie uitschieters zomaar verwijderen uit zijn reeks gegevens of niet ?

Uitschieters en uitbijters mogen nooit zomaar uit een reeks waarnemingen worden verwijderd. Alleen wanneer je met zekerheid weet dat ze te wijten zijn aan codeerfouten (bv. tikfouten) of aan meetfouten mag je ze uit de dataset verwijderen.

Bij een grondige controle van zijn experiment merkt Thomas dat de ondergrond waarop hij het balletje liet botsen op een bepaalde plaats een oneffenheid vertoont. Doordat de botsbal op die plaats terechtkwam, was de weerbots opvallend minder. Hij besluit dan ook dat die waarnemingen te wijten zijn aan een meetfout en hij verwijdert ze uit zijn dataset.

Taak : we merken op dat de uitschieters invloed hebben op het gemiddelde en de standaardafwijking.

Ga na wat de invloed is van de uitschieters bij de mediaan.

22
12 10 8 6 4 2 0 52 55 58 61 64 67 70 73 76 79 82 85 88 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70

1.4 Randomisatie

Voorbeeld:

Een farmaceutisch bedrijf wil een nieuw medicijn testen en doet daarvoor een beroep op een groep proefpersonen : mannen en vrouwen tussen de 20 en 60 jaar. De proefpersonen zullen opgedeeld worden in twee groepen. De ene groep (groep A) krijgt het nieuw te testen medicijn toegediend, de andere groep (groep B) gewoon een placebo. De techniek waarin proefpersonen op basis van toeval worden ingedeeld in verschillende groepen, noemen we randomisatie.

Situatie 1: simpele randomisatie

Deze situatie komt overeen met het opgooien van een muntstuk. In praktijk genereert de computer willekeurig een getal tussen 0 en 10. Bij 5 of lager wordt de proefpersoon ingedeeld in groep A, bij een getal hoger dan 5 bij groep B.

Bij dit systeem van randomiseren kan het gebeuren dat de ene groep opvallend groter is dan de andere, daar waar we liever twee even grote groepen nastreven.

Situatie 2 : blokrandomisatie

Om het nadeel van ongelijke groepen te vermijden, kun je randomiseren in blokken. Een blok bestaat uit een zekere grootte, bijvoorbeeld 10 personen. In elk blok komen evenveel A’tjes als B’tjes voor. De proefpersonen krijgen al naargelang ze zich aanmelden de op voorhand vastgelegde groep toebedeeld.

Voorbeeld:

eerste 10 proefpersonen

volgende 10 proefpersonen

volgende 10 proefpersonen

volgende 10 proefpersonen

randomisatie

ABAABBBABA

BAAABBBAAB

BABAABBABA

AAABBAABBB

Situatie 3 : gestratificeerde blokrandomisatie

Nu kan het nog steeds gebeuren dat in beide groepen mannen en vrouwen en/of de verschillende leeftijdsgroepen niet evenredig verdeeld zijn. Dit lossen we op door op voorhand verschillende lijstjes te maken. Al naargelang de personen zich aanmelden en al naargelang de doelgroep waartoe zij behoren, worden ze in de aangewezen proefgroep ingedeeld.

Voorbeeld:

proefpersoon

lijst 1 man, 20-30 jaar

lijst 2 man, 31-40 jaar

lijst 3 man, 41-50 jaar

lijst 4 man, 51-60 jaar

lijst 5 vrouw, 20-30 jaar

lijst 6 vrouw, 31-40 jaar

lijst 7 vrouw, 41-50 jaar

lijst 8 vrouw, 51-60 jaar

randomisatie

AABABBBAAB

BAABBBAAAB

AABBAABBBA

BABABBBAAA

BBABBAAAAB

AAABAABBBB

BAABBAABBA

ABBABAABBA

23 1 Beschrijvende statistiek

1.5 Verschil tussen samenhang en causaliteit

1 Samenhang of causaliteit

Inleidende voorbeelden : – Miel wil als voetballer goed presteren. Daarom gaat hij alle dagen een aantal kilometer lopen.

De voetbalploeg van Miel werd op het einde van het seizoen dan ook kampioen.

– Mats verzorgt dit jaar groenten in een serre. Hij is zijn planten een aantal dagen vergeten water te geven en dit bij hoge temperaturen. Zijn planten zijn allemaal verdord.

Bij het voorbeeld van Miel is er een samenhang (of correlatie of verband) tussen de opgedreven trainingen van Miel en het kampioen spelen, maar dit is niet de oorzaak van het feit dat zijn ploeg kampioen speelt. Kampioen spelen hangt immers niet alleen van Miel af.

In het voorbeeld van Mats is het gedrag van Mats rechtstreeks de oorzaak van wat er met de planten gebeurt. Hier spreken we van een causaal verband (of causaliteit).

causaliteit

Causaliteit is een principe binnen de statistiek waarbij binnen twee variabelen een rechtstreeks verband is. Een verandering van de ene variabele veroorzaakt een verandering van de andere.

Nog enkele voorbeelden:

– Er is een verband tussen gewelddadige videospelletjes en het agressief gedrag van bepaalde jongeren, maar er is geen oorzakelijk of causaal verband.

– Er is een causaal verband tussen het te snel rijden en het aantal ongevallen.

– Er is geen causaal verband tussen het aantal ooievaars en het aantal geboorten van baby’s.

24

2 Valkuil : een derde variabele

Voorbeeld 1:

Als je een aansteker op zak hebt (variabele X), dan is de kans op longkanker groter (variabele Y).

Let op bij het gebruik van statistiek. Soms lijkt het dat er een causaal verband is omdat er een derde variabele (of confounding variabele) is die beide variabelen beïnvloedt.

Het feit dat je een aansteker op zak hebt, is geen directe oorzaak van longkanker. De derde variabele is hier het feit dat je rookt (variabele Z). Dat roken impliceert dat je een aansteker op zak hebt en het beïnvloedt ook je kans op longkanker.

Voorbeeld 2 :

Als er aan onze Belgische kust meer ijsjes verkocht worden (variabele X), dan stijgt het aantal verdrinkingen in zee (variabele Y).

Er is mogelijk geen directe samenhang tussen X en Y. Er is wel een derde variabele die invloed heeft op zowel de afhankelijke variabele Y als de onafhankelijke variabele X. Die derde variabele is de temperatuur (variabele Z). Als de temperatuur stijgt, dan zullen er meer ijsjes verkocht worden. Als de temperatuur stijgt, dan zullen er meer mensen gaan zwemmen.

Beschrijvende statistiek

1.6 Variabiliteit

1 Voorbeeld

Sofie moet als onderzoeksopdracht voor het vak wetenschappen de kwaliteit van het water van de plaatselijke Molenvijver nagaan. Zij neemt gedurende tien weken elke dag een staal water en berekent de hoeveelheid chloor (uitgedrukt in mg/liter) die er in het water aanwezig is.

Hieronder vind je de resultaten.

Dankzij de cursus beschrijvende statistiek kan zij die gegevens verwerken en via ICT berekent zij de volgende karakteristieken :

• De kleinste waarde of het minimum : 93,36 mg/liter

• De grootste waarde of het maximum : 152,54 mg/liter

• De gemiddelde waarde: 121,61 mg/liter

• De standaardafwijking:

Omdat zij die gegevens ook grafisch wil voorstellen d.m.v. een histogram, stelt zij een frequentietabel op.

Als klassenbreedte neemt zij 3 mg/liter en als eerste klasse kiest zij [ 93, 96[ . klasse klassenmidden absolute frequentie

26
138,52 134,75 125,07 93,36 118,47 128,67 110,08 133,97 111,14 124,85 120,84 128,22 102,86 113,43 118,15 141,26 124,33 115,14 107,01 123,30 123,76 130,94 112,47 113,10 115,84 116,31 152,54 119,80 95,75 135,27 123,80 99,78 143,12 113,71 139,71 115,23 123,49 117,67 102,90 127,03 113,78 124,81 118,05 122,42 105,22 149,61 137,13 123,55 133,31 122,92 129,35 110,38 139,81 120,13 125,21 122,76 130,88 102,88 119,57 120,73 114,38 102,36 120,38 125,10 121,40 122,13 144,32 120,06 107,77 126,94
12,29 mg/liter
93, 96[ 94,5 2 [ 96, 99[ 97,5 0 [ 99, 102[ 100,5 1
102, 105[ 103,5 4 [ 105, 108[ 106,5 3 [ 108, 111[ 109,5 2 [ 111, 114[ 112,5 6 [ 114, 117[ 115,5 5 [ 117, 120[ 118,5 6 [ 120, 123[ 121,5 10 [ 123, 126[ 124,5 11 [ 126, 129[ 127,5 4 [ 129, 132[ 130,5 3 [ 132, 135[ 133,5 3 [ 135, 138[ 136,5 2 [ 138, 141[ 139,5 3 [ 141, 144[ 142,5 2 [ 144, 147[ 145,5 1 [ 147, 150[ 148,5 1 [ 150, 153[ 151,5 1 12 10 8 6 4 2 0 94,5 97,5 100,5 103,5 106,5 109,5 112,5 115,5 118,5 121,5 124,5 127,5 130,5 133,5 136,5 139,5 142,5 145,5 148,5 151,5
[
[

Hamza en Otis hebben als onderzoeksopdracht voor wetenschappen dezelfde opdracht gekozen als Sofie. Ook zij namen gedurende dezelfde tien weken elke dag een staal water uit de Molenvijver (weliswaar niet op exact dezelfde plaats als Sofie en/of niet op hetzelfde tijdstip van de dag).

De vraag die zich bij het bekijken van de drie onderzoeksopdrachten onmiddellijk stelt, is : wie heeft het beste gewerkt ?

Antwoord : ze hebben alle drie even goed gewerkt !

Sofie, Hamza en Otis hebben elk een steekproef genomen van het water van de Molenvijver. Welnu, steekproeven uit eenzelfde populatie leveren verschillende resultaten op. Dit fenomeen noemen we steekproefvariabiliteit. Variabiliteit heeft als gevolg dat je uit een steekproefresultaat nooit met 100% zekerheid besluiten kunt trekken over de hele populatie.

27 1 Beschrijvende statistiek
119,78 103,45 103,35 122,06 107,33 147,54 106,02 123,58 111,31 124,19 110,55 102,01 121,40 118,05 130,32 121,11 125,01 114,63 119,51 112,79 117,70 100,77 125,81 128,72 123,48 130,72 118,81 132,31 104,64 120,24 116,38 131,05 117,26 116,21 117,14 115,76 116,20 107,73 122,11 107,85 111,29 137,24 121,62 126,30 106,38 118,38 131,90 124,34 122,77 114,91 120,07 127,25 123,85 120,94 122,61 127,57 93,15 134,11 127,69 130,54 117,56 103,39 111,05 108,54 122,47 127,18 112,10 132,46 97,03 134,75 Met : minimum = 93,15 mg/liter maximum = 147,54 mg/liter gemiddelde = 118,92 mg/liter standaardafwijking = 10,33 mg/liter 12 10 8 6 4 2 0 94,5 97,5 100,5 103,5 106,5 109,5 112,5 115,5 118,5 121,5 124,5 127,5 130,5 133,5 136,5 139,5 142,5 145,5 148,5
De resultaten van Hamza zijn :
113,54 111,96 114,91 125,69 141,81 117,59 112,33 110,25 123,92 111,84 110,51 135,50 123,93 107,94 124,34 123,14 105,76 129,36 127,49 99,13 100,87 131,87 146,46 117,80 128,50 103,79 110,46 107,68 98,09 130,62 120,08 132,72 140,75 120,82 104,67 101,43 133,83 109,06 139,33 105,14 115,90 121,60 116,82 133,23 118,81 118,66 111,07 118,60 114,61 101,28 115,33 114,28 119,86 135,21 139,21 130,43 140,31 118,55 100,31 125,10 131,33 113,12 114,48 129,26 122,23 122,27 111,49 106,05 140,32 124,56 Met : minimum = 98,09 mg/liter maximum = 146,46 mg/liter gemiddelde = 119,70 mg/liter standaardafwijking = 11,98 mg/liter 8 7 6 5 4 3 2 1 0 97,5 100,5 103,5 106,5 109,5 112,5 115,5 118,5 121,5 124,5 127,5 130,5 133,5 136,5 139,5 142,5 145,5
En hieronder vind je de meetresultaten van Otis :

Steekproef versus populatie

Karakteristieken die we berekenen op basis van een steekproef noemen we (toevals)variabelen. Die getallen zijn niet absoluut want een andere steekproef kan andere waarden voor die variabelen opleveren.

Indien we karakteristieken van de volledige populatie berekenen, spreken we van parameters. Parameters zijn constanten die iets zeggen over de hele populatie.

Voorbeeld :

Cijfers van een of andere rijksdienst of van de Algemene Directie Statistiek zijn vaak parameters : het percentage werklozen in Vlaanderen, de verdeling van de schoolgaande jeugd over de verschillende richtingen in het secundair onderwijs, het aantal wagens in België … Cijfers afkomstig van een enquête zijn altijd toevalsvariabelen.

Afspraken:

Voor karakteristieken gebaseerd op steekproefresultaten gebruiken we kleine letters :

x ishet gemiddelde vaneensteekproef

s 2 isde variantie vaneensteekproef

s isde standaardafwijking opbasisvaneensteekproef

steekproefgemiddelde en steekproefvariantie

gemiddelde:

Voor de karakteristieken van een populatie gebruiken we Griekse letters :

m is het populatiegemiddelde

s is de standaardafwijking op basis van de hele populatie

populatiegemiddelde en populatievariantie µ

2
x = 1 n n i = 1 x i voorgegroepeerdegegevens: x = 1 n k i = 1 n i x i n = k i = 1 n i isdegroottevandesteekproef
variantie: s 2 = 1 n 1 n i = 1 ( x i x )2 voorgegroepeerdegegevens: s 2 = 1 n 1 k i = 1 n i ( x i x )2
= 1 N N i = 1 x i σ 2 = 1 N N i = 1 ( x i µ)2 met N :groottepopulatie

1.7 Paradox van Simpson

Iedereen kent de uitspraak ‘met cijfers en statistiek kun je alles bewijzen’. Een leuk voorbeeld hiervan is de paradox van Simpson die aantoont dat je soms een ander resultaat krijgt als je (dezelfde) cijfers anders voorstelt.

Voorbeeld :

Een producent van frisdranken wil een nieuwe smaak op de markt brengen. Bij de productie van de nieuwe smaak ontwikkelen ze twee varianten: A en B. De marketing manager wil nagaan welke smaak de consumenten verkiezen.

Hij liet 300 proefpersonen smaak A drinken en vroeg hen of ze het product lekker vonden en/of ze het product eventueel zouden kopen. Hetzelfde deed hij bij 750 proefpersonen voor smaak B.

De resultaten staan in volgende tabel :

Omgezet in percentages :

De productiemanager is hiermee echter niet akkoord. Ook hij heeft ditzelfde onderzoek geanalyseerd en heeft een onderscheid gemaakt tussen mannen en vrouwen. Hij komt tot volgende tabel :

:

Uit die cijfers blijkt duidelijk dat zowel mannen als vrouwen smaak A verkiezen boven smaak B.

29 1 Beschrijvende statistiek
smaak A smaak B aantal proefpersonen 300 750 vind het lekker zou het kopen 207 520 zou het niet kopen 93 230
smaak A smaak B vind het lekker zou het kopen 69,0% 69,3% zou het niet kopen 31,0% 30,7% Uit dit onderzoek besluit
B
de marketing manager dat smaak
te verkiezen is boven smaak A.
man vrouw smaak A smaak B smaak A smaak B aantal proefpersonen 220 220 80 530 vind het lekker zou het kopen 150 145 57 375 zou het niet kopen 70 75 23 155
man vrouw smaak A smaak B smaak A smaak B vind het lekker zou het kopen 68,2% 65,9% 71,3% 70,8% zou het niet kopen 31,8% 34,1% 28,8% 29,2%
Omgezet in percentages

1.8 Samenvatting en oefeningen

1 Samenvatting

• Je kent de volgende begrippen uit de beschrijvende statistiek: populatie, steekproef, waarnemingen, data, klassen, klassenbreedte, klassengrenzen, frequentietabel, uitschieter en uitbijter.

• Je kent het verschil tussen absolute frequentie en relatieve frequentie.

– De absolute frequentie is het aantal keer dat een bepaalde waarneming voorkomt.

– De relatieve frequentie is de verhouding van de absolute frequentie tot het totale aantal.

• Je kunt waarnemingen grafisch voorstellen d.m.v. een histogram.

• Je kunt een frequentiepolygoon of frequentiekromme construeren.

• Je kunt cumulatieve frequenties voorstellen in een ogief.

• Je kent de betekenis van de volgende centrummaten: mediaan, eerste kwartiel, derde kwartiel, gemiddelde.

• Je kunt een boxplot tekenen.

• Je kent de eigenschappen van het gemiddelde en je kunt die bewijzen.

– Als alle waarnemingen xi met een factor a worden vermenigvuldigd, verandert het gemiddelde met dezelfde factor. In symbolen: a · x = a · x

– Als bij alle waarnemingen xi een vaste waarde b wordt opgeteld, dan is het nieuwe gemiddelde gelijk aan het oude gemiddelde vermeerderd met de term b

In symbolen: x + b = x + b

– De vorige twee eigenschappen kunnen we symbolisch samenvatten als ax + b = a · x + b .

– De som van de afwijkingen van een reeks waarnemingen tot hun rekenkundig gemiddelde is nul.

In symbolen: n i = 1 ( x i x ) = 0

• Je kent de betekenis van de volgende spreidingsmaten: spreidingsbreedte of variatiebreedte, kwartielafstand, variantie, standaardafwijking of standaarddeviatie.

• Je weet dat een steekproef representatief is als ze een weerspiegeling is van de populatie.

• Je kent verschillende methodes voor het genereren van een representatieve steekproef.

30

• Je kent het belang van randomisatie en representativiteit bij steekproeven.

• Je kent het verschil tussen samenhang en causaliteit.

Causaliteit is een principe binnen de statistiek waarbij binnen twee variabelen een rechtstreeks verband is. Een verandering van de ene variabele veroorzaakt een verandering van de andere.

Let op voor de valkuil van een mogelijke derde variabele.

• Je kent het verschil tussen steekproeffouten en niet-steekproeffouten.

• Je weet dat steekproeven uit eenzelfde populatie verschillende resultaten kunnen opleveren (steekproefvariabiliteit).

• Je kent het verschil tussen variabelen en parameters.

– Variabelen zijn karakteristieken die we berekenen op basis van een steekproef. Die getallen zijn niet absoluut want een andere steekproef kan andere waarden voor die variabelen opleveren.

– Parameters zijn constanten die iets zeggen over de hele populatie.

• Je kent de volgende formules en kunt ze toepassen.

niet-gegroepeerdewaarnemingen: x = 1 n n i = 1 x i

s 2 = 1 n 1 n i = 1 ( x i x )2 met n :groottesteekproef

gegroepeerdewaarnemingen: x = 1 n k i = 1 n i x i

s 2 = 1 n 1

k i = 1 n i ( x i x )2 populatie: µ = 1 N N i = 1 x i

σ 2 = 1

N N i = 1 ( x i µ)2 met N :groottepopulatie

31 1 Beschrijvende statistiek

2 Oefeningen

Deze oefeningen kunnen zowel met de grafische rekenmachine als met Excel of GeoGebra opgelost worden.

Bij een snelheidscontrole werd van 100 auto’s de snelheid opgetekend. Hieronder vind je de resultaten (in km/h).

a Verdeel in klassen en maak een frequentietabel.

b Teken het histogram en de enkelvoudige frequentiepolygoon.

c Teken het ogief.

d Bereken de mediaan en de kwartielen en teken de boxplot.

e Bereken het rekenkundig gemiddelde en de standaardafwijking.

f Hoeveel procent van de auto’s reed sneller dan het gemiddelde ?

g Hoeveel procent van de snelheden zit in [ x s , x + s ], [ x 2 s , x + 2 s ] en [ x 3 s , x + 3 s ] ?

Op het erf van de oma van Robbe lopen heel wat kippen. Robbe besluit om gedurende een week alle eieren te wegen. Hier zie je de resultaten (in gram).

a Verdeel in klassen en maak een frequentietabel.

b Teken het histogram en de enkelvoudige frequentiepolygoon.

c Teken het ogief.

d Bereken de mediaan en de kwartielen en teken de boxplot.

e Bereken het rekenkundig gemiddelde en de standaardafwijking.

f Hoeveel procent van de eieren zit in [ x s , x

32
61 50 68 80 79 86 39 62 78 52 57 45 43 53 56 40 58 60 67 61 61 61 81 64 63 59 89 75 94 57 85 46 71 76 88 64 59 73 60 74 48 55 47 61 65 65 61 91 44 56 34 82 50 57 74 71 75 72 49 52 73 69 54 62 67 72 67 54 88 71 66 75 75 57 54 78 51 46 74 73 91 82 81 66 65 70 65 52 44 75 70 72 68 53 80 61 55 55 60 60
65 54 71 82 81 67 62 75 64 76 87 44 65 80 56 52 59 51 64 68 60 49 48 57 59 68 64 92 49 60 45 62 64 69 64 40 84 54 61 76 64 64 83 67 66 73 78 75 53 56 62 90 78 94 61 76 72 58 65 69 86 50 74 78 89 74 70 58 89 74
+ s ] , [ x 2 s , x + 2 s ] en [ x 3 s , x + 3 s ] ? 1 2

Dit zijn de resultaten (op 150 punten) van een aantal leerlingen op de wiskundeolympiade:

a Verdeel in klassen en maak een gegroepeerde frequentietabel.

b Teken het histogram en de enkelvoudige frequentiepolygoon.

c Teken het ogief.

d Bereken alle kwartielen, het rekenkundig gemiddelde en de standaardafwijking.

e Teken de boxplot.

f Hoeveel leerlingen behaalden 88 punten ?

g Hoeveel leerlingen behaalden meer dan 75 punten maar minder dan 90 ?

h Hoeveel % van de leerlingen behaalde meer dan 95 punten ?

i Hoeveel leerlingen zitten boven het klasgemiddelde ?

j Hoeveel procent van de leerlingen zit in [ x s , x + s ] en [ x 2 s , x + 2 s ] ?

In onderstaande tabel worden de resultaten van het verspringen (in m) van leerlingen gegeven in een les lichamelijke opvoeding. Resultaten verspringen tijdens de lessen

a Verdeel in klassen en maak een gegroepeerde frequentietabel.

b Teken het histogram en de enkelvoudige frequentiepolygoon.

c Teken het ogief.

d Bereken alle kwartielen, het rekenkundig gemiddelde en de standaardafwijking.

e Hoeveel leerlingen sprongen 5,20 m ver ?

f Hoeveel leerlingen sprongen verder dan 5,30 m maar minder ver dan 6,10 m ?

g Hoeveel % van de leerlingen sprong verder dan 6 m ?

h Hoeveel % van de leerlingen zit in [ x 2 s , x + 2 s ] ?

1 33 Beschrijvende statistiek
91 78 46 84 65 91 73 98 72 83 92 94 78 68 90 79 89 63 90 70 98 70 54 71 76 72 100 71 65 86 88 110 116 75 83 92 100 86 73 93 88 84 59 65 76 76 80 82 89 75 66 107 96 80 85 83 117 85 62 70 77 64 69 69 71 73 80 88 87 57 53 79 51 82 80 88 79 64 121 118 91 117 118 59 121 90 88 121 125 105 123 82 66 139 65 75 55 105 85 74 88 54 69 116 131 95 87 85 106 93
3,76 5,62 5,00 5,10 5,12 5,52 5,24 5,89 5,63 4,25 5,12 5,95 4,15 5,85 4,45 5,25 4,03 5,15 5,21 5,55 3,77 5,30 5,19 5,65 3,78 5,35 5,23 4,20 4,50 5,39 5,20 4,75 4,55 4,80 5,03 4,79 5,32 4,85 5,09 6,20 5,42 4,25 5,48 4,21 6,05 4,95 5,30 4,25 5,37 3,77 5,49 4,93 5,21 4,59 5,51 5,24 5,75 4,23 5,10 5,41 3,79 5,37 3,76 4,70 5,29 4,55 5,63 4,86 4,60 4,78 5,21 4,83 5,80 4,09 5,39 4,05 5,99 5,50 4,50 5,45 4,76 4,86 5,20 5,83 4,93 5,07 4,35 5,17 4,45 6,10 5,12 4,73 5,09 6,24 5,05 4,69 5,13 5,84 4,74 5,71 5,45 4,29 4,58 5,61 4,99 5,42 5,00 5,58 4,39 4,94 5,79 5,17 4,95 5,21 6,19 4,42 6,40 5,90 5,30 5,20 5,37 4,73 5,55 4,76 5,41 4,52 5,21 4,80 4,51 5,30 5,19 4,81 5,04 6,35 5,24 5,36 5,79 5,48 4,87 5,70 5,15 4,35 4,25 5,72 4,75 4,60 5,63 5,18 4,62 5,26 4,92 5,10 4,87 5,70 5,30 4,95 5,95 5,20 5,43 5,65 5,49 5,28 4,00 4,80 5,69 5,21 4,50 4,90 5,25 5,11 4,55
lo
3 4

De leeftijd van moeders (in jaren) werd opgetekend als ze hun eerste kind kregen.

a Maak een gegroepeerde frequentietabel.

b Teken het histogram en de enkelvoudige frequentiepolygoon.

c Teken het ogief.

d Bepaal het gemiddelde, de mediaan, de standaardafwijking en de kwartielen.

e Teken de boxplot.

f Hoeveel moeders kregen op 22 jaar hun eerste kindje ?

g Hoeveel % van de moeders kreeg hun eerste kindje na hun 25e levensjaar ?

h Hoeveel % van de moeders kreeg hun eerste kindje als ze meer dan 22 jaar maar minder dan 30 jaar waren ?

De inhoud van voorverpakte voedingswaren moet volgens een EU-richtlijn van 1976 aan strenge eisen voldoen. Regelmatig zijn er ook steekproeven en controles. Die situeren zich op twee niveaus :

Criterium 1 : individuele controle

Bij een steekproef van 50 stuks wordt de partij goedgekeurd als slechts 2 stuks onder de norm vallen. De partij wordt afgekeurd als 5 stuks onder de norm vallen. In het andere geval wordt een nieuwe steekproef genomen.

Bij frisdrankverpakkingen van 1 liter is de norm 985 ml.

Criterium 2 : controle van het gemiddelde

Ze berekenen het gemiddelde van een steekproef van 50 stuks uit de partij en de partij wordt goedgekeurd als x aangeduide inhoud – 0,379 s en wordt afgekeurd als x < aangeduide inhoud – 0,379 s

De voedingswareninspectie controleert 50 eenliterflessen van een bepaald merk en noteert volgende inhouden (in ml) :

Doorstaat de steekproef het eerste respectievelijk het tweede criterium ?

34 21 16 19 25 16 26 32 34 19 20 28 31 38 20 29 24 26 25 32 23 31 20 18 15 31 32 30 29 28 17 22 22 22 29 27 28 31 33 26 37 20 22 25 29 31 32 30 30 22 23 25 17 18 16 24 25 26 32 34 28 29 30 32 24 20 19 31 35 20 29 26 22 19 22 25 24 21 26 29 30
996 988 1000 1008 1008 994 1014 1005 1017 993 1012 981 996 1007 989 1011 985 1002 1005 1013 992 986 983 990 992 997 994 1003 995 1004 986 993 995 999 995 986 991 986 995 998 995 995 1009 997 997 998 995 1016 986 992
5 6

Een snackbar ontvangt 20 klanten tussen 11.00 u. en 12.00 u. Hun (individuele) rekening bedroeg (in euro) :

a Bereken het gemiddelde verbruik en de standaardafwijking van het verbruik van de eerste reeks klanten.

b Bereken het gemiddelde verbruik en de standaardafwijking van het verbruik van de tweede reeks klanten.

c Bereken het gemiddelde verbruik en de standaardafwijking van het verbruik van alle klanten.

d Maak een boxplot van het verbruik van de eerste reeks klanten, van het verbruik van de tweede reeks klanten en van alle klanten samen. Wat kun je hieruit concluderen ?

Raf gaat met de fiets naar school. Gedurende 12 weken (= 60 waarnemingen) heeft hij bijgehouden hoeveel minuten hij erover doet om van thuis naar school te fietsen. De resultaten vind je in volgende tabel :

a Verdeel in klassen en maak een histogram van de gegevens.

b Merk je symmetrie ? Zo ja, rond welke waarde ?

c Zijn er uitschieters ? Kun je die verklaren als je achteraf verneemt dat Raf eenmaal een lekke band heeft gehad ?

d Bereken het rekenkundig gemiddelde en de standaardafwijking. Doe dit eenmaal met de uitschieter en eenmaal zonder de uitschieter.

1 35 Beschrijvende statistiek
10,20 6,20 13,50 19,70 19,20 7,90 8,40 7,10 6,10 7,40 22,40 6,00 10,60 18,60 6,40 8,60 8,60 9,60 12,80 9,80
euro) : 16,70 14,30 15,40 14,60 8,80 8,90 20,80 7,40 13,30 17,40 12,30 19,50 15,90 18,40 13,00 14,70 15,10 12,30 12,90 17,40 9,90 21,40 16,90 14,10 17,00 21,70 20,20 13,20 12,60 12,10
Tussen 12.00 u. en 13.00 u. ontvangt dezelfde snackbar 30 klanten met een individueel verbruik van (in
42 36 36 38 35 32 41 26 39 30 38 36 37 44 31 43 27 34 23 32 32 34 32 35 34 43 61 37 34 28 38 32 33 36 43 47 30 36 48 39 36 42 40 33 34 27 32 36 31 27 24 34 29 40 36 37 41 35 36 36
7 8

Een reiziger reist van A naar B. Zijn gemiddelde snelheid daarbij is precies 60 km/h. Hoelang moet de reiziger over de terugreis doen om gemiddeld over de heen- en terugreis op 90 km/h uit te komen ?

In een klas van 16 leerlingen was het gemiddelde op een toets wiskunde 6,2. In een andere klas van 26 leerlingen werd dezelfde toets afgenomen en was het gemiddelde 6,6. Wat is het gemiddelde op die toets over de twee klassen heen ?

Voor het vak geschiedenis zitten twee klasgroepen A en B samen. In de groep A zitten 12 leerlingen. Op de laatste overhoring behaalde die groep een gemiddelde van 6,5. Groep B behaalde een gemiddelde van 7 en het gemiddelde van beide groepen samen was 6,7. Hoeveel leerlingen telt groep B ?

Aan een loopwedstrijd nemen 486 lopers deel, de helft mannen en de helft vrouwen. Op de 250ste plaats eindigt een vrouw, die de mediaan is binnen het klassement van de vrouwen. Op de 251ste plaats eindigt een man. Hoeveel mannen eindigden voor hem ?

(A) 127 (B) 128 (C) 129 (D) 130 (E) 131

VWO 2024 eerste ronde, vraag 21 © Vlaamse Wiskunde Olympiade vzw

Een verzameling V bevat vijf verschillende natuurlijke getallen. Het gemiddelde van de kleinste twee getallen is 6 en het gemiddelde van de grootste twee getallen is 20. Wat is het grootst mogelijke gemiddelde van alle getallen van de verzameling V ?

(A) 13 (B) 13,5 (C) 14 (D) 14,5 (E) 15

VWO 2023 tweede ronde, vraag 8 © Vlaamse Wiskunde Olympiade vzw

28 Amerikanen stappen een wisselkantoor binnen met gemiddeld 1250 dollar op zak. Voor één dollar krijgen ze 90 eurocent.

a Hoeveel euro hebben de Amerikanen gemiddeld nadat ze het wisselkantoor buitenkomen en ze al hun dollars omgewisseld hebben in euro ?

b Hoeveel euro hebben de Amerikanen samen ?

36
9 10 11 12 13 14

Bewijs de volgende eigenschappen.

a Als alle waarnemingen xi met een positieve factor a worden vermenigvuldigd, dan wordt de standaardafwijking met dezelfde factor vermenigvuldigd.

b De standaardafwijking verandert niet wanneer bij alle waarnemingen een vast getal b wordt opgeteld.

c s 2 = n n 1      n i = 1 x 2 i n x 2     

Geef voor elk van de volgende gevallen aan of je de genoemde verzameling beschouwt als een steekproef of als een populatie. Verklaar en motiveer je keuze.

a De leerkrachten die aanwezig zijn op de laatste klassenraad.

b De 150 personen die geïnterviewd zijn bij een straatenquête.

c De 420 leden van de zwemvereniging.

d De 48 klanten die vandaag de elektrozaak om de hoek bezochten.

e De 210 bewoners van de Stationsstraat.

f De 120 automobilisten die moesten stoppen voor een alcoholcontrole.

g De 1200 leerlingen van een school.

h Alle personen boven de 60 jaar in jouw gemeente.

Een ijsjesfabrikant wil een nieuwe smaak ijs op de Vlaamse markt lanceren.

Hij heeft twee smaakvarianten ontwikkeld en wil 600 mensen aan een blinde smaaktest onderwerpen. In die test krijgt elke proefpersoon de twee smaakvarianten

A en B in identieke verpakking en in willekeurige volgorde voorgeschoteld.

Elke proefpersoon moet aangeven of hij smaak A of smaak B verkiest.

a Beschrijf de populatie.

b Beschrijf de variabele die we in deze studie bestuderen.

c Wat is de steekproef ?

Geef voor elk van de volgende gevallen aan over welke soort steekproef het gaat. Verklaar je antwoord.

a Bij een onderzoek i.v.m. de veiligheid in een bepaalde straat besluit de enquêteur om de bewoners van alle huisnummers deelbaar door 5 te bevragen.

b I.v.m. een peiling over een politiek thema kiezen we eerst willekeurig een stad en nadien kiezen we hierin een bevolkingsgroep naar geslacht en leeftijd in dezelfde verhouding als de totale Belgische bevolking.

c In een bedrijf werken 42 werknemers. Wanneer de directie de mening van die werknemers wil weten, neemt ze de alfabetisch genummerde personeelslijst en de lottocijfers van deze week om er zo zes werknemers uit te halen.

1 37 Beschrijvende statistiek
15 * 16 17 18

De verdeling van het aantal leden van een hobbyclub naar leeftijd en geslacht vind je in volgende tabel.

We willen een gestratificeerde aselecte steekproef nemen van 40 leden. In welke mate zijn de groepen vertegenwoordigd ?

Is er een causaal verband of is er enkel samenhang ?

a Een schilder heeft een ongeluk met zijn wagen, waardoor hij zijn pols breekt. Daardoor kan hij niet meer werken en lijdt hij inkomensverlies.

b Je speelt erg vaak spelletjes op je smartphone. Daardoor heb je vaker last van slaapproblemen.

c Een vandaal steekt een band stuk van een taxi. Daardoor komt een CEO te laat op een afspraak en mist zo een miljoenendeal.

d Je onderzoekt de invloed van het prestatievermogen van een persoon en de duur van zijn nachtrust.

e Je laat je op erg jonge leeftijd vaccineren tegen polio (kinderverlamming). Daardoor is de kans heel erg klein dat je zult overlijden aan polio.

f Hoe meer zonnebrillen er verkocht worden, hoe meer ijsjes er verkocht zullen worden.

samenhang causaliteit

Wat zou een derde variabele (of confounding variabele) kunnen zijn bij volgende correlaties ?

a Als er meer drank verkocht wordt op de kermis, dan stijgt het aantal ongelukken.

b Als personen een hoog inkomen hebben, dan stijgt het aantal verkochte luxewagens.

c Als ouders een hoger opgeleid diploma hebben, dan presteren hun kinderen beter op school.

d Als een persoon meer uren slaapt, dan zal zijn prestatievermogen de dag nadien stijgen.

e Als een leerling meer uren studeert, dan stijgen de examenresultaten.

38
19 leeftijd man vrouw 0 – 12 jaar 40 24 13 – 18 jaar 80 40 19 – 30 jaar 64 40 30 jaar en ouder 8 16 20 21

Voor het testen van een nieuw medicijn melden zich 80 proefpersonen. De gegevens (geslacht – leeftijd) vind je in volgende tabel.

a Laat de computer willekeurig bij elke persoon de letter A of B plaatsen. Ga nadien na hoeveel personen er in elke groep zitten, hoeveel mannen en vrouwen er in elke groep zitten en wat de gemiddelde leeftijd is in elke groep.

b Verdeel de proefpersonen in twee gelijke groepen met een min of meer gelijke verdeling naar geslacht en leeftijd. (Neem voor de leeftijd twee groepen : leeftijd jonger dan 40 en leeftijd ouder of gelijk aan 40).

Een farmaceutisch bedrijf heeft tegen een nieuw virus twee medicijnen ontwikkeld. Het bedrijf wil beide medicijnen testen op een aantal proefpersonen plus een controlegroep. Verdeel onderstaande groep personen in drie gelijkwaardige groepen naar leeftijd (jonger dan 35, ouder of gelijk aan 35) en geslacht (M / V).

1 39 Beschrijvende statistiek
V - 24 M - 42 V - 27 M - 38 V - 52 V - 39 M - 50 V - 47 V - 56 M - 21 V - 30 V - 49 M - 21 V - 30 M - 57 M - 44 V - 38 V - 39 V - 20 V - 47 V - 38 V - 33 V - 26 V - 58 M - 36 V - 54 V - 37 M - 55 V - 21 V - 36 V - 42 V - 51 V - 28 V - 48 M - 54 M - 27 M - 32 M - 44 V - 52 V - 21 M - 28 V - 22 V - 40 M - 55 V - 33 M - 48 M - 40 M - 37 M - 50 M - 33 V - 22 M - 42 V - 53 V - 28 V - 36 M - 32 V - 27 M - 46 V - 23 V - 45 V - 54 V - 26 M - 36 V - 57 V - 60 V - 41 V - 36 V - 39 M - 36 M - 22 M - 40 V - 38 M - 54 M - 58 V - 36 V - 59 V - 37 V - 49 V - 23 M - 38
M - 50 V - 29 M - 43 V - 44 M - 49 M - 43 M - 48 M - 29 M - 28 M - 40 V - 49 M - 50 M - 34 V - 50 M - 41 V - 23 M - 33 V - 50 M - 42 M - 31 V - 26 V - 32 M - 46 M - 47 V - 33 M - 39 M - 22 V - 33 V - 34 V - 39 V - 35 V - 26 M - 50 M - 32 M - 43 V - 21 V - 35 M - 41 M - 48 V - 37 M - 22 M - 50 V - 44 V - 30 M - 21 V - 50 V - 32 M - 41 M - 32 M - 40 M - 28 M - 38 M - 43 M - 30 M - 48 M - 50 V - 21 V - 46 V - 31 M - 45 22 23

Geschiedenis van de statistiek

Wat is statistiek ?

Statistiek omvat de wetenschap, de methodiek en de techniek van het verzamelen, bewerken en interpreteren van gegevens in verband met massaverschijnselen. Het statistisch onderzoek bestaat uit drie fasen :

– Een steekproef opstellen.

– De gegevens van de steekproef verzamelen, rangschikken en samenvatten. Dat onderdeel noemen we de beschrijvende statistiek

– Op basis van die steekproef besluiten trekken omtrent de hele populatie. Dat noemen we de verklarende statistiek

J AAR 1

KEIZER AUGUSTUS

In de 11e eeuw liet Willem de Veroveraar in Engeland het Domesday Book opstellen.

In dat boek werd de verdeling van de bevolking over de verschillende standen weergegeven, maar ook de verdeling van de veestapel en van de landbouwgronden werd er keurig in genoteerd.

Historici halen daar vandaag nog waardevolle inlichtingen uit.

Ook nu komen er nog tellingen voor. Zo vindt er bij ons in België om de tien jaar een volkstelling plaats ; de allereerste was er al in 1846.

Je kunt voor het eerst spreken van statistiek wanneer landen gegevens begonnen te verzamelen over allerlei zaken : de samenstelling van de bevolking, eigendommen en inkomsten, het bedrag van geïnde belastingen, het aantal weerbare mannen (geschikt om oorlog te voeren), het aantal vaklui en werktuigen, het aantal stuks vee ...

Dergelijke informatie kon je verkrijgen door eenvoudigweg te tellen, wat al in de tijd van de Romeinen gebruikelijk was. Bekend is de volkstelling die ten tijde van Christus door keizer Augustus werd bevolen.

In ons land is dat de taak van Statbel, het Belgische statistiekbureau (statbel.fgov.be).

10 66

WILLEM DE VEROVERAAR

40

1662

Het eerste, zeg maar echt statistische materiaal vinden we terug in Engeland.

Dat hebben we te danken aan zakenman John Graunt (1620 –1674) en aan Thomas Robert Malthus (1766 –1834), die bekendstaat om zijn pessimistische visie over de bevolkingsgroei. De Londense lakenkoopman John Graunt publiceerde in 1662 zijn boek Natural and Political Observations, waarin een statistische analyse stond van de wekelijkse lijst van sterftegevallen in en rond Londen, de zogenaamde Bills of mortality.

In 1693 maakte de sterrenkundige Edmond Halley (1656 –1742), ook al een Brit, een levensverwachtingstabel gebaseerd op de sterftecijfers van de Poolse stad Breslau (nu gekend als Wrocław). Op die manier begon de wetenschap met het verzamelen en beschrijven van feiten. Zo kwamen bijvoorbeeld ook de eerste statistieken bij de firma's die levensverzekeringen afsloten. De gegevens die verzameld werden, konden ook gebruikt worden om lijfrenten te berekenen. Het woord statistiek werd trouwens voor het eerst gebruikt in 1672 en is afgeleid van het Latijnse woord status (staat).

1672

41 1 Beschrijvende statistiek
EDMOND HALLEY JOHN GRAUNT

Maar het bleef niet bij tellen. Vanaf de 17e eeuw werd kansrekening of waarschijnlijkheidsrekening gebruikt om statistische gegevens te ontleden en statistische hypothesen te formuleren.

De Zwitserse wiskundige Jakob Bernoulli (1654 –1705) en zijn Franse collega Pierre-Simon Laplace (1749 –1827) hebben de beschrijvende statistiek via de waarschijnlijkheidsrekening in de wiskunde opgenomen.

Zo ontstond de wiskundige of verklarende statistiek.

1814

De eerste zinvolle, systematische en doelgerichte bewerking van statistisch materiaal vinden we in een werk uit 1835 met een lange titel : Sur l’homme et le développement de ses facultés ; essai d’une physique sociale. Dat werk is van de hand van onze landgenoot Adolphe Quetelet (1796 –1874). Daarin publiceerde hij talrijke statistische gegevens over de fysieke eigenschappen van de mens. Hij legde het verband tussen misdadigheid en leeftijd, geslacht, opvoeding, seizoen enz. Hij riep ook het eerste internationale statistische congres bij elkaar in 1855 in Brussel. Quetelet wordt onder andere daardoor de stichter van de moderne statistiek genoemd.

1835

42
© bpost
Jakob Bernoulli PIERRE-SIMON LAPLACE ADOLPHE QUETELET

Na 1940 werd het mogelijk om met een moderne computer zeer grote hoeveelheden gegevens te verwerken en op die gegevens statistische methodes toe te passen. De statistiek is daarmee de meest toegepaste tak van de wiskunde geworden. Economie, sociologie, psychologie, biologie, het verzekeringswezen, meteorologie en de verkeerspolitiek zijn enkele van de talrijke disciplines waarvoor statistiek onmisbaar is geworden.

We vermelden ook graag de bijdrage die Florence Nightingale (1820 –1910) leverde aan de statistiek. Zij staat bekend als the lady with the lamp, een bijnaam die ze kreeg toen ze als verpleegster gewonde Engelse soldaten verzorgde tijdens de Krimoorlog. Maar ze was ook een wiskundige, die sterk beïnvloed was door het werk van Quetelet. Op wiskundig gebied werd ze vooral bekend door haar diagram waarmee ze de sterftegevallen in de Britse militaire hospitalen in beeld bracht (zie hierboven). De oppervlakten van de cirkelsegmenten geven de verhoudingen weer van het aantal doden. Met dit diagram wilde ze de Engelse politici duidelijk maken dat de sterfte onder de soldaten eerder een gevolg was van slechte hygiënische omstandigheden dan van oorlogsgeweld. Zo kon ze de autoriteiten overtuigen om te investeren in hygiënische hervormingen in de militaire hospitalen.

43 1 Beschrijvende statistiek
FLORENCE NIGHTINGALE
CORONA
1858
2020

Beschrijvende statistiek 1

44 WAT MOET JE KENNEN EN KUNNEN ?
pagina Ik weet wat een enkelvoudige aselecte steekproef is. 10 Ik kan gegevens van een steekproef voorstellen met of zonder ICT door middel van een histogram, ogief of frequentiekromme. 11 Ik ken de definitie van verschillende centrummaten zoals modus, mediaan en gemiddelde. 15 Ik ken de definitie van verschillende spreidingsmaten zoals spreidingsbreedte, kwartielafstand en standaardafwijking. 18 Ik weet wat representativiteit van een steekproef betekent. 19 Ik ken enkele technieken om een representatieve steekproef te bekomen. 20 Ik weet wat randomisatie betekent. 23 Ik ken enkele technieken om proefpersonen bij een experiment te randomiseren. 23 Ik ken het verschil tussen samenhang en causaliteit. 24 Ik weet wat variabiliteit van een steekproef betekent. 26 Ik ken het verschil tussen een steekproef en de populatie. 28

De normale verdeling 2

Hier komt het introductie tekstje.

Witregels worden manueel ingegeven.

Wiskunde wordt aan de lopende band gebruikt in het dagelijkse leven. Zo ook aan de lopende band … Aan het einde van zo’n band zit een controletoestel dat het gewicht controleert. Als er een afwijking van meer dan 10 gram is, wordt het pakje verwijderd. Statistieken helpen het bedrijf om een antwoord te vinden op vragen als ‘Hoeveel % van de afgeleverde pakken bevat minder dan 1 kg ?’. Maar je kunt ook omgekeerd redeneren en je afvragen hoe de machines afgesteld moeten worden opdat slechts één procent van de pakken suiker in de recyclagebak verdwijnt.

Hoofdstuktitel 0

De normale verdeling

46
2.1 Histogrammen – dichtheidskrommen 1 Voorbeeld  47 2 Dichtheidskrommen  48 2.2 Normale verdelingen 1 Algemeen voorschrift  49 2 De 68-95-99,7-regel  50 3 Voorbeeld  51 4 Toepassing met ICT  52 2.3 Grafische betekenis van μ en σ 1 Betekenis van μ 55 2 Betekenis van σ 55 2.4 De standaardnormale verdeling 1 Standaardisering : de z-waarde  56 2 De standaardnormale verdeling  57 3 Enkele kritieke z-waarden  60 2.5 Toepassingen 1 Suiker  65 2 Granaatappelen  67 3 Wrijvingsringen  67 4 De industriële bakkerij  68 5 Genereren van een steekproef  69 2.6 Samenvatting en oefeningen 1 Samenvatting  70 2 Oefeningen  72 Wat moet je kennen en kunnen ? 86 2

De normale verdeling 2

86 WAT MOET JE KENNEN EN KUNNEN ? pagina Ik weet wanneer een dichtheidskromme mag benaderd worden door een normaal verdeelde kansverdeling. 49 Ik ken de 68-95-99,7-regel van een normaal verdeelde kansverdeling. 50 Ik ken de grafische betekenis van gemiddelde en standaardafwijking van een normaal verdeelde kansvariabele. 55 Ik ken de standaardnormale verdeling. 57 Ik weet dat kans kan uitgedrukt worden als oppervlakte van een gepast gebied onder de grafiek van een normaal verdeelde kansvariabele. 57 Ik kan kansen bij een standaardnormaal verdeelde kansvariabele berekenen m.b.v. een tabel. 58 Ik weet wat kritieke z-waarden zijn en kan die met ICT berekenen. 60 Ik kan kansen berekenen met ICT bij een normaal verdeelde kansvariabele. 65 Ik kan de normale verdeling in concrete toepassingen gebruiken. 65 Ik kan een steekproef genereren uit een normaal verdeelde populatie. 69 Ik kan via een quantile-quantile plot nagaan of een dataset gegevens afkomstig is uit een normaal verdeelde populatie of niet. 69

3 Kansverdelingen en toevalsveranderlijken

Hier komt het introductie tekstje.

Witregels worden manueel ingegeven.

Het woord stochast heeft Griekse roots. Het is afgeleid van het woord stochasis (στoχασις ), wat letterlijk ‘gissing’ betekent. De letter P die je bij kansverdeling gebruikt, is de eerste letter van het Engelse ‘probability ’.

Statistiek wordt aan de lopende band gebruikt in het dagelijkse bedrijfsleven.

Zo zullen de Gentse fabrikanten van cuberdons (neuzen) een standaardafwijking toestaan van 2 gram. Om te achterhalen hoeveel cuberdons in een zakje moeten, zodat de kans meer dan 95% is dat de gemiddelde massa 15 gram is, heb je kansverdelingen nodig.

0
Hoofdstuktitel

Kansverdelingen en toevalsveranderlijken

88
3.1 Toevalsveranderlijken 1 Discrete stochastische veranderlijken  89 2 Continue toevalsveranderlijken  92 3 Verwachtingswaarde van een discrete toevalsveranderlijke  95 4 Variantie en standaardafwijking van een discrete toevalsveranderlijke  96 5 Uniforme discrete verdelingen  98 6 Verwachtingswaarde en standaardafwijking van een continue toevalsveranderlijke   100 7 Uniforme continue verdelingen   100 8 Samenvatting  102 9 Oefeningen  104 3.2 Rekenregels voor toevalsveranderlijken 1 Een toevalsveranderlijke vermeerderen of vermenigvuldigen met een constante 110 2 Som van twee onafhankelijke toevalsveranderlijken  111 3 Product van twee onafhankelijke toevalsveranderlijken  112 4 Toepassingen  112 5 De √n -wet  114 6 Samenvatting  116 7 Oefeningen  117 Wat moet je kennen en kunnen ? 122 3

Kansverdelingen en toevalsveranderlijken 3

122 WAT MOET JE KENNEN EN KUNNEN ? pagina Ik weet wat een stochastische veranderlijke is en ik ken het verschil tussen een discrete en een continue toevalsveranderlijke. 89 Ik ken de betekenis van de verwachtingswaarde van een toevalsveranderlijke. 95 Ik ken de betekenis van de variantie en de standaardafwijking van een toevalsveranderlijke. 96 Ik kan de verwachtingswaarde, de variantie en de standaardafwijking van een discrete toevalsveranderlijke berekenen. 96 Ik ken de definitie van een uniforme discrete verdeling en kan hiervan de karakteristieken berekenen. 98 Ik kan de verwachtingswaarde, de variantie en de standaardafwijking van een continue toevalsveranderlijke berekenen. 100 Ik ken de definitie van een uniforme continue verdeling en kan hiervan de karakteristieken berekenen. 101 Ik ken de rekenregels voor toevalsveranderlijken en kan die in concrete situaties toepassen. 110 Ik ken de √n -wet en kan die in concrete situaties toepassen. 114

4

Discrete verdelingen

Hier komt het introductie tekstje.

Witregels worden manueel ingegeven.

Meer dan 1 miljard Kinder Surprise-eitjes worden er jaarlijks verkocht. En meer dan 300 miljoen daarvan worden geproduceerd in Aarlen.

Een lekker stukje chocolade wordt gecombineerd met een klein cadeautje. Die krijgen meestal een bepaald thema (smurfen, Disney, Happy Hippo …) . Maar het is niet omdat je 6 eitjes in het Disney-thema koopt, dat er daadwerkelijk ook 6 Disneycadeautjes in zitten. Stel dat de producent beslist om in 5 van de 6 eitjes een Disney-cadeau te stoppen. In het zesde eitje komt een neutraal geschenkje. Als je voor een feestje 24 eitjes koopt, hoeveel cadeautjes zul je dan ontvangen rond het Disney-thema ?

Hoofdstuktitel 0
stock.adobe.com)
Ferrero © (Cloudy Design –

Discrete verdelingen

124
4.1 De binomiale verdeling 1 Bernoulli-experimenten  125 2 De binomiale verdeling  126 3 Karakteristieken van een binomiale verdeling  128 4 Toepassing : de binomiale verdeling met ICT  128 5 Samenvatting  131 6 Oefeningen  134 4.2 Andere discrete verdelingen 1 Geometrische verdelingen  138 2 Negatief-binomiale verdelingen  140 3 Hypergeometrische verdelingen  142 4 Samenvatting  144 5 Oefeningen  145 4.3 De poissonverdeling 1 Inleiding  147 2 Kansverdeling en karakteristieken  147 3 Voorbeelden  148 4 Grafische voorstelling van het verband tussen de binomiale en de poissonverdeling  150 5 Toepassing  151 6 Samenvatting  152 7 Oefeningen  153 4.4 Algemeen overzicht 1 Discrete verdelingen  157 2 Continue verdelingen  159 4.5 De centrale limietstelling 1 Probleemstelling  160 2 Binomiale verdelingen benaderen door normale verdelingen  161 3 Continuïteitscorrectie  162 4 Toepassing  163 5 Centrale limietstelling (CLS)  164 6 Samenvatting  165 7 Oefeningen  166 Wat moet je kennen en kunnen ? 178 4

Discrete verdelingen 4

178 WAT MOET JE KENNEN EN KUNNEN ?
pagina Ik weet wat een bernoulli-experiment is en kan hiervan de karakteristieken berekenen. 125 Ik weet wat een binomiale verdeling is en kan hiervan de karakteristieken berekenen. 126 Ik kan binomiale verdelingen in concrete situaties toepassen. 128 Ik ken andere discrete verdelingen zoals de geometrische verdeling, de negatief-binomiale verdeling en de hypergeometrische verdeling. 138 Ik ken het verschil tussen trekkingen met of zonder teruglegging. 142 Ik weet wat een poissonverdeling is en kan hiervan de karakteristieken berekenen. 147 Ik ken het verband tussen de poisson- en de binomiale verdeling. 150 Ik kan poissonverdelingen in concrete situaties toepassen. 151 Ik ken de betekenis van de centrale limietstelling. 160 Ik weet wat continuïteitscorrectie betekent. 162 Ik kan onder bepaalde voorwaarden binomiale verdelingen benaderen door een normale verdeling. 163

Betrouwbaarheidsintervallen en toetsen van hypothesen

Hier komt het introductie tekstje.

We schakelen even over naar de verkiezingen …

Witregels worden manueel ingegeven.

Redacties van kranten of tv-zenders houden niet enkel van peilingen voor de verkiezingen maar evenzeer van exitpolls, live opgenomen bij de stemlokalen.

Stel dat bij een peiling aan 2000 Vlamingen gevraagd werd voor welke partij ze zouden stemmen voor het Europees Parlement. Hiervan geven 514 ondervraagden als antwoord ‘partij A’. Dankzij betrouwbaarheidsintervallen kun je berekenen dat er 95% kans is dat tussen de 23,8% en 27,6% van de Vlamingen zal kiezen voor partij A (en zo kun je inschatten wie uiteindelijk deze zitjes in Brussel zal invullen).

Hoofdstuktitel 0
© European Union 2019 – Source:EP
5
180 Betrouwbaarheidsintervallen en toetsen van hypothesen Inleiding  181 5.1 Betrouwbaarheidsinterval voor μ (σ gekend) 1 Betrouwbaarheidsinterval voor het steekproefgemiddelde x 182 2 Simulatie met GeoGebra  183 3 Betrouwbaarheidsinterval voor het populatiegemiddelde μ 184 4 Toepassingen  185 5.2 Betrouwbaarheidsinterval voor p 1 Schatten van parameters  187 2 Betrouwbaarheidsinterval voor de steekproefproportie 188 3 Simulatie met GeoGebra  189 4 Betrouwbaarheidsinterval voor de populatieproportie p 190 5 Toepassingen  191 6 Samenvatting  193 7 Oefeningen  196 5.3 Toetsen van hypothesen 1 Werkwijze  201 2 Eenzijdige of tweezijdige toetsen  204 3 Toetsingsprocedure via grenswaarden  205 4 P-waarde  206 5 Toetsingsprocedure via de P-waarde  207 6 Toepassingen  208 7 Samenvatting  214 8 Oefeningen  217 Wat moet je kennen en kunnen ? 222 5

Betrouwbaarheidsintervallen en toetsen van hypothesen 5

222 WAT MOET JE KENNEN EN KUNNEN ? pagina Ik ken het verschil tussen een steekproefgemiddelde en het populatiegemiddelde. 182 Ik kan een betrouwbaarheidsinterval voor het populatiegemiddelde berekenen aan de hand van een steekproefgemiddelde. 184 Ik weet dat een andere steekproef kan leiden tot een ander betrouwbaarheidsinterval. 185 Ik weet wat de foutenmarge is bij een gegeven betrouwbaarheidsinterval. 185 Ik ken de betekenis van het betrouwbaarheidsniveau van een betrouwbaarheidsinterval. 186 Ik kan via de steekproefgrootte de foutenmarge tot een gewenst niveau bepalen. 186 Ik ken het verschil tussen een steekproefproportie en de populatieproportie. 187 Ik kan een betrouwbaarheidsinterval voor de populatieproportie berekenen aan de hand van een steekproefproportie. 188 Ik weet hoe ik het betrouwbaarheidsniveau van een betrouwbaarheidsinterval kan verhogen. 188 Ik ken het verschil tussen de nulhypothese en de alternatieve hypothese en ik kan een hypothese formuleren. 201 Ik weet wat een toetsingsgrootheid is. 202 Ik ken de betekenis en het belang van het significantieniveau bij het toetsen van een hypothese. 202 Ik ken de betekenis van kritieke zone of verwerpingsgebied. 202 Ik weet welke fouten kunnen voorkomen bij het toetsen van een hypothese. 202 Ik ken het verschil tussen een fout van de eerste en van de tweede soort. 202 Ik ken de definitie van onderscheidingsvermogen. 203 Ik ken het verschil tussen een eenzijdige en een tweezijdige toets. 204 Ik kan een hypothese omtrent het gemiddelde toetsen via de toetsingsprocedure via grenswaarden. 205 Ik kan een hypothese omtrent het gemiddelde toetsen via het berekenen van de P-waarde. 206 Ik kan een hypothese omtrent proporties toetsen via de toetsingsprocedure via grenswaarden. 209 Ik kan een hypothese omtrent proporties toetsen via het berekenen van de P-waarde. 209

Bijlage 1 : statistiek met GeoGebra

Kansverdelingen

DE NORMALE VERDELING

Gegeven : X ∼ N ( m = 30, s = 4)

P( X ⩽ a ) = Normaal ( m, s, a )

P( X ⩽ 33) = Normaal ( 30, 4, 33) = 77,34%

P( X ⩽ a ) > b ⟹ a = InverseNormaal ( m, s, b )

P( X ⩽ a ) > 40% ⟹ a = InverseNormaal ( 30, 4, 0.40) = 28,99

DE HYPERGEOMETRISCHE VERDELING

In een vaas zitten 12 balletjes, 5 gele en 7 blauwe. We trekken zonder teruglegging 3 balletjes.

X = aantal getrokken gele balletjes

N = 12 ; M = 5 ; n = 3

P( X = i ) = Hypergeometrisch ( N, M, n, i, false)

P( X = 2) = Hypergeometrisch ( 12, 5, 3, 2, false) = 31,82%

P( X ⩽ i ) = Hypergeometrisch ( N, M, n, i, true)

P( X ⩽ 2) = Hypergeometrisch ( 12, 5, 3, 2, true) = 95,45%

P( X ⩽ a ) > b ⟹ a = InverseHypergeometrisch ( N, M, n, b)

P( X ⩽ a ) > 80% ⟹ a = InverseHypergeometrisch ( 12, 5, 3, 0.90) = 2

Betrouwbaarheidsintervallen

BETROUWBAARHEIDSINTERVAL VOOR m ( s gekend)

Bij het nawegen van 180 pakjes pasta vinden we een steekproefgemiddelde van 252 gram. Bepaal een 95%-betrouwbaarheidsinterval als je weet dat s = 7 gram.

ZIntervalGemiddelde ( x , s, n, a %)

ZIntervalGemiddelde ( 252, 7, 180, 0.9) = [ 251.14, 252.86]

Toetsen van hypothesen

BEREKENEN VAN DE P-WAARDE VOOR m ( s gekend)

ZTestGemiddelde ( x , s, n, m0, staart)

staart is : “<”, “>” of “ ≠ ”

DE BINOMIALE VERDELING

Gegeven : X ∼ B ( n = 8, p = 0,3)

P( X = i ) = BinomialeVerdeling ( n, p, i, false)

P( X = 4) = BinomialeVerdeling ( 8, 0.3, 4, false) = 13,61%

P( X ⩽ i ) = BinomialeVerdeling ( n, p, i, true)

P( X ⩽ 4) = BinomialeVerdeling ( 8, 0.3, 4, true) = 94,20%

P( X ⩽ a ) > b ⟹ a = InverseBinomiaal ( n, p, b )

P( X ⩽ a ) > 90% ⟹ a = InverseBinomiaal ( 8, 0.3, 0.90) = 4

DE POISSONVERDELING

Gegeven : X ∼ Po( l = 5)

P( X = i ) = Poisson( l, i , false)

P( X = 2) = Poisson( 5, 2, false) = 8,42%

P( X ⩽ i ) = Poisson( l, i , true)

P( X ⩽ 2) = Poisson( 5, 2, true) = 12,47%

P( X ⩽ a ) > b ⟹ a = InversePoisson ( l, b)

P( X ⩽ a ) > 75% ⟹ a = InversePoisson ( 5, 0.75) = 6

BETROUWBAARHEIDSINTERVAL VOOR DE POPULATIEPROPORTIE p

Bij controle van 600 elektrische toestellen uit een geleverde partij blijken er 19 defect te zijn. Bereken op basis van deze steekproef een 90%-betrouwbaarheidsinterval voor de hele partij.

ZProportieSchatting ( p , n, a %)

ZProportieSchatting ( 19 / 600, 600, 0.90) = [ 1.99% ; 4.34%]

BEREKENEN VAN DE P-WAARDE VOOR DE POPULATIEPROPORTIE p

ZTestProportie ( p , n, p, staart)

staart is : “<”, “>” of “ ≠ ”

223 Bijlagen

Bijlage 2: de standaardnormale verdeling

224
F( z ) = P( Z ⩽ z ) Tabel : z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586 0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535 0,2 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409 0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173 0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793 0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240 0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490 0,7 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524 0,8 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327 0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891 1,0 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214 1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298 1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147 1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91308 0,91466 0,91621 0,91774 1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189 1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408 1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449 1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327 1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062 1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670 2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169 2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574 2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899 2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158 2,4 0,99180 0,9202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361 2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520 2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643 2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736 2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807 2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861 3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,99900 3,1 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929 3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950 3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965 3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976 3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983 3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989 3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992 3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995 3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997 z

Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.