Anscombe's kwartet

Page 1

Statistiek in de tweede graad Het kwartet van Anscombe Statistische valkuilen: data samenvatten in één getal In de beschrijvende statistiek kan men een groot aantal statistische data samenvatten in één getal waarrond de waarnemingsgetallen gecentreerd liggen. Dit zijn de centrumgetallen zoals het gemiddelde, de modus en de mediaan. Men kan ook de spreiding van deze statistische data onderzoeken door gebruik te maken van de spreidingsgetallen zoals de variantie en de standaardafwijking. Uitschieters kunnen centrumgetallen en spreidingsgetallen sterk beïnvloeden. Het samenvatten van statistische data in één enkel getal houdt wel een aantal gevaren in omdat men geen beeld meer heeft van het geheel. Denk hierbij aan het volgende voorbeeld; een rivier is 1,5 meter diep maar bij het oversteken van de rivier is iedereen verdronken. Men kan ook een verband (correlatie) onderzoeken tussen twee statistische variabelen. •

De lengte en gewicht van een persoon;

De prijs van een auto en het aantal verkochte modellen;

Het aantal ooievaars en het aantal geboren baby’s in een bepaalde regio;

Het aantal verkochte ijsjes en het aantal verdrinkingen.

Indien er een sterke correlatie is tussen twee variabelen dan betekent dit nog niet dat er een causaal verband is tussen deze variabelen. Soms blijkt er een statistische samenhang te zijn maar is deze correlatie totale nonsens en kan men geenszins spreken over een causaal verband.

www.mathelo.net

De correlatie die er bestaat tussen het aantal piraten op zee en de klimaatopwarming is een duidelijk voorbeeld van een “nonsense”-correlatie.

© 2021 Ivan De Winne

ivan@mathelo.net

1


Statistiek in de tweede graad Een getal dat de sterkte van de correlatie weergeeft is de correlatiecoëfficiënt. De correlatiecoëfficiënt behoort tot de agressiefste statistische instrumenten en het gebruik van dit getal moet men de nodige voorzichtigheid gebeuren. De correlatiecoëfficiënt vat immers honderden of duizenden data, van twee gemeten variabelen samen in één enkel getal dat gelegen is tussen -1 en 1. Uiteraard blijven sommige dingen daardoor buiten beschouwing.

Visualiseren van statistische data Omwille van het grote gevaar van het samenvatten van statistische data in één enkel getal is het noodzakelijk om deze data ook te visualiseren. In de beschrijvende statistiek zijn grafische voorstellingen van data met staafdiagrammen of histogrammen erg nuttig.

www.mathelo.net

Om de correlatie tussen twee statistische variabelen te onderzoeken is het noodzakelijk om deze data te visualiseren met een spreidingsdiagram.

© 2021 Ivan De Winne

ivan@mathelo.net

2


Statistiek in de tweede graad Gebruik van GeoGebra in de bivariate statistiek Indien men de correlatie onderzoekt tussen twee statistische variabelen is GeoGebra een erg handig ICT-hulpmiddel. Wij geven een kort overzicht van het gebruik van een aantal statistische commando’s in GeoGebra waaronder het berekenen van het gemiddelde, de standaardafwijking, de grafische voorstelling met een spreidingsdiagram en het opstellen van de vergelijking van de regressielijn. Van 9 gezinnen werd het aantal gezinsleden genoteerd en de hoeveelheid voedsel dat per maand werd verspild. De resultaten staan in de volgende tabel. Aantal gezinsleden

1

3

5

2

4

7

6

4

3

Voedselverspilling

3,1

9,4

13,7

5,8

12,5

20,3

18,1

13,1

7,9

Start GeoGebra en activeer het Rekenblad samen met het Tekenvenster en het Algebravenster.

Maak twee kolommen met de data. Noteer in kolom 1 het aantal gezinsleden (cel A2 t.e.m. cel A10). Noteer in kolom 2 de hoeveelheid verspild voedsel (cel B2 t.e.m. cel B10).

Selecteer de cellen A2 t.e.m. A10 en maak een lijst l1 van deze data.

Selecteer de cellen B2 t.e.m. B10 en maak ook een lijst l2 van deze data.

Bereken het gemiddelde van het aantal gezinsleden. Typ in het algebravenster het commando gemidd(l1)

Bereken ook het gemiddelde van de hoeveelheid verspild voedsel met commando gemidd(l2)

Bereken nu ook van beide variabelen de standaardafwijking met de commando’s stafwp(l1) en stafwp(l2).

www.mathelo.net

Opmerking: In handboeken van de tweede graad wordt er (vreemd genoeg) meestal gerekend met de populatiestandaardafwijking! In feite zou het correcter zijn om meestal gebruik te maken van de steekproefstandaardafwijking. stafwp(lijst) is commando voor populatiestandaardafwijking en stafw(lijst) is commando voor steekproefstandaardafwijking. De resultaten kan je aflezen in het algebravenster.

© 2021 Ivan De Winne

ivan@mathelo.net

3


Statistiek in de tweede graad 

Om het spreidingsdiagram van deze dataset te tekenen, moet men beide kolommen met data selecteren en vervolgens een lijst l3 met punten maken.

Alle punten van dit spreidingsdiagram kunnen eenvoudig worden weergegeven in het tekenvenster door met de rechtermuisknop te klikken in het tekenvenster en in het rolmenu de optie

te kiezen.

Bereken de correlatiecoëfficiënt r met het commando correlatiecoefficient(l3)

Bepaal de vergelijking van de regressielijn en teken deze rechte met het commando regressielijn(l3)

www.mathelo.net

Je kan ook de naam van de punten verbergen en eventueel de kleur en de stijl van deze punten aan te passen.

Uitgewerkt GeoGebra bestand: voedselverspilling.ggb

© 2021 Ivan De Winne

ivan@mathelo.net

4


Statistiek in de tweede graad Groepswerk Het is de bedoeling om de correlatie tussen twee variabelen van vier verschillende datasets te onderzoeken. Dit kan door een numeriek onderzoek met berekening van kengetallen en aansluitend een grafisch onderzoek met het tekenen van een spreidingsdiagram en de regressielijn.

Gegeven zijn 4 datasets.

Gevraagd: •

Bereken het gemiddelde en de standaardafwijking van de variabelen x1 en y1;

Bereken de correlatiecoëfficiënt r;

Stel de vergelijking op van de regressielijn;

Herhaal dit voor de drie andere datasets;

Vergelijk de gevonden resultaten.

De leerlingen van een klas worden in 4 of meerdere groepen verdeeld worden;

De leerlingen maken gebruik van het programma GeoGebra voor de berekeningen en de grafische voorstellingen van de data;

Elke groep krijgt één dataset en berekent van elke variabele de kengetallen: gemiddelde en standaardafwijking;

Gebruik het commando voor de populatiestandaardafwijking stafwp(lijst);

Voor de sterkte van de correlatie wordt ook de correlatiecoëfficiënt berekent en de vergelijking van de regressielijn opgesteld;

De verschillende groepen vergelijken hun gevonden resultaten;

Conclusie?

© 2021 Ivan De Winne

ivan@mathelo.net

5

www.mathelo.net

Werkwijze:


Statistiek in de tweede graad Werkblad voor de leerlingen Noteer hieronder de antwoorden die met GeoGebra berekend worden:

Dataset 1

Dataset 2

Dataset 3

Dataset 4

Gemiddelde van de variabele xi

𝑥1 = ̅​̅​̅

𝑥2 = ̅​̅​̅

𝑥3 = ̅​̅​̅

𝑥4 = ̅​̅​̅

Gemiddelde van de variabele yi

𝑦1 = ̅​̅​̅

𝑦2 = ̅​̅​̅

𝑦3 = ̅​̅​̅

̅​̅​̅ 𝑦4 =

Standaardafwijking van de variabele xi

𝑠𝑥1

𝑠𝑥2 =

𝑠𝑥3 =

𝑠𝑥4 =

Standaardafwijking van de variabele yi

𝑠𝑦1 =

𝑠𝑦2 =

𝑠𝑦2 =

𝑠𝑦2 =

Correlatiecoëfficiënt

𝑟1 =

𝑟2 =

𝑟3 =

𝑟4 =

Vergelijking van de regressielijn

𝑦=

𝑦=

𝑦=

𝑦=

Vergelijk jouw resultaten met de resultaten van de andere groepen. Besluit?

Maak tenslotte een spreidingsdiagram van deze dataset en teken ook de regressielijn.

www.mathelo.net

Besluit?

Opmerking: Bereken ook de steekproefstandaardafwijking voor deze datasets met het commando stafw(lijst).

© 2021 Ivan De Winne

ivan@mathelo.net

6


Statistiek in de tweede graad Uitgewerkte oplossingen Dataset 1

Dataset 2

Dataset 3

Dataset 4

Gemiddelde van de variabele xi

𝑥1 = 9 ̅​̅​̅

𝑥2 = 9 ̅​̅​̅

𝑥3 = 9 ̅​̅​̅

𝑥4 = 9 ̅​̅​̅

Gemiddelde van de variabele yi

𝑦1 = 7,5 ̅​̅​̅

𝑦2 = 7,5 ̅​̅​̅

𝑦3 = 7,5 ̅​̅​̅

̅​̅​̅ 𝑦4 = 7,5

Standaardafwijking van de variabele xi

𝑠𝑥1 = 3,16

𝑠𝑥2 = 3,16

𝑠𝑥3 = 3,16

𝑠𝑥4 = 3,16

Standaardafwijking van de variabele yi

𝑠𝑦1 = 1,94

𝑠𝑦2 = 1,94

𝑠𝑦2 = 1,94

𝑠𝑦2 = 1,94

Correlatiecoëfficiënt

𝑟1 = 0,82

𝑟2 = 0,82

𝑟3 = 0,82

𝑟4 = 0,82

Vergelijking van de regressielijn

𝑦 = 0,5𝑥 + 3

𝑦 = 0,5𝑥 + 3

𝑦 = 0,5𝑥 + 3

𝑦 = 0,5𝑥 + 3

Spreidingsdiagram dataset 1

Spreidingsdiagram dataset 2

Spreidingsdiagram dataset 3

Spreidingsdiagram dataset 4

© 2021 Ivan De Winne

ivan@mathelo.net

www.mathelo.net

Spreidingsdiagrammen

7


Statistiek in de tweede graad Besluit Deze vier datasets geven (benaderd) dezelfde waarden voor de centrumgetallen en de spreidingsgetallen. Idem voor de correlatiecoëfficiënt en de regressielijn. De spreidingsdiagrammen zijn daarentegen totaal verschillend. Indien men statistische data samenvat in één enkel getal dan is het ook noodzakelijk om deze data ook grafisch voor te stellen.

Dataset 1: redelijke positieve correlatie. De correlatiecoëfficiënt geeft aan dat er geenszins sprake is van een sterke lineaire regressie. De regressielijn is een benadering voor het spreidingsdiagram.

Dataset 2: De correlatiecoëfficiënt geeft een vals beeld omdat er hier absoluut geen sprake is van een lineaire regressie. De datapunten zijn ongeveer gelegen op een parabool.

Dataset 3: redelijke positieve correlatie. De correlatiecoëfficiënt geeft aan dat er sprake is van een lineaire regressie. De regressielijn is een goede benadering voor het spreidingsdiagram met uitzondering van één koppel data. Er is één uitschieter die er voor zorgt dat de waarde van de correlatiecoëfficiënt van 1 vermindert tot 0,82.

Dataset 4:

www.mathelo.net

Er is in dit geval geen sprake van correlatie!

© 2021 Ivan De Winne

ivan@mathelo.net

8


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.