9789144128801 by Smakprov Media AB

Kvantitativ metod En praktisk introduktion

CHRISTER THRANE

Originalets titel: Kvantitative metode: En praktisk tilnærming © Cappelen Damm AS, Oslo, 2018

KOPIERINGSFÖRBUD Detta verk är skyddat av upphovsrättslagen. Kopiering, utöver lärares och studenters begränsade rätt att kopiera för undervisningsändamål enligt Bonus Copyright Access kopieringsavtal, är förbjuden. För information om avtalet hänvisas till utbildningsanordnarens huvudman eller Bonus Copyright Access. Vid utgivning av detta verk som e-bok, är e-boken kopieringsskyddad. Den som bryter mot lagen om upphovsrätt kan åtalas av allmän åklagare och dömas till böter eller fängelse i upp till två år samt bli skyldig att erlägga ersättning till upphovsman eller rättsinnehavare. Studentlitteratur har både digital och traditionell bokutgivning. Studentlitteraturs trycksaker är miljöanpassade, både när det gäller papper och tryckprocess. Art.nr 40155 ISBN 978-91-44-12880-1 Upplaga 1:1 © För den svenska utgåvan Studentlitteratur 2019 studentlitteratur.se Studentlitteratur AB, Lund Översättare: Sven-Erik Torhell Sakgranskare: Sara Öhlin Formgivning inlaga: Jesper Sjöstrand/Metamorf Design Omslagslayout: Jens Martin/Signalera Omslagsbild: Shutterstock.com Printed by Interak, Poland 2019

Innehåll

Förord 7

1 Forskning, kvantitativ metod och statistisk analys 9 Trines studentvänner och deras närvaroprocent på föreläsningar 9 Forskning, kvantitativ samhällsforskning, kvantitativ metod – och den här boken 13 Problemlösning i vardagen = besvarande av problemställningar i forskning 14 Varför lära sig kvantitativ metod? 17 Faser inom kvantitativ samhällsforskning 18 Centraltendens och spridning: medelvärde och median; standardavvikelse och variationsbredd 20 Ett större exempel: Trines andra undersökning om närvaroprocent på föreläsningar 22 Sammanfattning, bokens fokus och vägen vidare 27 Några ord till dig som undervisar i kvantitativ metod – och som studenter kan hoppa över! 28

2 Nyckelbegrepp inom kvantitativ metod 31 Variabler, oberoende variabler och beroende variabler 31 Värden/kategorier 33 Enheter/observationer 34 Variablers mätnivå 35 Teorier och begrepp – och operationaliseringen av dem 37 Avslutning och vägen vidare 45

3 Tre huvudtyper av kvantitativa problemställningar och analystyper 47 Tre statistiska analystekniker använda på studenters tränings- och livsstilsvanor 47 Analysteknik 1: Jämförelse av medelvärde i två grupper 48 Analysteknik 2: Jämförelse av andelar i två grupper 51 Analysteknik 3: Regression (korrelation) 55 Jämförelse av flera grupper, flera andelar och analys av ordinala (beroende) variabler 61 Studenters studievanor och studieprestationer 67 När enheterna inte är människor 71 När ANOVA och regression är samma sak: regression med dummyvariabel 73 Sammanfattning och avrundning 75 Appendix till kapitel 3: Uträkning av regressionskoefficienten (b1) och konstanten (b0) 76

4 Multipel regression 79 Inledning 79 Kontroll för tredjevariabel (fjärdevariabel och så vidare) 81 Regressionsmodellens förklarade varians – R2 85 Regression med dummyvariabler 87 Icke-linjäritet mellan oberoende och beroende variabel 88 Statistisk interaktion i regressionsmodeller 91 När beroende variabel är en dummyvariabel 94 Avslutning: Formaliteter, spuriositet och förutsättningarna för regressionsanalys 96

Inledning 101 Populationer, urval och slumpmässig dragning 102 Normalfördelningen 105 Upprepade urval, centrala gränsvärdessatsen och konfidensintervall 109 Felmarginal, konsekvensen av urvalsstorlek och t-värden 115 Hypotesprövning: för ANOVA, regression och korstabulering 117

Innehåll

5 Slutledningsstatistik: från exakt kunskap om urval till lite mindre precis kunskap om populationer 101

Andra förhållanden och bedömningar kring signifikansprövning och avrundning 128 Sammanfattning av de viktigaste formlerna i kapitel 5 135

6 Typer av problemställningar, forskningsdesign och skrivande av kandidat- och masteruppsatser 137 Inledning 137 Fyra typer av problemställningar för kvantitativa kandidat- och masteruppsatser 137 Fyra typer av forskningsdesign 138 Exempel på longitudinell design (upprepat tvärsnitt): studenters träningsvanor förr och nu 145 Exempel på experimentell design: filmkritik och beslutet att se en film på bio 149 Struktur på kandidat- och masteruppsatser 152 Avrundning om val av problemställning och forskningsdesign 153

7 Kvantitativ metod i praktiken: andra moment och avslutning 155 Inledning: Statistiska samband och statistiskt beroende 155 Insamling av egna data: praktiska, juridiska och etiska aspekter 156 Skeva urval, varianter av slumpmässig dragning och låg svarsprocent/avsaknad av svar 157 Bedömning av effektstorlek 160 Lite mer om olika typer av validitet 162 Lite mer om deskriptiva analyser 163 Icke-linjäritet i regression: variant 2 (polynom) 166 Avslutning och vägen vidare 169 Appendix till kapitel 7: Övningsuppgifter med korta lösningsförslag 172

Noter 187 Litteratur 199 Register 201

Innehåll 5

Kapitel 2

Nyckelbegrepp inom kvantitativ metod Variabler, oberoende variabler och beroende variabler I dagligt tal pratas det ofta om fenomen, saker eller förhållanden; i kapitel 1 intresserade Trine sig för ett statistiskt samband mellan två förhållanden: (1) vad för slags typ av student man var och (2) hur ofta man var närvarande på föreläsningar. Vi kunde där i stället ha skrivit två fenomen eller saker. I metodspråket säger vi att vad för slags student man är, är en variabel. Och att hur ofta man är närvarande på föreläsningar är en annan variabel. Vi använder alltså inte begreppen fenomen, förhållande eller sak inom kvantitativ metod; vi talar bara om variabler. I utsnittet från Trines data i kapitel 1 (SPSS-urklipp 1.1, s 27) är varje kolumn i datamatrisen med andra ord en variabel, som i sin tur hänvisar till var sin fråga i Trines frågeformulär. I avsnittet ”Problemlösning i vardagen” i kapitel 1 nämndes några exempel på analys inom olika samhällsvetenskaper vitt definierade, varav fyra upprepas här: • pedagogen som vill genomföra läreffekten av två olika

pedagogiska upplägg • psykologen som vill jämföra kvinnors och mäns hållning till

oförpliktande sex • sociologen som vill jämföra kvinnors och mäns inkomster,

sjukfrånvaro eller träningsmängd • statsvetaren som vill jämföra överskottet i rött styrda och blått

styrda kommuner. Pedagogen har här två variabler: pedagogiskt upplägg och läreffekt. Psykologen har också två variabler: kön och oförpliktande sex. Sociologen har fyra: kön, inkomst, sjukfrånvaro och träningsmängd. Till 31

Kapitel 2 Nyckelbegrepp inom kvantitativ metod

slut har statsvetaren två: kommuners styrelseform och ekonomiskt överskott. Nu har vi förstått essensen hos en variabel, nämligen att den varierar. Kön, inkomst, sjukfrånvaro och hållning till oförpliktande sex varierar bland människor, pedagogiskt upplägg och läreffekt varierar bland skolor och styrelseform och ekonomiskt överskott varierar kommuner emellan. I kvantitativ samhällsforskning är definiering av variabler en viktig start. Men det man är mest upptagen av i sådan forskning är samband eller samvariation mellan variabler. Där tänker vi att statistisk variation i en variabel (typ av student) är det som driver fram statistisk variation i en annan variabel (närvaroprocent). Och i avsnitten ”Trines studentvänner” och (delvis) ”Ett större exempel” i förra kapitlet såg vi att det fanns ett statistiskt samband eller en statistisk samvariation; den ena studentgruppen gick något oftare på föreläsningar än den andra. En viktig punkt här är riktningen på sambandet eller samvariationen. Den variabel vi tror driver fram statistisk variation i en annan variabel kallas den oberoende variabeln. I vårt exempel är detta typen av student. Den variabel som i statistisk mening påverkas av en annan variabel kallas den beroende variabeln. I vårt exempel är detta närvaroprocenten. Eller annorlunda uttryckt: vad för slags typ av student man är påverkar eventuellt hur ofta man går på föreläsningar; hur ofta man går på föreläsningar kan inte tänkas påverka vad för slags student man är. Det är inte alltid lätt att avgöra vad som är en oberoende och vad som är en beroende variabel i en analys medan saken säger sig själv andra gånger. För sambandet mellan kön och inkomst är kön nödvändigtvis oberoende variabel (det som skapar statistisk variation i en annan variabel) medan inkomst är beroende (det som påverkas statistiskt). Vi kan inte se för oss att inkomst eller en annan variabel påverkar vad för slags kön man är. Men för att kunna göra en analys i ett statistikprogram och för att få ett tolkningsbart resultat från denna måste vi oftast specificera vad som är oberoende respektive beroende variabel. Tillbaka till inkomsten: Vad händer om denna ses tillsammans med penningförbrukning? I en sådan analys skulle inkomsten vara oberoende variabel. Din förbrukning är ju nödvändigtvis betingad av din inkomst, inte motsatsen. Det visar att samma variabel (inkomst) i två analyser kan skifta från att vara oberoende till att vara beroende variabel. Ofta ställs idén om oberoende och beroende variabel upp med boxar och pilar, som i figur 2.1.

Oberoende variabel

Beroende variabel

Typ av student

Närvaroprocent

Figur 2.1 Oberoende variabel (typ av student) och beroende variabel (närvaroprocent). Pilarna anger riktningen på statistisk påverkan.

Pilarna i figur 2.1 visar riktningen på den statistiska påverkan. Den oberoende variabeln skapar statistisk variation i den beroende variabeln; olika typer av student skapar olikhet i närvaroprocent – inte motsatsen. Oberoende och beroende variabel kan ibland bli språkligt tungt, särskilt när det upprepas mycket. Därför är det tradition inom kvantitativ metod att använda symbolen x för oberoende variabel, pil för riktning på statistisk påverkan och y för beroende variabel, det vill säga x → y i statistisk mening. Jag har använt begreppet ”statistisk påverkan”, vilket är avsiktligt. Därmed undviks begreppet ”kausal påverkan”, som är ett kraftigare budskap. Kausal påverkan betyder att x är orsak till y utan att det nu är dags att gå in djupare på orsaksbegreppet.1 Med statistisk påverkan menar vi bara att det finns ett statistiskt samband mellan x och y, och att vi antar att det är den statistiska variationen i x som frambringar den statistiska variationen i y. Sedan kan det vara en fin övning för tanken att tänka på orsak och verkan när man ska bestämma vad som är oberoende respektive beroende variabel i en analys, men det är en annan sak.

Värden/kategorier Värden eller kategorier är också viktiga begrepp inom kvantitativ metod, utan att det tar så stor plats att beskriva dem. Variabeln närvaroprocent i Trines data kan anta värden från 0, 1, 2 och så vidare upp till och med 100 %. När en variabel kan anta många av ”något” är det vanligt att använda begreppet värde; närvaroprocenten kan alltså anta 100 olika värden. Variabeln typ av student kan i Trines data bara anta två värden, det vill säga antingen psykologistudent eller ekonomistudent. När en variabel kan anta få av ”något” är det vanligare att använda begreppet kategori. Typ av student har därmed två kategorier. Denna distinktion gör att inkomst har en nästan oändlig rad av möjliga talvärden medan variabeln kön har två kategorier: kvinna eller man. Motsvarande har överskott en nästan oändlig rad av möjliga värden medan styrelseform har två kategorier: rött styre och blått styre. En minimidefinition av en variabel är därför ”något” som kan anta minst två kategorier/värden. Kapitel 2 Nyckelbegrepp inom kvantitativ metod 33

Enheter/observationer Enheter och observationer används om vartannat. Enkelt uttryckt är enheterna/observationerna dem vi har data om; lite pedantiskt är det dem som vi har variabelinformation om. Eller vi säger att enheterna är dem vi studerar eller analyserar statistiskt. Trines enheter är studenter, statsvetarens enheter är kommuner och pedagogens enheter är skolor (jämför exemplen i kapitlets första avsnitt). I analyser baserade på frågeformulär är människor i sista instans alltid enheter, det vill säga undersökningspersoner. Observationer eller enheter kan vara något annat än människor, skolor, företag eller kommuner i statistisk analys, även om detta är mer undantagsvis inom samhällsvetenskap. En lördag i juni 2017 rapporterade Verdens Gang om ett produkttest, och data ser du i tabell 2.1. Variablerna är kilopris i norska kronor, betyg (möjliga värden från 1 till 6) och köttprocent.

Kilopris i norska kronor

Betyg

Köttprocent

177

154

210

148

149

303

149

111

119

219

207

146

163

133

179

137

149

282

Kapitel 2 Nyckelbegrepp inom kvantitativ metod

Tabell 2.1 Data från produkttest i Verdens Gang sommaren 2017

Kilopris i norska kronor

Betyg

Köttprocent

213

163

Vilka är enheterna i dessa data? Svaret är 23 olika slags korvar. (De vegetariska korvarna i testet har utelämnats från data!) Vi återkommer till dessa data senare.

Variablers mätnivå Att variabler har olika antal värden eller kategorier är ofta en signal om att de har olika mätnivåer. Mätnivån för en variabel är fundamentalt viktig för statistisk analys och skälet till det återkommer jag strax till. I praktiken har vi tre mätnivåer inom samhällsvetenskap: jämförelsetalsnivån (den högsta), ordinalnivån och nominalnivån (den lägsta). Mer om dem nu:

Kvotnivån. Att en variabel är på denna nivå innebär i praktiken att den har många naturliga talvärden, något som gör att vi enkelt kan utföra exakta kvantitativa jämförelser. Ta variabeln närvaroprocent. En som har varit på 60 % av föreläsningarna har varit på dubbelt så många som en som har varit på 30 % av föreläsningarna. När vi kan säga detta är det för att avståndet från 20 till 30 är lika långt som avståndet från 30 till 40 och så vidare. Närvaroprocenten har också ett medelvärde och en standardavvikelse och en median och en variationsbredd, som visades i avsnittet ”Centraltendens och spridning” i kapitel 1. En variabel på denna nivå rymmer mycket statistisk information och mer av detta än variabler på andra mätnivåer. Variabler på kvotnivå kallas också kontinuerliga eller metriska variabler. Andra exempel på variabler på kvotnivå är ålder mätt i antal år, inkomst mätt i kronor, ekonomiskt överskott i kronor och träningsmängd uppfattat som antal timmar eller antal gånger per vecka – kort och gott variabler med en rad av tal som möjliga värden, som också kan inkludera decimaler och 0. Nominalnivån. Detta är variablerna i andra ändan av informations skalan, det vill säga variablerna med minst statistisk information. Typ av student är en sådan variabel i Trines data; antingen är man psykologistudent (det ena) eller så är man ekonomistudent (det andra). Kapitel 2 Nyckelbegrepp inom kvantitativ metod 35

Ordinalnivån. Värdena för en ordinalnivå kan rangordnas; vi kan säga att ett bestämt värde är mer eller mindre än ett annat värde. Låt oss säga att någon får frågan ”Hur många gånger i veckan tränar du?” i ett frågeformulär. Svarsalternativen är 0 gånger per vecka, 1 till 2 gånger per vecka, 3 till 4 gånger per vecka eller 5 gånger eller mer per vecka. Denna variabel rangordnar svaren – en som tränar 5 gånger i veckan tränar otvivelaktigt oftare än en som tränar 3 till 4 gånger eller 1 till 2 gånger. Men vi kan inte exakt säga hur mycket oftare. Skälet är att avstånden mellan värdena inte är konstanta, som de är på kvotnivån. Därför kan man egentligen inte räkna på sådana variabler, det vill säga använda statistiska mått som medelvärde, standardavvikelse och så vidare. När det är sagt är det vanligt att låtsas som om ordinala variabler är på kvotnivån – just för att kunna utföra de nämnda matematiska operationerna (jämför avsnittet ”Jämförelse av flera grupper” i kapitel 3). Lägg märke till att frågan kunde haft ”__ antal gånger” som svar; då skulle variabeln ha varit på kvotnivå. Normalt är det klokt att eftersträva högsta möjliga mätnivå för en variabel där man kan välja, eftersom det ger störst möjligheter för statistisk analys i efterhand. Det finns ett hav av ordinala variabler inom samhällsvetenskap; en klassiker är påståenden som besvaras med instämmer helt, instämmer 36

Kapitel 2 Nyckelbegrepp inom kvantitativ metod

Punkt. För kön är man antingen kvinna eller man. Antingen har man det ena pedagogiska upplägget eller så har man det andra. Och så vidare. Formellt är det enda som präglar en nominal variabel att den består av ömsesidigt uteslutande värden/kategorier. Exemplen ovan är nominala variabler med två kategorier. Dessa kallas dikotoma eller binära och är specialfall av nominala variabler. I frågeformulär har några frågor svarsalternativen ja, nej och vet inte. Detta är en nominalnivå med tre kategorier. Variabeln landsting har i Sverige 20 olika värden/kategorier. Du kommer också ofta att se nominala variabler omnämnda som kategoriska variabler. Den enda räkneoperationen för nominala variabler är att räkna samman hur många observationer det finns i varje värde/kategori; eventuellt ta reda på vilket värde eller vilken kategori som är mest typiskt eller typisk (det vill säga modalvärde). Något annat med nominalvariabler är att deras värden/kategorier inte kan rangordnas. Vi kan inte säga att kvinna är ”mer än” man som vi kan säga att en som tränar 6 timmar i veckan tränar mer än en som tränar 4 timmar. Rangordning är ett viktigt stickord för den tredje typen av variabler: de ordinala variablerna.

delvis, tveksam, tar delvis avstånd, tar helt avstånd. Detta kallas en Likertskala. De ordinala variablerna befinner sig i en mellanposition; de rymmer mer information än nominala variabler, men mindre än variabler på kvotnivå. Sammanfattat och i stigande ordningsföljd med hänsyn till informa tionsmängden: • Något är bara olikt något annat → nominalnivå. • Något är mer än något annat (bättre, högre, större och så vidare)

→ ordinalnivå. • Något är mer än, men också dubbelt så mycket som, något annat → kvotnivå.2 Varför är en variabels mätnivå viktig? Ett skäl är att ju högre mätnivå en variabel har, desto mer statistisk information rymmer den. Det viktigaste skälet är dock att mätnivån för en variabel bestämmer vilken typ av statistisk analysteknik som är relevant att använda när en variabel ska ses i samband med en annan variabel. Att klassificera en variabels mätnivå är därför en ytterst viktig uppgift och färdighet inom kvantitativ metod.

Teorier och begrepp – och operationaliseringen av dem Innan vi kommer till den praktiska delen av kvantitativ samhällsforskning (designval, datainsamling, dataanalys och så vidare) måste det reflekteras och teoretiseras. Detta har varit underkommunicerat fram tills nu eftersom jag sätter strålkastarljuset på det praktiska. Ett kvantitativt forskningsprojekt börjar med att man sätter sig in i teorier och tidigare forskning på ett område. Problemställningen diskuteras inledningsvis på en teoretisk, för att inte säga abstrakt, nivå. På denna teoretiska nivå talar man mer än gärna om fenomen och förhållanden. Sedan arbetar man sig ”nedåt” mot det praktiska, det vill säga mot datainsamling och dataanalys. Detta ser vi nu kort på inom ramen för kvantitativ samhällsforskning.3 Flera samhällsvetenskaper intresserar sig för samband mellan generationer, det vill säga hur barn som vuxna ofta ”liknar” sina föräldrar – i val av utbildning och yrke, i sätt att vara, i förhållande till vad man tycker om att göra på fritiden och så vidare. Precis som i Trines exempel förväntar man sig till exempel att unga vuxnas poliKapitel 2 Nyckelbegrepp inom kvantitativ metod 37

tiska intresse (beroende variabel) kommer att variera efter om deras föräldrar är politiskt intresserade eller inte (oberoende variabel med två kategorier). Ofta förklaras sådana statistiska samband teoretiskt med socialisation (internalisering), att barn genom att tala med, se på och imitera sina föräldrar gör sina föräldrars värdeuppsättning och attityder till sina egna. Därför slutar barn ofta med att ”likna” sina föräldrar när de själva blir vuxna. Processen som förklarar detta, socialisationen, kan emellertid inte observeras direkt – den är teoretisk eller ligger på en teoretisk nivå. Nästa nivå i forskning är att konstruera och koppla samman de begrepp man vill studera, det vill säga konceptualisera, till exempel genom att konstruera en modell som i figur 2.2. Inte heller på denna rena begreppsnivå kan något observeras direkt.

Socialisation

Vad föräldrarna tycker om/gör

Vad deras barn tycker om/gör

Figur 2.2 Modell för processen som leder till att unga vuxna slutar med att ”likna” sina föräldrar via socialisation. Streckad linje anger det statistiska samband man förväntar sig finna mellan generationerna; de heldragna linjerna symboliserar den socialisation som sker.

Föräldrarnas träningsattityder och träningsvanor

Deras barns antal timmar med träning per vecka

Figur 2.3 Det förväntade statistiska sambandet mellan föräldrars och deras barns träningsvanor.

Kapitel 2 Nyckelbegrepp inom kvantitativ metod

Begreppsnivån kommer också normalt att kopplas närmare till det aktuella temat i en studie. Ett exempel från träningsvärlden kan vara modellen i figur 2.3, som berättar att föräldrars träningsattityder och träningsvanor direkt ”smittar” över på deras barns motsvarande träningsvanor. På den tredje nivån har vi variablerna, det vill säga operationaliseringen av begreppen. (I litteraturen går begreppen operationalisering och mätning lite om varandra.) Det kan vara frågor i ett frågeformulär

till ett urval unga vuxna om egna träningsvanor och om deras föräldrars motsvarande träningsvanor den gången då dessa unga vuxna ännu bodde hemma hos sina föräldrar. Den fjärde nivån är de konkreta data som frågorna i formuläret mynnar ut i och som ligger lagrade som tal i en datamatris i en dator. Vi kan alltså se för oss en process där man arbetar sig ”nedåt” från det rent teoretiska till det rent empiriska, för att inte säga praktiska, som i figur 2.4 (empiriskt = baserat på erfarenhet/data; förnimbart). 1. Teorinivå (teoretiskt) 2. Begreppsnivå (teoretiskt) 3. Variabelnivå (empiriskt) 4. Datanivå (empiriskt)

Figur 2.4 Olika nivåer i en kvantitativ forskningsprocess, där man arbetar sig ”nedåt” från 1 till 4 om man (också) samlar in egna data.

Operationalisering. Operationalisering handlar om att göra om något som är en smula abstrakt till något konkret och mätbart, det vill säga om övergången från nivå 2 till nivå 3. Denna övergång är avgörande. Ta begreppet föräldrars träningsattityder och träningsvanor i figur 2.3. Hur kan detta mätas eller operationaliseras? Figur 2.5 visar ett utsnitt av ett frågeformulär ställt till ett urval studenter vid en högskola, det

stämmer mycket väl (6)

stämmer väl (5)

stämmer ganska väl (4)

varken–eller (3)

stämmer ganska dåligt (2)

stämmer dåligt (1)

Påståenden

stämmer mycket dåligt (0)

Nedan ber vi dig att ta ställning till en rad påståenden med svarsalternativen ”stämmer mycket väl”, ”stämmer väl”, ”stämmer ganska väl”, ”varken–eller”, ”stämmer ganska dåligt”, ”stämmer dåligt” och ”stämmer mycket dåligt”. Tycker du att det är svårt att ta ställning till något av påståendena är ”varken–eller” troligen det rätta svarsalternativet för dig här!

Min mor höll mycket på med fysisk aktivitet då jag växte upp. Mina föräldrar har ständigt varit upptagna av att förmedla de positiva sidorna av fysisk aktivitet. Min far höll mycket på med fysisk aktivitet då jag växte upp.

Figur 2.5 Ett litet utsnitt från ett frågeformulär om studenters träningsoch livsstilsvanor

Kapitel 2 Nyckelbegrepp inom kvantitativ metod 39

Stataurklipp 2.1 Medelvärde för tre påståenden om föräldrars fysiska aktivitet/träningsvanor

vill säga tre frågor (variabler) kring deras föräldrars betoning av träning/fysisk aktivitet medan de själva (studenterna) växte upp. De tre variablerna har värden från 0 (stämmer mycket väl) till 6 (stämmer mycket dåligt); de är ordinala. I etablerad tradition låtsas vi som att de är på kvotnivå. Då är, som vi nu vet, medelvärdet ett relevant mått på centraltendensen. I Stataurklippet 2.1 kallas de tre påståendena/variablerna hold_6 (mor), hold_25 (föräldrar) och hold_21 (far), och vi ser deras medelvärden på skalan från 0 till 6. Påståendet ”Mina föräldrar …” (hold_25) har ett medelvärde på cirka 3,91. Detta berättar att en typisk student tycker att påståendet nästan stämmer ganska väl (det vill säga 4). 460 studenter har besvarat denna fråga. Den typiske studenten instämmer i mindre utsträckning i de två andra påståendena och särskilt i det om moderns fysiska aktivitet (2,78). Här ligger det typiska svaret mellan ganska dåligt (2) och varken–eller (3). (Kommandot ”sum hold_6 hold_25 hold_21” i fönstret för Command, följt av tryckning på Enter, ger resultatet i Stataurklipp 2.1.)

Kapitel 2 Nyckelbegrepp inom kvantitativ metod

Stataurklipp 2.2 Konstruktion av additivt index (föräldrars träningsfokus) med åtföljande beräkning av medelvärde

De tre påståendena fångar upp olika aspekter av föräldrarnas intresse för träning. Viktigare är att de tillsammans får tag i fler aspekter av föräldrarnas träningsattityder och träningsvanor än vad påståendena gör var för sig. En vanlig strategi inom kvantitativ samhällsforskning är därför att låta påståendena bilda ett index, det vill säga ett samlande, empiriskt uttryck för det teoretiska begrepp vi vill mäta. Hur då? Man ber statistikprogrammet summera de tre påståendena och dividera med antalet påståenden. Då har man skapat en ny variabel – ett additivt index – med samma minimivärden och maximi värden som de tre ursprungliga variablerna för sig. Stataurklipp 2.2 visar detta. Indexet for_tran_index (en förkortning för ”föräldrarnas träningsindex”) har ett medelvärde på 3,36 på skalan från 0 till 6.4 Ju högre värde för detta index, desto större träningsfokus hos studenternas föräldrar. Normalt ger ett index en mer täckande bild av eller en bättre operationalisering av ett teoretiskt begrepp än vad variabler gör var för sig. Ett sådant index kan också kallas en indikator, en variabel som indikerar ett teoretiskt begrepp. Kommandot som bildar index,

Kapitel 2 Nyckelbegrepp inom kvantitativ metod 41

som i sin tur har ett medelvärde, finner du ovanför själva resultatet (”gen for_tran_index = (hold_6 + hold_25 + hold_21)/3”). Jag återkommer till indexet för föräldrars träningsfokus senare i boken. Så till operationaliseringen av barnens/studenternas egna träningsvanor. Vi kan här tänka oss ett index skapat på samma sätt som för föräldrarna, eller vi kan fråga direkt genom en enkel fråga (variabel) som ”Hur många timmar tränar du en typisk vecka (vi tänker på träning som att vara fysiskt aktiv i träningskläder så att du blir svettig och/eller andfådd)? ____ antal timmar”. Gör vi det senare hamnar vi på nivån för variabler/index enligt modellen i figur 2.6. Denna förmedlar hypotesen att barn till föräldrar med högt träningsfokus tränar mer än barn till föräldrar med lägre träningsfokus. Föräldrarnas träningsfokus (index)

Deras barns antal timmar med träning per vecka

Figur 2.6 Modell som uttrycker hypotesen att ju mer träningsfokuserade föräldrarna är, desto mer tränar också deras barn.

Validitet. Validitet (giltighet) handlar om huruvida man förmår mäta det teoretiska begrepp man försöker mäta, om indexet föräldrars träningsfokus är ett lämpligt mått på föräldrars träningsattityder och träningsvanor. Här finns det inget enkelt svar, det är bara sunt förnuft (face validity), argumentation och tidigare forskning som avgör. Tänk att du ska operationalisera begreppet religiositet. En variabel (indikator) kan tänkas vara hur ofta man går i kyrkan. En annan är hur ofta man ber till Gud. En tredje är hur ofta man deltar i religiösa tillställningar utanför kyrkan, som frivillig eller deltagare. Alla dessa varia bler är alltså möjliga operationaliseringar av (det teoretiska) begreppet religiositet. Bör vi då skapa ett index som i exemplet ovan? Inte nödvändigtvis. Det måste ju inte vara så att de som går oftast i kyrkan också är de som ber oftast och som deltar mest i andra typer av kyrkliga tillställningar. Det kan tänkas att bedjande och deltagande i kyrkliga 42

Kapitel 2 Nyckelbegrepp inom kvantitativ metod

Validitet och reliabilitet. Dessa storheter är nära förbundna med operationalisering på det sättet att en lyckad operationalisering har en hög grad av både validitet och reliabilitet. Annorlunda uttryckt är hög validitet/reliabilitet en förutsättning för en god operationalisering. (Det finns flera typer av validitet, och det följande handlar om så kallad begreppsvaliditet.5)

arrangemang är delvis alternativa religiösa uttryck, antingen gör man det ena eller så gör man det andra. Och då blir en sammanslagning av aktiviteterna att blanda äpplen och päron. Sett på det sättet är additiva index inte alltid automatiskt en bra lösning när man operationaliserar teoretiska begrepp. Reliabilitet. Reliabilitet (tillförlitlighet) handlar om precisionen hos våra operationaliseringar, det vill säga variablerna eller indexen, och om mätfelen eller otillförlitligheterna här. Hot mot reliabiliteten är till exempel att en undersökningsperson egentligen avsåg att sätta ett kryss på ”stämmer ganska väl” men felaktigt kryssade på ”stämmer väl”. Ett annat hot är att den som registrerade svaren i datamatrisen skrev in talet 4 (stämmer ganska väl) när det riktiga talet var 5 (stämmer väl). Därför kommer det alltid att finnas otillförlitligheter (mätfel) i data från frågeformulär. Tillfälliga mätfel kan vi leva med (att cirka lika många lite för höga och lite för låga tal ”nollas ut” i genomsnitt), medan systematiska mätfel ofta är ett hot mot validiteten – att vi mäter något annat än det vi önskar. Att låta ett index hellre än enskilda variabler representera ett teoretiskt begrepp, som visades ovan, är något som minskar mätfel och därför förbättrar reliabiliteten i många fall. En bild av reliabilitet och validitet är som följer. Du är på skjut banan och ska skjuta en serie på fem skott mot en prick. Träff i centrum ger 10 poäng och ju längre från centrum som skottet sitter, desto lägre blir poängsumman. En tät serie skott i centrum och därmed 50 poäng betyder hög validitet och hög reliabilitet. En tät serie i ytterkanten av pricken, till exempel ute till höger i ringen som ger 3 poäng per skott och 15 poäng totalt, berättar om hög reliabilitet (tät samling) men låg validitet (bom på centrum). Motsvarande ger fem skott i centrum på grannens prick hög reliabilitet men låg validitet, det vill säga en god operationalisering av ett annat teoretiskt begrepp än det vi är ute efter! Serien 10 poäng, 7 poäng (lågt vänster), 8 poäng (högt höger), 6 poäng (högt centrum) och 8 poäng (lågt centrum), det vill säga stor spridning kring centrum, betyder hög validitet men låg reliabilitet. Lägg märke till att hög validitet och hög reliabilitet är något vi eftersträvar i forskning men att bedömningen av om detta har uppnåtts är en fråga om grader snarare än en fråga om absoluta värden. Testning av reliabilitet. Medan validitet bedöms med argumentation är frågan om reliabilitet mer empiriskt testbar. Det vill säga att statistikprogrammet kan användas för att bedöma reliabiliteten när vi har med Kapitel 2 Nyckelbegrepp inom kvantitativ metod 43

index att göra. Enkelt uttryckt testas den interna konsistensen bland de enskilda variabler som ingår i indexet, och resultatet ges i form av ett så kallat Cronbachs alfavärde. (Det matematisk-statistiska går jag inte in på här.) Procedur och resultat framgår av Stataurklipp 2.3. (Kommandot står som vanligt alldeles ovanför resultatet; ”alpha hold_6 hold_25_hold_21”.) Det viktiga är reliabilitetskoefficienten på 0,64. En koefficient på 0.60 är ofta det lägsta godkända värdet för ett index vad gäller reliabilitet om vi själva har skapat variablerna (frågorna) som ingår i det. Används variabler som andra har utvecklat i tidigare forskning i indexkonstruktionen, något som är vanligt, är 0,7 det typiska tröskelvärdet för ett tillräckligt reliabelt index. Man kan experimentera med vilka variabler som bör in i ett index genom att pröva olika kombinationer och se vilken kombination som ger det högsta alfavärdet.

Stataurklipp 2.3 Reliabilitetstest av index för föräldrars träningsfokus

Kapitel 2 Nyckelbegrepp inom kvantitativ metod

Avslutning och vägen vidare

Utgångspunkten för kapitel 2 har varit att kvantitativ metod kan sägas vara ett stamspråk. Eller att detta område har sin egen och unika begreppsapparat. Det mest centrala här, åtminstone som utgångspunkt för en praktisk introduktion till kvantitativ metod, har vi nu kommit igenom. Vidare förutsätts i boken att kapitel 2 är rimligt väl bearbetat. Jag understryker att innan man kommer till det praktisk-statistiska i kvantitativ samhällsforskning, det vill säga det som framhävs i denna bok, måste lite arbete läggas ned på reflektion, teoretisering och operationalisering av begrepp. Men det är något jag tar lätt på i kommande kapitel, rätt och slätt för att det tar för mycket plats att introducera varje exempel från grunden. Tvärtom hoppar vi snabbt till hypotesen som ska belysas/frågan som ska besvaras, det vill säga problemställningen, utan att dröja så mycket vid bakgrunden till denna. Kort sagt förutsätter jag i det följande att det mesta som har nämnts i kapitel 2 är avklarat.

Kapitel 2 Nyckelbegrepp inom kvantitativ metod 45

Christer Thrane är sociolog och professor vid Høgskolen i Innlandet.

Kvantitativ metod En praktisk introduktion Den här boken bygger på konkreta exempel och är nära kopplad till statistikprogrammen SPSS och Stata. Den har en tydlig praktisk inriktning mot att ”göra” kvantitativ metod inom samhällsvetenskaplig forskning. Målen med boken är • att få förståelse för grundbegreppen i forskning som bygger på kvantitativa metoder och statistisk analys • att kunna genomföra statistiska analyser av insamlat material eller av redan befintliga data • att kunna skriva en kandidat- eller masteruppsats baserad på kvantitativ metod/statistisk analys.

Art.nr 40155

studentlitteratur.se