9789151107202 by Smakprov Media AB

Data och modeller

EN HANDBOK FÖR ANALYS

Anders Broström & Karl Wennberg

Innehåll 1. Analytisk förståelse 11 Tilltro till data 12 Analytiska syften 12 Bokens upplägg 14 Fördjupad läsning 15 2. Att beskriva och åskådliggöra data 17 Beskrivningar av en mätserie 17 Jämförelser mellan mätserier 21 Beskrivningar av samvariation 24 Sammanfattande råd 25 Fördjupad läsning 26 3. Att dra slutsatser från data 27 Kvaliteten på data avgör analysens gränser 27 Reliabilitet och validitet – två informella definitioner 28 Hur upptäcks problem med reliabilitet och validitet? 30 Några vanliga misstag 32 Validitet och urval 33 Felaktiga data och rensning 36 Sammanfattande råd 38 Fördjupad läsning 38

4. Modeller som analytiska verktyg 39 Modeller som representation 39 Vad är en bra modell? 40 Modeller och samband 45 Två sorters orsakssamband 46 Olika sorters variabler 46 Att modellera relationer mellan två variabler 48 Sammanfattande råd 49 Fördjupad läsning 49 5. Att utforska mönster i data 51 Analysalternativ 51 Enkla medelvärden 52 Normering av data 53 Trimning av data 53 Regressionsanalys 54 Sammanfattande råd 54 Fördjupad läsning 54 6. Att studera orsak och samband 55 Ett recept för kunskap: hypotetisk-deduktiv vetenskap 55 Ny teknik och gamla principer 57 Förutsättningar för kontrafaktisk analys 58 Triangulering och komplementerande analyser 61 Reliabilitet och validitet för samvariation och kausalitet 62 Sammanfattande råd 63 Fördjupad läsning 64

7. Från modell till slutsats genom regressionsanalys 65 Identifiera kontrollvariabler 65 Val av variabler i en regressionsmodell 66 Kausala diagram 69 Modererande faktorer 72 Estimatorer för utfall som är långt ifrån normalfördelade 74 Endogenitetsproblem 76 Sammanfattande råd 78 Fördjupad läsning 79 8. Prediktion 81 Validering 81 Handlar inte alla analyser om att förutsäga framtiden? 82 Prediktionsförmåga 84 Prognosmodeller 86 Sammanfattande råd 88 Fördjupad läsning 88 9. Modeller, data och verklighetsuppfattning 89 Terminologiförklaring 91

Författarpresentation

Anders Broström är docent och lektor i nationalekonomi vid KTH, gästlärare vid Göteborgs universitet och vd för forskningsinstitutet Entreprenörskapsforum. Han har arbetat som utförare och beställare av kvantitativa analyser i ett flertal roller, och har mångårig erfarenhet av undervisning inom vetenskaplig metod och analys.

Karl Wennberg är professor i företagsekonomi vid Handelshögskolan i Stockholm och föreståndare för Handelshögskolans House of Governance and Public Policy (GaPP), ett forsknings- och utbildningsinstitut som syftar till stärkt ledarskap och beslutsfattande i myndigheter och företag. Han har mångårig erfarenhet av utbildning inom vetenskapsteori och statistisk analys vid universitet, myndigheter och företag.

Förord

Den här boken vänder sig till dig som vill bidra till bättre kunskap genom analys av data. Vår ambition är att på ett kortfattat sätt ge en översikt över vad det innebär att göra en god analys. Vi har valt en framställning som ligger långt ifrån den tekniskt orienterade texten. Du kommer inte att möta avancerade statistiska utläggningar och heller inte konkret handledning i hur den ena eller andra mjukvarumiljön fungerar. Vad vi i stället erbjuder är en grundlig diskussion om principer för hur man kan dra goda slutsatser från data, och en orientering i typiska tekniker som används i modern analysverksamhet.

Vi har lagt särskild vikt vid att reda ut en rad skillnader i synsätt och arbetssätt mellan olika typer av analys som vi själva brottats med i vårt arbete som analytiker och forskare. Vad skiljer till exempel den prediktiva analysen från den förklarande? Är maskininlärningsalgoritmer och regressionsmodeller alternativa arbetssätt eller väsensskilda verktyg?

Vi tänker oss att du som läsare redan har viss erfarenhet av analys och viss kunskap inom grunder som statistisk teori. I den här boken har vi samlat insikter som hjälpt oss att bli bättre analytiker, och vi hoppas att den ska hjälpa dig att ta ditt analytiska tänkande och arbete till nästa nivå.

Stockholm, april 2023

Anders Broström & Karl Wennberg

1. Analytisk förståelse

Without data, you are just another person with an opinion.

W. EdWards dEming

En stor del av vår vardag formas genom kvantitativ analys. På våra arbetsplatser förväntas vi använda olika former av analyser eller dataöversikter som underlag för beslut. Våra besök på digitala mötes- och handelsplatser formas av algoritmer som försöker analysera våra behov och intressen. I nyhetsflödet duggar det tätt av opinionsundersökningar, påståenden baserade på studier och nya sammanställningar av data. Och så vidare. Det finns skäl att beskriva den tid vi lever i som ”dataåldern” eftersom data som tillgång och råmaterial spelar en sådan central roll i vårt samhälles utveckling, på ett sätt som kan liknas vid järnets betydelse för den långa tidsperioden mellan bronsålder och medeltid.

Det råder alltså ingen tvekan om att kvantitativ analys spelar en viktig roll i dagens värld. Systematisk analys av data kan ge överblick och insikt, vilket kan hjälpa oss att fatta beslut. Det blir också möjligt att lämna över vissa typer av beslut till automater (AI, robotar) vars reaktionstid och förmåga att överblicka stora mängder data vida överträffar människans.

I en värld som formas av data och analys är det viktigt att ha god analytisk förmåga. Att förhålla sig kritiskt till analyser gjorda av andra, och att själv göra kloka val i sin analys, blir allt viktigare i en lång rad yrken. Ur ett bredare samhällsperspektiv är det också viktigt att vi som medborgare kan förhålla oss till påståenden som görs utifrån någon form av data.

Tilltro till data

I slagkraftiga citat som det i kapitlets inledning, tillskrivet den inflytelserike amerikanske statistikern W. Edwards Deming, framställs kvantitativa dataunderlag som den bästa – till och med den enda – källan till välgrundad kunskap. Beväpnade med kvantitativa data kan vi se klarare än vi kan med hjälp av enbart kvalitativa metoder såsom intervjuer, som är behäftade med problem som bekräftelsebias (människor ser och hör det de vill se och höra) och godtycklighet (flera möjliga, diametralt olika slutsatser kan dras). Men vi bör som användare av data akta oss för att lita blint på data. Det är inte det faktum att det finns siffror som beskriver (någon del av) ett fenomen som gör att vi förstår det. Med ett okritiskt förhållningssätt parat med bristande förståelse för den verklighet data kommer ur kan tillgång till data leda rejält snett.

Data i ett kalkylblad kan vara vilseledande på samma sätt som rent anekdotisk information kan vara det. Bekräftelsebias och godtycklighet smyger sig gärna in i analyser av alla de slag. Vilka frågor som analytikern ställer, vilka bearbetningar av till exempel avvikande datapunkter (s.k. utliggare) som görs och vilka slutsatser analytikern är beredd att dra av observerade mönster i data påverkas av vad hen förväntar sig eller vill komma fram till. Men man kan hävda att det i kvantitativ analys finns möjlighet att motverka den här typen av problem på ett mer systematiskt sätt än vad som i regel är möjligt i kvalitativ analys.

I detta ligger potentialen för datadriven analys som vägen till mer pålitliga insikter, som det uttrycks i det här kapitlets inledande citat. Att ha tillgång till goda data är bara en av flera nödvändiga ingredienser i ett recept för bättre (eller åtminstone mer välgrundade) beslut.

Analytiska syften

En vanligt förekommande indelning i dag är att skilja mellan deskriptiv, prediktiv och preskriptiv analys. Deskriptiv analys syftar till att beskriva ett dataset eller beskriva ett fenomen med hjälp av data, medan den prediktiva analysen syftar till att förutsäga framtiden. Preskriptiv

Data och moDeller 12

analys, slutligen, syftar till att algoritmiskt välja ut det bästa beslutsalternativet.

Det råder en viss förvirring kring hur dessa begrepp ska användas, och gränserna mellan de tre typerna av analys är knappast entydiga. Utanför de renodlade historikernas skara är det snarare regel än undantag att leta efter beskrivande mönster i historien i syfte att ta bättre beslut om framtiden. Epidemiologen Hans Roslings berömda verktyg Gapminder är ett exempel på avancerad deskriptiv analys som illustrerar hur faktorer som länders välstånd (befolkningens medelinkomst) och demografi (medellivslängd) utvecklats över tid. Genom att synliggöra historiska mönster för hur dessa faktorer utvecklats och samvarierar blir det möjligt att göra kvalificerade gissningar om framtiden. Om vi använder beskrivningar av historiska data för att göra förutsägelser om när olika länders befolkningar kommer att sluta öka eller börja minska, har vi rört oss in i den prediktiva analysens domäner.

I många sammanhang förknippas de tre typerna av analys också med olika slags verktyg, men en sådan indelning blir lätt vilseledande – framför allt vad gäller avgränsningar mellan deskriptiv och prediktiv analys. De verktyg som ofta används för att undersöka samband mellan variabler (regressionsanalys, maskininlärningsteknik) är i princip lika viktiga för att klargöra historiska mönster som för att göra prediktion. I vilken mån vi kan använda historiska samband som grund för prediktion beror i första hand på vår uppfattning om hur dåtid och framtid förhåller sig till varandra. Har något fundamentalt ändrat sig i det system eller den process vi undersöker? Det är framför allt frågeställningar av det här mer grundläggande slaget som är kritiska för att avgöra i vilken mån och hur en analys av historiska data kan ha prediktiva anspråk. Om till exempel en dödlig pandemi eller ett krig drabbar ett land påverkas både befolkningens inkomster och livslängd, och en prediktion som baseras på den historiska datamängden kommer att vara behäftad med större osäkerhet eller fel.

Att det råder en viss otydlighet kring centrala begrepp kan till viss del förklaras med att det ryms flera olika slags expertis inom fältet dataanalys (eng. analytics). Det finns till exempel ofta skillnader i synsätt och arbetssätt mellan datavetenskapligt skolade personer och

1. analytisk förståElsE 13

personer med en bakgrund i ekonomi eller statistik. Sådana skillnader kommer till uttryck i hur de avgränsar sitt arbete och i val av verktyg, men också i hur de ser på de grundläggande frågeställningar som diskuteras i det här kapitlet. Mycket förenklat skulle man kunna säga att datavetaren tenderar att se det som sin uppgift att visualisera data och mönster kring hyfsat väldefinierade frågeställningar, medan den mer samhällsvetenskapligt skolade analytikern ser det som sin uppgift att möjliggöra nya insikter kring breda frågeställningar. Denna bok ansluter tydligt till den senare uppfattningen.

Bokens upplägg

Den här boken rör sig fram och tillbaka mellan att diskutera data, modeller och vår förståelse av den verklighet en modell söker åskådliggöra, förklara eller förutsäga. Precis som kvantitativ analys behöver göra för att leda till användbara insikter. Vi börjar i kapitel 2 där varje god analys måste börja: i konsten att få översikt över ett datamaterial.

I kapitel 3 flyttar vi fokus till kopplingen mellan data och det sammanhang där de uppkommit. Begreppen validitet och reliabilitet hjälper oss att strukturera vår förståelse för vilka tolkningar om verkligheten våra data kan (och inte kan) användas till. I kapitel 4 är det sedan dags att introducera modeller: förenklade representationer av verkligheten som kan hjälpa oss att strukturera och förtydliga vår analys. De följande kapitlen konkretiserar därefter hur en analytiker kan arbeta med olika modeller för olika syften. I kapitel 5 diskuteras de mest grundläggande jämförelserna inom och mellan mätserier. I kapitel 6 diskuteras frågor om orsak och verkan, medan kapitel 7 ger en översikt över några viktiga vägval en analytiker behöver göra i arbetet med att undersöka styrkan i samvariation mellan två variabler. Kapitel 8 belyser ett analysarbete där vi är intresserade av att göra direkta prediktioner kring framtida utfall, snarare än att utforska samvariationer eller orsakssamband. I kapitel 9, slutligen, ges en kort summering av vad vi ser som bokens centrala budskap.

Vi författare rekommenderar att du parallellt med läsningen av den här boken bläddrar i mer tekniskt orienterade böcker och handled-

Data och moDeller 14

2. Att beskriva och åskådliggöra data

The guiding motto in the life of every natural philosopher should be: Seek simplicity and distrust it.

alfrEd n. WhitEhEad

Analytikerns uppgift är att avgöra vilka relevanta mönster som döljer sig i data – mönster som avslöjar något om den verklighet hen undersöker. Men för att ta oss an dessa frågor behöver vi först få klart för oss vilka verktyg som står till buds för att beskriva en datamängd.

I det här kapitlet ges en översikt över de viktigaste stegen i deskriptiv analys.

Beskrivningar av en mätserie

Den allra mest fundamentala beskrivningen en analytiker gör är att sammanfatta den information som ryms i en serie data med ett eller flera mått. Vi kanske har framför oss en serie mätningar av temperaturen i Mariehamn uppmätt klockan 12 varje dag i juli. Genom att beräkna ett medelvärde reducerar vi 31 datapunkter till en enda, som vi sedan kan använda för jämförelser över tid eller med andra orter. Vanliga alternativa mått är medianen, som är det mittersta talet i talserien om vi först sorterar den, och typvärde (eng. mode), som är det vanligast förekommande talet i serien. I ett vidare steg kan vi även rapportera ett spridningsmått, till exempel i form av varians eller standardavvikelse.

Genom att beskriva dataserien med både medelvärde och standardavvikelse ger vi en bild av inom vilket intervall temperaturen för en ”typisk” dag i juli låg.

Exempel

Klockan 12 varje dag mäts temperaturen i Mariehamn. Medeltemperaturen i juli månad var 19,0 grader. Standardavvikelsen beräknas till 1,5 grader. Det innebär att den ”normala” variationen under perioden låg mellan 17,5 och 20,5 grader. Vi observerar att omkring två tredjedelar av observationerna ligger i detta intervall. Därmed ligger det nära till hands att modellera temperaturen under perioden som normalfördelad. För en normalfördelad stokastisk variabel ligger 68 procent av utfallen inom en standardavvikelse från medelvärdet.

Måttet standardavvikelse ger en översikt över spridning, men låter oss inte uppfatta några nyanser om hur fördelningen ser ut. Om vi till exempel vill kunna skilja mellan en dataserie där de flesta observationer ligger utspridda kring medelvärdet och en serie som innehåller en samling extremvärden i en av mätseriens ytterkanter behöver vi använda ett annat spridningsmått, exempelvis kvantiler. Dessa mått är de brytpunkter genom vilka en sorterad dataserie delas in i ett antal lika stora delar. Vanliga former av kvantiler är kvartiler, som definierar en uppdelning i fyra delar, och decentiler, som definierar en uppdelning i tio delar.

Exempel (forts.)

Mätserien över temperaturer sorteras från det lägsta till det högsta värdet. Vi finner att värdena 18,0 (kvartil 1), 19,4 (kvartil 2, som även är dataseriens median) och 20,5 (kvartil 3) delar in serien i fyra delar med lika många mätetal i varje del.

Data och moDeller 18

Medelvärden och spridningsmått är mycket användbara för att skapa överblick, till exempel när vi vill jämföra flera olika mätserier med varandra. Den information som ges kan då sammanfattas i ett låddiagram (eng. box plot), som grafiskt representerar kvartilerna samt minimum och maximum för ett flertal dataserier. Figur 2.1 illustrerar ett låddiagram av temperaturen i Mariehamn under juli där kvartil

2 (medianen) är lådans mitt, och lådans ytterkanter består av kvartil

1 och 3. Medelvärdet är markerat som X. Det vertikala strecket som sluter an till de två vertikala linjerna ovanför och under lådan markerar avståndet från det högsta (22,5 grader) respektive det lägsta (16,7 grader) uppmätta värdet i dataserien. Detta låddiagram visar alltså att spridningen i temperatur för Mariehamn under dagarna i juli är mycket jämn.

För att förstå en enskild mätserie är det allra kraftfullaste verktyget som står oss till buds att direkt studera dess fördelning med hjälp av en figur. Detta görs på en yta där den horisontella axeln spänner över de värden vår mätserie innehåller, och den vertikala axeln indikerar hur vanligt förekommande ett värde är i serien. Om vår mätserie innehåller ett begränsat antal utfallsvärden kan vi representera varje värde med en stapel, vars höjd anger hur många gånger värdet

2. att bEskriva och åskådliggöra data 19

14 15 16 17 18 19 20 21 22 23 24 25

Figur 2.1 Låddiagram för uppmätt temperatur under juli i Mariehamn.

förekommer. Om det utfall vi mäter antar alla möjliga värden kan vi åstadkomma ett liknande diagram, som då kallas histogram, genom att dela in värdena i del intervall. Figur 2.2 visar ett histogram för Mariehamns dagstemperatur under juli, där vi ser tydligt att 18 grader och 19 grader är de mest frekvent förekommande temperaturerna. Diagrammet ger också information om eventuella extremvärden (utliggare, eng. outliers) i våra data. Förekomsten av extremvärden kan vara intressant information i sig, men det kan också ge oss anledning att fundera över om dessa enskilda datapunkter är tillförlitliga eller om vi måste justera dem innan vi går vidare med analysen.

Slutligen kan vi, med hjälp av ett modernt statistikprogram, visualisera data i form av en täthetskurva. En empirisk täthetskurva kan förstås som ett histogram där antalet intervall ökats så långt att den hackiga profilen av ett stapeldiagram ersatts av en jämn linje.

Att visualisera en mätserie genom att rita upp dess fördelning i form av en täthetskurva ger oss en överskådlig men detaljerad bild av en mätserie. Vi får också en utmärkt utgångspunkt för att jämföra våra data med olika teoretiska fördelningar, vilket hjälper oss att göra rimliga

Data och moDeller 20

0 17 18 19 20 21 22 grader 1 2 3 4 5 6 7 8 9

Figur 2.2 Histogram för temperaturer under juli i Mariehamn.

5. Att utforska mönster i data

Det är ingen ordning på allting och man hittar inte vartenda dugg.

astrid lindgrEn (PiPPi går i affärEr)

Som tidigare kapitel har visat finns det en lång rad val att göra när ett problem ska modelleras. I det här kapitlet demonstreras principen att en enkel modell ofta kan vara mer användbar än en komplicerad modell när det gäller att identifiera och kommunicera mönster i data.

Analysalternativ

För dagens analytiker finns en uppsjö relativt lättillgängliga redskap. I vissa statistikprogram erbjuds avancerade tekniker för visualisering och modellering genom några kommandon. Dagens plattformar för maskininlärning erbjuder relativt enkla vägar in till avancerade algoritmer. Men att tolka de resultat som genereras är sällan trivialt, varken för analytikern själv eller för dem som ska ta del av analysen. Det är därför i många fall en god idé att bygga upp sin analys i flera steg, och att noggrant överväga hur långt man kan komma med enklare deskriptiv analys för att göra de tolkningar man är intresserad av. Låt oss säga att vi studerar konsumtion av frukt, och vi har samlat in uppgifter om hur många kilo frukt en slumpmässigt utvald grupp individer ätit under en period av två månader. Vårt centrala intresse är att undersöka om kvinnor äter mer frukt än män. I återstoden av detta korta kapitel diskuterar vi hur en analys av denna fråga kan komma att se ut.

Enkla medelvärden

Ett första svar får vi genom att beräkna medelvärdet av fruktkonsumtion för alla individer som är kodade som män respektive som kvinnor. I jämförelser av medelvärden spelar statistiska test en viktig roll, och det kan vara på sin plats att här göra en kort utvikning om några vanliga test och deras användningsområden. Tabell 5.1 ger ett enkelt schema över tre vanligt förekommande typer av test. De två första har också diskuterats i ett lite annorlunda sammanhang i kapitel 2.

För vår fråga om könsskillnader i fruktkonsumtion används ett t-test, där nollhypotesen att inga skillnader finns ställs mot en mothypotes. I normalfallet används ett tvåsidigt t-test, där mothypotesen är att det finns en skillnad mellan könen. För att testa en hypotes som bara går åt ena hållet (”män äter mer frukt än kvinnor”) används ett ensidigt t-test. Skillnaden kan beskrivas som att vi kan vinna statistisk precision genom att göra ett mer begränsat test.

Ett exempel på en fråga som kräver ett chi-kvadrattest är att vi för varje person har ett mätvärde för kön och ett för ”favoritfrukt”. Vi kodar den sistnämnda storheten med värdena 1–5, som får representera äpple, päron, apelsin, melon och ”övriga frukter”. Chi-kvadrattestet kommer väl till pass om vi vill undersöka ifall det finns systematiska skillnader mellan män och kvinnor i val av favoritfrukt.

Jämförelser av medelvärde mellan två dataserier med kontinuerliga värden

Jämförelser av medelvärde mellan flera dataserier med kontinuerliga värden ANOVA

Jämförelser mellan två eller flera dataserier med kategoriska (nominala eller ordinala) dataserier

Chi-kvadrat associationstest (chisquare test for association)

Data och moDeller 52

Tabell 5.1 Tre test för jämförelser mellan mätserier.

t-test

Normering av data

Enkla jämförelser av observerad mängd fruktkonsumtion ger på sätt och vis god validitet för den fråga vi ställde, men analysens värde begränsas av att vi inte kan uttala oss om orsaker. Kanske finns andra faktorer (total konsumtion av föda, kroppsvikt, inkomst osv.) som påverkar fruktkonsumtion och som skiljer sig mellan män och kvinnor. Om vi till exempel finner att mängden äten frukt för män är högre än den för kvinnor – beror detta på att männen gillar frukt mer eller att männen äter mer i största allmänhet?

Ett andra svar om könsskillnader i konsumtion av frukt, som kommer något närmare ett läge där vi kan tolka om det finns könsskillnader i preferens för frukt, kan vi få genom enkla normeringar. Vi kan till exempel (om vi har tillgång till rätt data) studera kvoten fruktkonsumtion i förhållande till total matkonsumtion, och hur denna skiljer sig mellan individer av respektive kön. Könsskillnader i den normerade dataserien undersöks som tidigare med hjälp av ett signifikanstest.

Trimning av data

Ett tredje svar får vi genom att trimma vårt stickprov för att minska inflytandet av faktorer som kan vara korrelerade med den variabel vi är mest intresserade av, och som samtidigt skiljer sig systematiskt mellan män och kvinnor. Säg att vi tror att fruktkonsumtionen är högre bland personer som tränar minst en gång per vecka, och att detta är vanligare bland kvinnor. Då får vi svårt att tolka i vilken mån de skillnader i fruktkonsumtion vi observerar är en effekt av skillnader i fysisk träningsaktivitet (och därmed förknippade faktorer som hälsa), eller en konsekvens av att kvinnor eller män faktiskt har större preferens för frukt allt annat lika. Ett (något primitivt) sätt att närma sig en sådan situation är att till exempel skära bort alla observationer på individer som inte tränar alls.3 Detta får konsekvenser: dels har vår studie bara

3 En mer avancerad och mer generell procedur för att trimma data enligt denna princip är att använda en matchningsestimator. Sådana finns implementerade i all bättre mjukvara för statistikbehandling.

5. att utforska mönstEr i data 53

Data och modeller

En handbok för analys

Anders Broström och Karl Wennberg

Hur blir man klok på data? Den här boken guidar på ett lättfattligt sätt läsaren genom den moderna analysens viktigaste verktyg och metoder. Med utgångspunkt i grundläggande principer erbjuder boken en översikt över fältet, och gör det möjligt att hitta rätt angreppssätt för rätt analysfråga. Bland annat diskuteras:

• Varför spelar matematiska modeller en viktig roll i dataanalys?

• Hur drar vi slutsatser om orsak och verkan?

• Vilka statistiska verktyg är viktigast att behärska, och hur förhåller de sig till maskininlärningsmetoder?

DATA OCH MODELLER riktar sig särskilt till läsare som har grundläggande kunskaper i statistikteori och ett intresse för att utveckla sina praktiska kunskaper, men lämpar sig också väl som kompletterande läsning till mer tekniskt orienterade handböcker. Med hjälp av tydliga exempel erbjuder boken en orientering i de möjligheter, utmaningar och verktyg som en analytiker har att hantera.

Karl Wennberg är professor i företagsekonomi vid Handelshögskolan i Stockholm och föreståndare för Handelshögskolans House of Governance and Public Policy (GaPP).

Anders Broström är docent och lektor i nationalekonomi vid KTH, gästlärare vid Göteborgs universitet och VD för forskningsinstitutet Entreprenörskapsforum.

9789151 107202