Digitala metoder i humaniora och samhällsvetenskap
JOHAN JARLBRINK FREDRIK NORÉN ( RED. )
KOPIERINGSFÖRBUD Detta verk är skyddat av upphovsrättslagen. Kopiering, utöver lärares och studenters begränsade rätt att kopiera för undervisningsändamål enligt Bonus Copyright Access kopieringsavtal, är förbjuden. För information om avtalet hänvisas till utbildningsanordnarens huvudman eller Bonus Copyright Access. Vid utgivning av detta verk som e-bok, är e-boken kopieringsskyddad. Den som bryter mot lagen om upphovsrätt kan åtalas av allmän åklagare och dömas till böter eller fängelse i upp till två år samt bli skyldig att erlägga ersättning till upphovsman eller rättsinnehavare. Studentlitteratur har både digital och traditionell bokutgivning. Studentlitteraturs trycksaker är miljöanpassade, både när det gäller papper och tryckprocess.
Art.nr 43218 ISBN 978-91-44-14055-1 Upplaga 1:1 © Författarna och Studentlitteratur 2021 studentlitteratur.se Studentlitteratur AB, Lund Översättning (kap. 3): Lisa Sjösten Sakgranskning: Jonas Andersson Schwarz Formgivning inlaga: Jesper Sjöstrand/Metamorf Design Group Ombrytning inlaga: Catharina Grahn/ProduGrafia Formgivning omslag: Jens Martin Omslagsbild: Ozz Design/Shutterstock Printed by GPS Group, Austria 2021
Innehåll
Författarpresentationer 7
Inledning 11 Johan Jarlbrink & Fredrik Norén
Från det datorstödda till det etnografiska 13 Metodologiska val och förkunskaper 16 Materialinsamling och urval 18 Metodologisk transparens 21 Metodöverföring från industrin till akademin 23 Referenser 24
1 Digital etnografi 27 Coppélie Cocq & Evelina Liliequist
Vad menas med digital etnografi? 28 Studiens planeringsfas 30 Metoder för att samla in material 35 Att avsluta fältarbetet 39 Att framställa forskningsresultat 40 Avslutning 41 Förslag till fördjupning 42 Referenser 43
2 Teknografi 45 Eric Carlsson, Jens Lindberg & Anna Sofia Lundgren
Teknografiska ansatser 46 Ett förslag på analysmodell 48 Exempel på analyser 52 Avslutning 67 Referenser 68
3 Spelstudier 71 Patrick Prax & Paulina Rajkowska
Spel, lek och interaktivitet – förutsättningen för att studera spel som medieformer 72 Att förstå och analysera spelregler 73 Ramverket MDA 74 Fallstudie av September 12th 75 Formell analys 79 Fallstudie av Civilization 3 81 En kombination av metoder – fallstudie av kön i League of Legends 86 Avslutning 92 Förslag till fördjupning 92 Referenser 93
4 Analys av rörlig bild 95 Emil Stjernholm
Närläsning med digitala metoder 97 Storskalig analys av rörliga bilder 105 Avslutning 110 Förslag till fördjupning 111 Referenser 111
5 Dataflöden och infrastruktur 113 Maria Eriksson
Dataflöden som studieobjekt 116 Hur fungerar internet? 118 Att spåra kakor 120 Paketsniffning 126 Avslutning 132 Förslag till fördjupning 133 Referenser 134
4 Innehåll
6 Automatiserad datainsamling 137 Mathilda Åkerlund
Urval och avgränsning 139 Etik 145 Datainsamling 147 Förbereda data för analys 155 Avslutning 156 Förslag till fördjupning 157 Referenser 158
7 Nätverk 161 – ANALYS, MÅT T OCH TIL L ÄMPNINGAR
David Gunnarsson Lorentzen
Vad nätverksanalys går ut på 164 Tillämpningar 166 Nätverksmått, layout och filtrering 168 Hur metoden fungerar 173 Fallgropar och möjliga lösningar 182 Avslutning 183 Förslag till fördjupning 184 Referenser 185
8 Introduktion till fjärrläsning 187 Karl Berglund
Grundläggande perspektiv 189 Tillvägagångssätt för fjärrläsningar 189 Stilistiska analyser 193 Tematiska analyser 196 Avslutning 206 Förslag till fördjupning 207 Referenser 208
Innehåll
5
9 Tematisk innehållsanalys med temamodellering 211 André Baltz & Fredrik Norén
Likheter och skillnader mellan temamodellering och andra metoder 213 Temamodellering 213 Förberedelser av textmaterialet 217 Temamodellering med Mallet 219 Avslutning 230 Förslag till fördjupning 233 Referenser 234
10 Datadriven kunskapssociologi 235 Simon Lindgren
Ordvektorer 237 Maskininlärning 242 Ett ord och dess vänner 244 En ska bort 247 Diskursiva nätverk 249 Avslutning 252 Förslag till fördjupning 254 Referenser 255
11 Diagram, kartor och nätverk 257 – OM V E TENSK APLIGA V ISUALISERINGAR
Johan Jarlbrink
Visualiseringens grunder 260 När? 265 Var? 268 Med vem? 274 Avslutning 282 Förslag till fördjupning 282 Referenser 282 Register 285
6 Innehåll
Inledning
Ӽ JOH A N JA R L BR I N K & F R E DR I K NOR É N
Hur sprids nyheter, politiska upprop och memes över världen i sociala medier? Hur ser maktrelationerna ut i digitala nätverk? Hur interagerar användarna med varandra i forum och dataspel? Vår digitala samtid ger upphov till forskningsfrågor som kan kräva metoder för materialinsamling och analys som för många humanister och samhällsvetare ännu är relativt okända eller oprövade. Sådana metoder kan även användas för att undersöka historiska material som har digitaliserats. Finns det formmässiga skillnader mellan tidiga och sena verk i Selma Lagerlöfs litterära produktion? Hur har 1900-talets tidningspress rapporterat om olika delar av världen? Hur förändrades färgskalan i Vincent van Goghs bevarade verk över tid? Internationellt finns en växande forskning inom humaniora och samhällsvetenskap som tar olika metoder i bruk för att studera digitala fenomen och äldre källor som digitaliserats. Metoder för att utforska digitala material och miljöer saknas emellertid ofta i de metodböcker som ges ut med inriktning mot grundutbildning i huma niora och samhällsvetenskap. Ambitionen med denna bok är att uppdatera metodarsenalen. Med digitala hjälpmedel kan vi i dag studera ord, beteenden och
11
12
Johan Jarlbrink & Fredrik Norén
© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR
k ommunikativt handlande från ett makroperspektiv. Men vi kan också zooma in och urskilja detaljer och enskildheter i stora material (Burdick m.fl. 2012). Utvecklingen av onlinekulturer har gjort det möjligt att samla in och analysera inlägg, kommentarer, bilder och likes – ibland utan att ens be avsändarna om tillåtelse. En metodologisk uppdatering kan innebära förändrade frågor om verkligheten och hur den uppfattas, nya studieobjekt och digitala forskningsredskap – liksom en forskningsetik anpassad till villkoren för digitala kulturer (Jensen 2011). Med denna metodbok vill vi på ett lättillgängligt sätt, med förklarande exempel och en svensk begreppsapparat, introducera ett antal vanligt förekommande metoder för att undersöka digitala material och miljöer inom humaniora och samhällsvetenskap. Hur kan metoderna användas? Vilken typ av kunskap kan de generera – och visualisera? Vilka begränsningar har de och vad bör man tänka på när de tas i bruk? Det finns en rad program, färdigutvecklade statistiska modeller och enklare script att använda sig av om man vill undersöka datasamlingar av olika slag – många av dem är fritt tillgängliga. Detta är emellertid ingen instruktionsbok i hur man använder enskilda program. En manual blir snabbt inaktuell, och den som behöver lära sig enskilda programfunktioner har redan en uppsjö av pedagogiska videoguider och användarforum att ta hjälp av. I stället vill vi beskriva metodernas möjligheter och begränsningar i studier av vår digitala omgivning, samt inviga läsaren i mer grundläggande metodologiska funktionaliteter och frågor. För att ändå antyda vad man har att välja bland kommer författarna i de olika kapitlen återkommande att referera till och översiktligt beskriva vanligt förekommande programvaror liksom metodo logiska perspektiv och förhållningssätt. Författarna har sin bakgrund i biblioteks- och informationsvetenskap, etnologi, filmvetenskap, informatik, litteraturvetenskap, medie- och kommunikationsvetenskap och sociologi. De bär med sig olika perspektiv och intressen, men en gemensam nämnare är deras användning av metoder för att utforska digitala material och miljöer. Tillsammans bidrar de till att introducera en bred metodpalett. I denna inledning presenterar vi metoderna översiktligt, samtidigt som vi introducerar ett antal metodo logiska val och förhållningssätt som är bra att ha med sig när man läser de enskilda kapitlen.
© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR
Från det datorstödda till det etnografiska Att använda sig av digitala verktyg i forskningssyfte är inget nytt fenomen. Redan under 1960-talet användes datorer för att hitta kvantitativa mönster i tidningstexter (Jarlbrink 2015). Under 1970-talet ökade arkeologers användning av digitala databaser för att dokumentera, kurera och tillgängliggöra data, men också av enklare geografiska informationssystem för att undersöka samband mellan olika utgrävningsfynd (Watrall 2016). Statsvetare kunde på motsvarande vis behandla och analysera enkätdata med hjälp av så kallade hålkortsmaskiner, en teknik för in- och utmatning av data i äldre datorer. Och inom informatik och språkvetenskap har det under flera decennier utvecklats metoder för att analysera texter och nätverk digitalt. Mer kvalitativt orienterade forskare började under 1990-talet att studera interaktionen på den expanderande webben, under rubriker som netnografi och cyberetnografi. Det finns alltså ett rikt arv att bygga vidare på, samtidigt som det i dag finns förutsättningar för att urskilja och ställa andra typer av frågor än de som ofta intresserade föregångarna (Burdick m.fl. 2012). Digitala metoder ska i denna bok förstås som en samlingsterm för en rad olika sätt att undersöka digitala eller digitaliserade material och miljöer. Exakt vilka metoder som bör inbegripas finns det olika uppfattningar om (Hughes m.fl. 2016). Vilka forskningspraktiker är i dag opåverkade av digital teknik? Historikern som söker efter dokument i digitala data baser använder digitala hjälpmedel även om hen inte beskriver sin metod som ”digital” (Fridlund 2020). En forskare som studerar interaktionen på sociala medier kan å sin sida beskriva sin metod som ”digital etnografi” även om forskningsverktygen till stor del utgörs av papper och penna. De som beskriver sina metoder som digitala vill ofta framhäva antingen att programvara används för insamling, analys och visualisering – av digitaliserade såväl som digitalt skapade material – eller att metoderna på olika sätt uppmärksammar hur studieobjekten villkoras av digital teknik. Det skulle schematiskt gå att tala om en glidande skala, från metoder som bygger på datorns beräkningsförmåga eller kapacitet, till kvalitativa metoder för att undersöka digitala miljöer. De metoder som bygger på datorernas beräkningsförmåga omnämns ofta som datorstödda metoder (computational methods) (Snee m.fl. 2016).
Inledning
13
14
Johan Jarlbrink & Fredrik Norén
© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR
I en del fall erbjuder sådana metoder helt nya sätt att processa material, utan någon manuell motsvarighet. Hit hör bland annat så kallad tema modellering, även om tillämpningen av metoden har en hel del gemensamt med innehålls- och diskursanalys. I kapitlet om temamodellering visar André Baltz och Fredrik Norén hur denna statistiska metod med minimal mänsklig inblandning kan användas för att hitta teman och visa mönster i en oöverskådlig textsamling, baserat på fördelningen av ord i dokument. Simon Lindgrens kapitel om ordinbäddningar presenterar en annan datorstödd metod utan någon direkt motsvarighet bland de analoga metoderna. I andra fall används datorstödda metoder för att snabbare beräkna sådant som tidigare har gjorts manuellt. Att räkna antalet ord i en text är ett exempel. Andra metoder med analogt ursprung, där programvara förenklar arbetet, är nätverksanalys och analys av rörlig bild, något som David Gunnarsson Lorentzen och Emil Stjernholm skriver om i sina respektive kapitel. Gunnarsson Lorentzen visar hur nätverksanalysens centrala komponenter – noder, kopplingar, centralitet med mera – kan användas för att studera relationer mellan individer, organisationer och ting, i stora dataset såväl som små. Stjernholm beskriver hur stilmässiga analyser av rörliga bilder i dag kan förenklas med program för att kan skala upp och automatisera det manuella arbete som tidigare har krävts. Programmen kan både vara en hjälp när rörliga bilder ska märkas upp och göra det möjligt att automatiskt identifiera klipp, ljus- och färgskalor. Digital kommunikation ger också upphov till nya materialkategorier som är helt oåtkomliga utan digitala redskap. Antropologer har länge studerat hur föremål förflyttas mellan människor och platser. För att studera hur data på ett liknande sätt rör sig mellan laptops och serverhallar krävs programvara som gör datatrafiken synlig. Maria Eriksson visar i sitt kapitel hur infrastruktur och digitala aktörer kan kartläggas för att svara på frågor om digital övervakning, hur data färdas, samlas in och säljs när människor strömmar, söker och kommunicerar. De verktyg som Eriksson introducerar gör det möjligt både att dokumentera så kallade kakor och att spåra alla de små datapaket som hela tiden skickas till och från datorer och telefoner när människor är uppkopplade. Härutöver finns metoder för studier av digitala miljöer som inte nödvändigtvis kräver något särskilt hjälpmedel, mer än en webbläsare eller en
© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR
mobiltelefon. Det kan, som Coppélie Cocq och Evelina Liliequist belyser i sitt kapitel, handla om etnografiska metoder som är sprungna ur en fördigital kontext och som har vidareutvecklats för att fånga interaktion och kulturella processer i digitala miljöer. Länge var den digitala etnografin främst upptagen av människors kommunikation i digitala kanaler, men i takt med att tekniken integrerats i samhället och vardagen har det blivit svårare att dra gränsen mellan världen online och offline. Som Cocq och Liliequist betonar kan den digitala etnografin intressera sig för teknik i vardagen likaväl som kommunikation via forum och plattformar. Ofta används intervjuer och observationer för att studera sociala samspel, upplevelser och praktiker. En annan metod för studier av digitala miljöer är teknografin, men här handlar det i stället om att undersöka hur gränssnitt i exempelvis mobilapplikationer villkorar interaktionsmöjligheterna och vår användning av tekniken. Eric Carlsson, Jens Lindberg och Anna Sofia Lundgren visar i sitt kapitel att teknikens design gör att vissa val och handlingar blir mycket lätta när människor interagerar med digitala objekt – en del är förinställt, annat kräver bara en knapptryckning. Andra val blir betydligt svårare och kanske omöjliga eftersom designen har begränsat handlingsalternativen. Teknografiska studier av gränssnitt kan synliggöra ideologiska antaganden inskrivna i dess utformning. Metoden hämtar inspiration från bland annat diskursanalys och semiotik, men i stället för statiska texter och bilder utforskar teknografin interaktiva objekt som kräver att forskaren använder dem, klickar sig fram och observerar hur de svarar. Gränserna mellan de metodkategorier som här skisserats är emellertid knappast skarpa. De kunde ha grupperats på andra sätt, och vad vi urskilt som en specifik metod hade andra hellre delat upp i mindre undergrupper. I praktiken är det dessutom vanligt att olika metoder kombineras. Ambitionen med denna introduktionsbok är emellertid inte att slå fast kategorier och dra skarpa gränser. Syftet är pragmatiskt: att beskriva och exemplifiera ett brett spektrum av metoder för dem som vill undersöka digitala material och miljöer med andra metoder än de som vanligtvis dominerar metod undervisningen inom humaniora och samhällsvetenskap.
Inledning
15
Forskningsproblem och frågeställningar bör rimligtvis styra valet av metod. Många studier av digitala material kännetecknas samtidigt av en experi menterande ansats, där valet av metod och dess specifika design växer fram i takt med att forskaren prövar sig fram (Lindgren 2017). Eftersom ingen metod kan göra anspråk på fullständighet måste forskaren alltid vara medveten om och beredd på att en del aspekter förblir oåtkomliga. Statistikern George E. Box sammanfattade denna begränsning på följande sätt: ”alla modeller är felaktiga, men vissa är användbara” (Box & Draper 1987 s. 424, vår översättning). Olika metoder kan med fördel kombineras. Ett experimentellt tillväga gångssätt kan synliggöra hur olika metoder genererar skilda perspektiv på det fenomen som undersöks och på det material som används (Guldi 2018). Icke desto mindre krävs en medvetenhet om att de metoder som används påverkar vilken typ av data som det är möjligt att arbeta med och vilka slutsatser som man kan dra (Neilson m.fl. 2018). Olika metoder är bra på olika saker. Ett förändrat deltagande på Twitter kan studeras genom en beräkning av Twitterinlägg och retweets över tid, men metoden säger ingenting om vilka intentioner eller motiv som Twitteranvändarna har. Att sätta studieobjektet i ett kulturellt och socialt sammanhang, problematisera meningsskapande uttryck samt att få finkänslig materialkännedom är något som ibland kan vara svårt med datorstödda metoder. Här kan i stället kvalitativt orienterade metoder bidra med kunskap om deltagandets innebörder. För att göra genomtänkta metodval måste forskaren ha kunskap om de antaganden som kan ligga inbyggda i de metoder, program och material som används. Vilka antaganden om texters mening ligger exempelvis till grund för temamodellering? Vad kan en analys av sociala nätverk svara på, och när kommer metoden till korta? Vad kan en teknografisk studie av gränssnitt belysa och vilka frågor undersöks bättre med andra metoder? Metoder och programvaror sätter gränserna för vad forskare kan fånga. För att inte jaga i blindo måste den som använder dem veta hur de är beskaffade. Olika metoder kräver förkunskaper av olika slag och på olika nivåer. Etnografiskt orienterade studier, undersökningar av gränssnitt och spel kräver bland annat införståddhet med det specifika fältet och de fall som
16
Johan Jarlbrink & Fredrik Norén
© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR
Metodologiska val och förkunskaper
© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR
ska studeras, samt en metodologisk medvetenhet kring sådant som intervjuoch observationstekniker eller diskurs- och innehållsanalys. I sitt kapitel om spelstudier poängterar till exempel Patrick Prax och Paulina Rajkowska vikten av att spela spelet för att förstå och analysera dess regler och uttryck. De visar bland annat hur budskap och ideologi kan studeras genom den procedurella retorik som spelet uttrycker, det vill säga betydelsen av vilka val som en spelare ställs inför och vad dessa får för konsekvenser. Vidare illustrerar Prax och Rajkowska hur spelets grundläggande komponenter, handlingar och mål kan studeras – vilket med fördel kan kombineras till exempel med undersökningar av spelens visuella representationer. Dessa undersökningar förutsätter att den som studerar spelen har förståelse för de inbyggda möjligheter och begränsningar som på olika sätt villkorar interaktionen – metoderna som sådana kräver emellertid inga tekniska färdigheter. Eftersom alla metoder bär spår av de medier och företeelser som de utvecklats för att studera är det också viktigt att det digitalt mediespecifika inte förbises (Hayles 2004). I studier av dataspel kan man mycket väl låna perspektiv och modeller från den narratologi som utvecklats inom litteratur- och filmvetenskap. Det specifika för spel är emellertid att spelarens agerande påverkar berättelsen – modeller som gäller andra medier kan alltså ha begränsat förklaringsvärde. Enklare språkliga analyser eller studier av nätverk, dataflöden och rörliga bilder kräver att forskaren lär sig ett specifikt program, men det finns en hel del som är relativt användarvänliga. Temamodellering och ord inbäddningsmetoder kräver däremot åtminstone basala programmeringskunskaper. Ofta finns färdig kod tillgänglig som någon annan har utvecklat, men denna måste inte sällan modifieras utifrån forskarens specifika syfte och material. Flera av de mer tekniskt komplicerade metoderna befinner sig fortfarande i en utvecklingsfas, där nya versioner och program regelbundet dyker upp och utvärderas. Det finns ännu ingen samsyn kring hur dessa metoder borde användas inom humaniora och samhällsvetenskap. Det är ett metodologiskt fält som håller på att uppfinna sig självt, och helt etablerade tillvägagångssätt har helt enkelt inte utvecklats. För den som är beredd att lägga lite tid på att lära nytt finns det därmed goda möjligheter att lämna ett bidrag till och påverka metodutvecklingen.
Inledning
17
Humanister och samhällsvetare har traditionellt avgränsat sina studie objekt till enskilda fall eller begränsade urval. De metoder som tidigare stått till buds har helt enkelt gjort det svårt och kostsamt att undersöka stora material. Också i kvantitativa studier där man tar hjälp av datorns beräkningskraft måste urval göras, men urvalet kan vara så mycket större: 500 i stället för fem bästsäljande romaner, 5 000 i stället för 50 tidningsartiklar. Datorstödda metoder gör det enklare att identifiera enskilda element, ordna dem på nya sätt, beräkna frekvenser och presentera resultatet i tabeller, grafer och kartor. I en stor samling romaner kan forskaren välja att studera sådant som pronomen, platsnamn eller känslouttryck, som algoritmiskt går att identifiera och sedan analysera på olika sätt. När helhetens komplexitet på detta vis reduceras kan mönster och samband träda fram som hade varit svåra att upptäcka genom närläsning (Moretti 2013). Till den nödvändiga metodkunskapen hör en kritisk medvetenhet om de digitala data som ska studeras, vad olika datasets storlek innebär och möjliggör, hur de har valts ut och vilket sammanhang de kommer ifrån. Med möjligheten att undersöka och visualisera stora datamängder, eller data som kan kvantifieras på olika sätt, kommer ofta föreställningen om att storskalighet och mätbarhet representerar en högre form av vetande. Det som tidigare kunde anas kan nu beläggas med en graf. Man bör dock vara mycket försiktig med den typen av slutsatser (boyd & Crawford 2012). Johan Jarlbrink visar i sitt kapitel hur olika former av vetenskapliga visualiseringar fungerar som både pedagogiska och förföriska tekniker för att presentera data och analytiska resultat. Visualiseringar presenterar resultat, belägger slutsatser och gör det svåröverskådliga synligt, men de kan också reducera och få det komplexa att se entydigt ut. I visuell form kan det se ut som att data talar för sig själva, men de urval och filter som kartor, diagram och nätverksgrafer bygger på bör hellre förstås som delar av en tolkningsprocess. Som påpekats av bland andra informationsvetaren Carl Lagoze (2014) och medieforskaren Lisa Gitelman och litteraturvetaren Virginia Jackson (2013) bygger även stora datamängder på urval som kan snedvrida resultaten. Data är aldrig ”råa” utan har alltid skapats och samlats utifrån specifika syften. Tillgången både till samtida dataflöden i sociala medier och till digitaliserade historiska samlingar är dessutom ofta reglerad och beroende 18
Johan Jarlbrink & Fredrik Norén
© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR
Materialinsamling och urval
© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR
av urvalsmekanismer som enskilda forskare har svårt att kontrollera och få insyn i. Det är inte heller säkert att innehållet i ett dataset är vad det utges för att vara – automatiskt genererade samlingar innehåller ofta ”ruttna” data såsom felkategoriserade texter, spam och avbrutna länkar (Boellstorff 2013). I sitt kapitel om automatiserad datainsamling beskriver Mathilda Å kerlund två vanliga sätt att samla in material online: via en webbsidas API (Application Programming Interface) och genom en webbsidas HTMLkod (HyperText Markup Language). Ett API syftar ofta till att möjliggöra för externa parter att utveckla program och funktioner som på olika sätt kan interagera med en webbsida eller plattform. Forskare kan emellertid använda samma API för att helt enkelt ladda hem texter, bilder, länkar och annat i forskningssyfte. Materialet är ofta välstrukturerat, men det är inte alltid som det är komplett. Vad urvalet baseras på och vad som saknas kan vara svårt att veta säkert. Innehåll från sidor som saknar API kan ”skrapas” utifrån den HTML-kodning som styr vilka element som visas. På ett forum kan det till exempel handla om textkommentarer, användarnamn och datum. Svårigheten med denna insamlingsmetod är att olika sidor har olika kodning, och det är inte alltid lätt att veta vilka element som fångas in och vilka som missas. Som Åkerlund konstaterar får den som skrapar prova sig fram och på det viset bilda sig en uppfattning om hur olika insamlings strategier påverkar urvalet. För att skapa transparens måste valen och deras konsekvenser beskrivas, och det gäller naturligtvis inte bara för insamling som är automatiserad. En annan utmaning med materialinsamling och urval av digitala material och miljöer är att vissa materialkategorier tenderar att bli över representerade inom forskningen. Ett tydligt exempel på detta är textbaserade källor. Ord är lätta att identifiera, räkna och gruppera. Att på maskinell väg hitta meningsfulla mönster i stora samlingar av bilder och ljud är mycket svårare, även om det finns intressanta försök på området (Lingold m.fl. 2018, Manovich 2020). Text är förstås en central material kategori i flera sammanhang, men knappast den enda som är värd att studera. I många digitala kanaler är det kanske snarare bilden som har en särställning. Youtube är en plattform för distribution av rörlig bild och ljud, men datorstödda undersökningar av sajtens material baseras som regel på de mer lättarbetade kommentarsfälten i text.
Inledning
19
20
Johan Jarlbrink & Fredrik Norén
© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR
Eftersom de verktyg som används för insamling och analys sätter gränserna för vad som kan undersökas finns en risk att forskningen förbiser de materialkategorier som är svåra att studera, samtidigt som det lätt studerade får orimligt stor uppmärksamhet. Olika källors tillgänglighet kan styra forskningsfokus på ett liknande sätt. Många populära kommersiella plattformar och forum är mer eller mindre låsta och stängda för forskare som vill göra storskaliga analyser av innehållet. En anledning till att så många forskat på Twitterdata är inte minst att just tweets har varit möjliga att samla in med relativt enkla medel. Databaser med digitaliserade material kan ha en motsvarande effekt. När ett material har digitaliserats och tillgängliggjorts ökar ofta antalet forskningsstudier som bygger på just detta material, även om icke-digitaliserade material hade svarat bättre mot de forskningsfrågor som ställs (Milligan 2013). För forskare som studerar människors beteende och interaktion med hjälp av intervjuer och observationer är etiska förhållningssätt sedan länge integrerade delar av forskningsprocessen. Forskaren presenterar sig för personerna som studeras och berättar vad syftet är. Den som intervjuas tillfrågas om samtycke och om hen vill vara anonym. Detsamma gäller ofta i observationsstudier. Personerna får inte sällan möjlighet att läsa och ta ställning till vad som skrivs om dem innan det publiceras. När människor observeras på digitala plattformar är dessa etiska förhållningssätt inte lika självklara – även om de ofta borde vara det. En anledning är att platt formarna kan framstå som offentliga arenor där den som är aktiv får räkna med att synas, även av forskare. Det är dock inte säkert att användarna vet hur synliga de är. Många digitala miljöer befinner sig i gränslandet mellan privat och offentligt. Även om dessa miljöer i princip är öppna för utomstående kan de präglas av en intim gemenskap mellan deltagare som upplever sig ingå i en avgränsad grupp, där bara bekanta eller likasinnade ingår. Därför bör forskaren agera med försiktighet och alltid fråga sig om forskningsnyttan är värd riskerna för de personer som studeras. Etiken och forskningspraktiken har dessutom att förhålla sig till lagstiftning på området, inte minst gällande lagring av personuppgifter som regleras i den europeiska dataskyddsförordningen (GDPR). Association of Internet Researchers har tagit fram bra riktlinjer att utgå från (franzke m.fl. 2020), men som Cocq och Liliequist skriver ska etiken inte reduceras till
© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR
en checklista att pricka av, utan ett etiskt förhållningssätt bör genomsyra hela forskningsprocessen. För en digital etnografi som strävar efter att komma nära de miljöer och personer som studeras finns all anledning att gå försiktigt fram. Forskaren kan till exempel göra sin närvaro i miljön känd och berätta om studien och dess syfte. Som Cocq och Liliequist skriver är syftet vanligtvis att samla ett rikt material om ett begränsat antal fall, och därför är det ofta fullt möjligt att kontakta personerna och be om samtycke. Den som skrapar hundratusentals eller miljontals tweets och forumkommentarer har inga möjligheter att kontakta alla skribenter och följare individuellt, även om forskaren i vissa fall kan meddela sin närvaro i miljön på andra sätt. Syftet med en storskalig studie brukar dock vara ett helt annat. Där den digitala etnografin vill komma nära vill den storskaliga forskningen skapa distans. I det senare fallet är det är inte enskilda personer som intresserar utan text- och interaktionsmönster på aggregerad nivå. Strategier för att göra materialet mindre känsligt kan vara att anonymisera det eller helt enkelt avstå från att samla in användar-id. I Gunnarsson Lorentzens kapitel finns ett exempel på det förra: nätverksanalysen av vaccinationsfrågan på Twitter utgår endast från samförekomst av hashtaggar, varken textinnehåll eller användar-id har samlats in. Forskare som studerar övergripande mönster på detta sätt vill emellertid ofta illustrera och belägga med hjälp av enskilda exempel – och om det är text det rör sig om kan de via sökfunktionerna vara lätta att spåra tillbaka till källan, till och med om de översatts. En möjlighet här är att söka medgivande från just de användare som skrivit de foruminlägg eller användarkommentarer som man önskar använda som illustrationer – det rör sig sällan om särskilt många.
Metodologisk transparens Transparens är ett övergripande metodologiskt ideal. Om vi tänker oss att indata såsom texter, bilder, nätverksrelationer och annat processas maskinellt och skapar utdata i form av statistik, visualiseringar och modeller är det viktigt att veta vad som händer med dessa data när de processas, och varför resultatet blir som det blir. Detta gäller förstås inte bara metoder som baseras på datorns beräkningskraft – också kvalitativa forskare måste
Inledning
21
22
Johan Jarlbrink & Fredrik Norén
© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR
kunna förklara hur analysen har gått till. Är processen och tekniken helt ogenomskinlig brukar den beskrivas som en ”svart låda”, där något stoppas in och något annat kommer ut, men där maskineriet inne i lådan, det som omvandlar indata till utdata, är svårt att förklara eller begripa. Transparens kan handla om att förstå och kunna förklara hur bearbetningar och beräkningar görs och varför, men också möjligheten att spåra slutsatser till de indata som resultatet baseras på. Enklare metoder för att exempelvis undersöka hur ord samförekommer med varandra är ofta lätta att beskriva och förstå. Karl Berglunds kapitel är en introduktion till fjärrläsning där en rad enklare metoder förklaras och exemplifieras. Med hjälp av samförekomstanalys visar han bland annat vilka ord som är överrepresenterade bland dem som förekommer tillsammans med könsbestämda pronomen (som ”han” och ”hon”) i några svenska romaner. Vidare belyser Berglund en metod för att jämföra texter från olika tidsperioder mellan varandra för att se vilka ord som är de mest distinkta för respektive period. I Berglunds kapitel är det förhållandevis enkelt både att förstå hur texterna omvandlats till listor över ord och att spåra enskilda ord tillbaka till texterna. Temamodeller och ordinbäddningar är något mer svårhanterliga i detta avseende. Simon Lindgren beskriver i sitt kapitel hur ordinbäddningar kan förstås på ett teoretiskt plan, men varken forskaren eller läsaren kan förklara resultatet i sina detaljer eller följa hur texterna har processats steg för steg. Metoden försöker förutsäga vilka ord som kommer att uppträda tillsammans, och varje gång beräkningen av förutsägelserna upprepas ser utfallet olika ut (skillnaderna är dock ofta marginella). Men även om metoden i sig kan vara svårbegriplig betyder det inte att resultatet är oanvändbart. I kapitlet exemplifierar Lindgren med en ordinbäddningsmodell som baseras på 1,2 miljarder inlägg och kommentarer på Reddit. Lindgren argumenterar för att metoden kan användas diskursanalytiskt för att urskilja ideologiska mönster i forumdiskussioner. Ordinbäddningsmodeller är svåra att göra helt genomskinliga, men det finns ändå sätt att öka transparensen. Forskare som använder denna och liknande metoder gör som regel koden publikt tillgänglig för andra, som i sin tur kan testa och utvärdera den. Ett annat sätt att visa transparens är att tydligt redovisa vilka val som man har gjort, vilka parametervärden som
satts och hur texterna har avgränsats eller tvättats med hjälp av ordfönster, stoppordslistor och annat. Även om metoden förblir något av en svart låda är genomskinlighet alltid något att sträva efter.
© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR
Metodöverföring från industrin till akademin Digitala program och hjälpmedel utvecklas inte sällan inom discipliner som statistik och datavetenskap. Men de kan också ha sitt ursprung i näringslivet. Den metod för ordinbäddning som Lindgren illustrerar i sitt kapitel, word2vec, kommer till exempel från forskare på Google. Sådan metodöverföring behöver inte nödvändigtvis vara problematisk, men det är viktigt att vara medveten om att metoderna ofta utvecklats för andra ändamål än humanistisk och samhällsvetenskaplig forskning. Eftersom tid är pengar kan det för företagen vara viktigare att modellerna levererar ett acceptabelt resultat snabbt än att utfallet är det bästa möjliga men tar lång tid att få fram. De kan också ha optimerats för att processa mycket omfattande datamängder och därför fungera mindre bra för undersökningar av mer begränsade dataset. Men det som utgör ett problem när företag och institutioner tar maskininlärning i bruk kan samtidigt skapa analytiska möjligheter för forskare. När myndigheter, företag och andra organisationer fattar beslut utifrån underlag genererade från maskininlärningsmodeller som tränats på dataset präglade av snedvridningar, stereotyper och fördomar finns stor risk att besluten reproducerar och förstärker orättvisorna: uträkningar av försäkringspremier som baseras på bostadsadress, riktad onlinereklam som könas beroende på vilken musik användarna har strömmat, eller modeller som utvecklats för en rättvis bedömning av forskningsansökningar men där träningsdata främst består av ansökningar skrivna av män. För forskare i humaniora och samhällsvetenskap kan sådan snedvridning innebära en möjlighet att synliggöra samma stereotyper och orättvisor (Underwood 2019). De Reddit-inlägg Lindgren undersöker behandlas inte som neutrala texter, utan det är just värderingarna och normerna de bygger på som gör materialet intressant. Ordinbäddningsmodellen används inte minst för att frilägga de perspektiv och stereotyper som präglar texterna. En annan skillnad mellan företags och forskares användning av maskin
Inledning
23
Referenser Boellstorff, T. (2013), Making big data, in theory. First Monday, 18(10), s. 1–17. Box, G.E.P. & Draper, N.R. (1987), Empirical model-building and response surfaces. New York: Wiley. boyd, d. & Crawford, K. (2012), Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon. Information, Communication & Society, 15(5), s. 662–679.
24
Johan Jarlbrink & Fredrik Norén
© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR
inlärning är att de förra ofta använder tekniken för att göra förutsägelser om framtida fall baserade på befintliga data eller ett träningsmaterial: vilka filmer en Imdb-användare borde tycka om, baserat på vad andra användare med liknande preferenser har uppskattat; identifiering av ansikten i foton som läggs upp på sociala medier, baserat på foton som tidigare lagts upp. Resultaten kan vara mer eller mindre träffsäkra, men de säger inte alltid så mycket om de samband som kan förklara utfallet – något som forskare inom humaniora och samhällsvetenskap oftare är mer intresserade av än utfallet i sig (Efron 2020). Ändå finns det möjligheter att använda metoderna kreativt i forskningens tjänst. Ibland kan det till och med vara intressant när modeller gör felaktiga eller missvisande förutsägelser eftersom det pekar ut studieobjekt att undersöka närmare, sådant som inte riktigt passar in och som bryter mönstren (Underwood 2019). För varje ny internetplattform som tillkommer kan det behövas nya metoder för att samla in och analysera data. Kommersiella aktörer är ofta snabbast med att utveckla de verktyg som krävs. Hastigheten i dessa förändringar kan innebära att forskare inom humaniora och samhällsvetenskap halkar efter och gör sig beroende av programvara som utvecklats för andra syften än forskning (Snee m.fl. 2016). Samtidigt kan studieobjekten – bottar, sökmotorresultat, webbsidesinnehåll med mera – i sig vara extremt flyktiga och föränderliga. Ibland förändras dataflödet från en sekund till en annan, och även om materialet är stort erbjuder en studie som baseras på det ingenting mer än en ögonblicksbild. Dessa problem får vi nog leva med. Icke desto mindre: humanistisk och samhällsvetenskaplig forskning som vill studera ett digitalt samhälle och digitaliserat material behöver behärska en bred metod arsenal. Det handlar dels om att hantera och modifiera de digitala verktyg som redan finns, dels om att hitta sina egna angreppssätt och metoder.
© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR
Burdick, A., Drucker, J., Lunefeld, P., Presner, T. & Schnapp, J. (2012), Digital_humanities. Cambridge, MA: MIT Press. Efron, B. (2020), Prediction, estimation, and attribution. Journal of the American Statistical Association, 115(530), s. 636–655. franzke, a.s., Bechmann, A., Zimmer, M., Ess, C. & Association of Internet Researchers (2020), Internet research: Ethical guidelines 3.0. https://aoir.org/reports/ethics3.pdf. Fridlund, M. (2020), Digital history 1.5: A middle way between normal and paradigmatic digital historical research. I: M. Fridlund, M. Oiva & P. Paju (red.), Digital histories: Emergent approaches within the new digital history. Helsinki: Helsinki University Press, s. 69–87. Gitelman, L. & Jackson, V. (2013), Introduction. I: L. Gitelman (red.), ”Raw data” is an oxymoron. Cambridge & London: MIT Press, s. 1–14. Guldi, J. (2018), Critical search: A procedure for guided reading in large-scale textual corpora. Journal of Cultural Analytics, december, s. 1–35. Hayles, K. (2004), Print is flat, code is deep: The importance of media-specific analysis. Poetics Today, 25(1), s. 67–90. Hughes, L., Constantopoulos, P. & Dallas, C. (2016), Digital methods in the humanities: Understanding and describing their use across the disciplines. I: S. Schreibman, R. Siemens & J. Unsworth (red.), A new companion to digital humanities. Chichester: Blackwell, s. 150–170. Jarlbrink, J. (2015), Historievetenskapens mediehantering. I: M. Hyvönen, P. Snickars & P. Vesterlund (red.), Massmedieproblem: Mediestudiets formering. Lund: Mediehistoriskt arkiv, s. 225–247. Jensen, K.B. (2011), New media, old methods: Internet methodologies and the online/ offline divide. I: M. Consalvo & C. Ess (red.), The handbook of internet studies. Chichester: Wiley-Blackwell, s. 43–58. Lagoze, C. (2014), Big data, data integrity, and the fracturing of the control zone. Big Data & Society, 1(2), s. 1–11. Lindgren, S. (2017), Digital media & society. Thousand Oaks: Sage. Lingold, M.C., Mueller, D. & Trettien, W. (red.) (2018), Digital sound studies. London: Duke University Press. Manovich, L. (2020), Cultural analytics. Cambridge, MA: MIT Press. Milligan, I. (2013), Illusionary order: Online databases, optical character recognition, and Canadian history, 1997–2010. The Canadian Historical Review, 94(4), s. 540–569. Moretti, F. (2013), Distant reading. London: Verso. Neilson, T., Levenberg, L. & Rheams, D. (2018), Introduction: Research methods for the digital humanities. I: T. Neilson, L. Levenberg & D. Rheams (red.), Research methods for the digital humanities. Hampshire: Palgrave Macmillan, s. 1–14. Snee, H., Hine, C., Morey, Y., Roberts, S. & Watson, H. (2016), Digital methods as mainstream methodology: An introduction. I: H. Snee, C. Hine, Y. Morey, S. Roberts & H. Watson (red.), Digital methods for social science: An interdisciplinary guide to research innovation. Hampshire: Palgrave Macmillan, s. 1–11.
Inledning
25
Digitala metoder i humaniora och samhällsvetenskap Hur sprids nyheter, politiska upprop och memes över världen i sociala medier? Hur interagerar användarna med varandra i forum och dataspel? Hur har 1900-talets tidningspress rapporterat om olika delar av världen? Digitala medier ger upphov till nya forskningsfrågor men gör det också möjligt att undersöka gamla frågor med nya metoder. Digitaliseringen av kulturarv och arkivsamlingar innebär att historien kan utforskas på digital väg. För första gången på svenska introduceras här en bred uppsättning digitala metoder för studier av historia och samtid. I bokens elva kapitel behandlas digital etnografi, metoder för text-, bild- och nätverksanalys samt studier av dataspel, gränssnitt och digitala flöden. Dessutom beskrivs metoder för automatisk datainsamling och vetenskapliga visualiseringar. Författarna går igenom grunderna för respektive metod och visar med illustrativa exempel hur de kan användas i konkreta undersökningar. Digitala metoder i humaniora och samhällsvetenskap vänder sig till studenter på grund- och avancerad nivå inom ett flertal ämnesområden, men riktar sig också till forskare som vill uppdatera sin metodarsenal.
Art.nr 43218
studentlitteratur.se