9789144140551

Page 1

Digitala metoder i humaniora och samhällsvetenskap

JOHAN JARLBRINK FREDRIK NORÉN ( RED. )


KOPIERINGSFÖRBUD Detta verk är skyddat av upphovsrättslagen. Kopiering, utöver lärares och studenters begränsade rätt att kopiera för undervisningsändamål enligt Bonus Copyright Access kopieringsavtal, är förbjuden. För information om avtalet hänvisas till utbildningsanordnarens huvudman eller Bonus Copyright Access. Vid utgivning av detta verk som e-bok, är e-boken kopieringsskyddad. Den som bryter mot lagen om upphovsrätt kan åtalas av allmän åklagare och dömas till böter eller fängelse i upp till två år samt bli skyldig att erlägga ersättning till upphovsman eller rättsinnehavare. Studentlitteratur har både digital och traditionell bokutgivning. Studentlitteraturs trycksaker är miljöanpassade, både när det gäller papper och tryckprocess.

Art.nr 43218 ISBN 978-91-44-14055-1 Upplaga 1:1 © Författarna och Studentlitteratur 2021 studentlitteratur.se Studentlitteratur AB, Lund Översättning (kap. 3): Lisa Sjösten Sakgranskning: Jonas Andersson Schwarz Formgivning inlaga: Jesper Sjöstrand/Metamorf Design Group Ombrytning inlaga: Catharina Grahn/ProduGrafia Formgivning omslag: Jens Martin Omslagsbild: Ozz Design/Shutterstock Printed by GPS Group, Austria 2021


Innehåll

Författarpresentationer  7

Inledning  11 Johan Jarlbrink & Fredrik Norén

Från det datorstödda till det etnografiska  13 Metodologiska val och förkunskaper  16 Materialinsamling och urval  18 Metodologisk transparens  21 Metodöverföring från industrin till akademin  23 Referenser  24

1 Digital etnografi  27 Coppélie Cocq & Evelina Liliequist

Vad menas med digital etnografi?  28 Studiens planeringsfas  30 Metoder för att samla in material  35 Att avsluta fältarbetet  39 Att framställa forskningsresultat  40 Avslutning  41 Förslag till fördjupning  42 Referenser  43

2 Teknografi  45 Eric Carlsson, Jens Lindberg & Anna Sofia Lundgren

Teknografiska ansatser  46 Ett förslag på analysmodell  48 Exempel på analyser  52 Avslutning  67 Referenser  68


3 Spelstudier  71 Patrick Prax & Paulina Rajkowska

Spel, lek och interaktivitet – förutsättningen för att studera spel som medieformer  72 Att förstå och analysera spelregler  73 Ramverket MDA  74 Fallstudie av September 12th   75 Formell analys  79 Fallstudie av Civilization 3  81 En kombination av metoder – fallstudie av kön i League of Legends   86 Avslutning  92 Förslag till fördjupning  92 Referenser  93

4 Analys av rörlig bild  95 Emil Stjernholm

Närläsning med digitala metoder  97 Storskalig analys av rörliga bilder  105 Avslutning  110 Förslag till fördjupning  111 Referenser  111

5 Dataflöden och infrastruktur  113 Maria Eriksson

Dataflöden som studieobjekt  116 Hur fungerar internet?  118 Att spåra kakor  120 Paketsniffning  126 Avslutning  132 Förslag till fördjupning  133 Referenser  134

4 Innehåll


6 Automatiserad datainsamling  137 Mathilda Åkerlund

Urval och avgränsning  139 Etik  145 Datainsamling  147 Förbereda data för analys  155 Avslutning  156 Förslag till fördjupning  157 Referenser  158

7 Nätverk  161 – ANALYS, MÅT T OCH TIL L ÄMPNINGAR

David Gunnarsson Lorentzen

Vad nätverksanalys går ut på  164 Tillämpningar  166 Nätverksmått, layout och filtrering  168 Hur metoden fungerar  173 Fallgropar och möjliga lösningar  182 Avslutning  183 Förslag till fördjupning  184 Referenser  185

8 Introduktion till fjärrläsning  187 Karl Berglund

Grundläggande perspektiv  189 Tillvägagångssätt för fjärrläsningar  189 Stilistiska analyser  193 Tematiska analyser  196 Avslutning  206 Förslag till fördjupning  207 Referenser  208

Innehåll

5


9 Tematisk innehållsanalys med temamodellering  211 André Baltz & Fredrik Norén

Likheter och skillnader mellan temamodellering och andra metoder  213 Temamodellering  213 Förberedelser av textmaterialet  217 Temamodellering med Mallet  219 Avslutning  230 Förslag till fördjupning  233 Referenser  234

10 Datadriven kunskapssociologi  235 Simon Lindgren

Ordvektorer  237 Maskininlärning  242 Ett ord och dess vänner  244 En ska bort  247 Diskursiva nätverk  249 Avslutning  252 Förslag till fördjupning  254 Referenser  255

11 Diagram, kartor och nätverk  257 – OM V E TENSK APLIGA V ISUALISERINGAR

Johan Jarlbrink

Visualiseringens grunder  260 När?  265 Var?  268 Med vem?  274 Avslutning  282 Förslag till fördjupning  282 Referenser  282 Register  285

6 Innehåll


Inledning

Ӽ JOH A N JA R L BR I N K & F R E DR I K NOR É N

Hur sprids nyheter, politiska upprop och memes över världen i sociala medier? Hur ser maktrelationerna ut i digitala nätverk? Hur interagerar användarna med varandra i forum och dataspel? Vår digitala samtid ger upphov till forskningsfrågor som kan kräva metoder för materialinsamling och analys som för många humanister och samhällsvetare ännu är relativt okända eller oprövade. Sådana metoder kan även användas för att undersöka historiska material som har digitaliserats. Finns det formmässiga skillnader mellan tidiga och sena verk i Selma Lagerlöfs litterära produktion? Hur har 1900-talets tidningspress rapporterat om olika delar av världen? Hur förändrades färgskalan i Vincent van Goghs bevarade verk över tid? Internationellt finns en växande forskning inom humaniora och samhällsvetenskap som tar olika metoder i bruk för att studera digitala fenomen och äldre källor som digitaliserats. Metoder för att utforska digitala material och miljöer saknas emellertid ofta i de metodböcker som ges ut med inriktning mot grundutbildning i huma­ niora och samhällsvetenskap. Ambitionen med denna bok är att uppdatera metodarsenalen. Med digitala hjälpmedel kan vi i dag studera ord, beteenden och

11


12

Johan Jarlbrink & Fredrik Norén

© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR

k­ ommunikativt handlande från ett makroperspektiv. Men vi kan också zooma in och urskilja detaljer och enskildheter i stora material (Burdick m.fl. 2012). Utvecklingen av onlinekulturer har gjort det möjligt att samla in och analysera inlägg, kommentarer, bilder och likes – ibland utan att ens be avsändarna om tillåtelse. En metodologisk uppdatering kan innebära förändrade frågor om verkligheten och hur den uppfattas, nya studieobjekt och digitala forskningsredskap – liksom en forskningsetik anpassad till villkoren för digitala kulturer (Jensen 2011). Med denna metodbok vill vi på ett lättillgängligt sätt, med förklarande exempel och en svensk begreppsapparat, introducera ett antal vanligt förekommande metoder för att undersöka digitala material och miljöer inom humaniora och samhällsvetenskap. Hur kan metoderna användas? Vilken typ av kunskap kan de generera – och visualisera? Vilka begränsningar har de och vad bör man tänka på när de tas i bruk? Det finns en rad program, färdigutvecklade statistiska modeller och enklare script att använda sig av om man vill undersöka datasamlingar av olika slag – många av dem är fritt tillgängliga. Detta är emellertid ingen instruktionsbok i hur man använder enskilda program. En manual blir snabbt inaktuell, och den som behöver lära sig enskilda programfunktioner har redan en uppsjö av pedagogiska videoguider och användarforum att ta hjälp av. I stället vill vi beskriva metodernas möjligheter och begränsningar i studier av vår digitala omgivning, samt inviga läsaren i mer grundläggande metodo­logiska funktionaliteter och frågor. För att ändå antyda vad man har att välja bland kommer författarna i de olika kapitlen återkommande att referera till och översiktligt beskriva vanligt förekommande programvaror liksom metodo­ logiska perspektiv och förhållningssätt. Författarna har sin bakgrund i biblioteks- och informationsvetenskap, etnologi, filmvetenskap, informatik, litteraturvetenskap, medie- och kommunikationsvetenskap och sociologi. De bär med sig olika perspektiv och intressen, men en gemensam nämnare är deras användning av metoder för att utforska digitala material och miljöer. Tillsammans bidrar de till att introducera en bred metodpalett. I denna inledning presenterar vi metoderna översiktligt, samtidigt som vi introducerar ett antal metodo­ logiska val och förhållningssätt som är bra att ha med sig när man läser de enskilda kapitlen.


© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR

Från det datorstödda till det etnografiska Att använda sig av digitala verktyg i forskningssyfte är inget nytt fenomen. Redan under 1960-talet användes datorer för att hitta kvantitativa mönster i tidningstexter (Jarlbrink 2015). Under 1970-talet ökade arkeologers användning av digitala databaser för att dokumentera, kurera och tillgängliggöra data, men också av enklare geografiska informationssystem för att undersöka samband mellan olika utgrävningsfynd (Watrall 2016). Statsvetare kunde på motsvarande vis behandla och analysera enkätdata med hjälp av så kallade hålkortsmaskiner, en teknik för in- och utmatning av data i äldre datorer. Och inom informatik och språkvetenskap har det under flera decennier utvecklats metoder för att analysera texter och nätverk digitalt. Mer kvalitativt orienterade forskare började under 1990-talet att studera interaktionen på den expanderande webben, under rubriker som netnografi och cyberetnografi. Det finns alltså ett rikt arv att bygga vidare på, samtidigt som det i dag finns förutsättningar för att urskilja och ställa andra typer av frågor än de som ofta intresserade föregångarna (Burdick m.fl. 2012). Digitala metoder ska i denna bok förstås som en samlingsterm för en rad olika sätt att undersöka digitala eller digitaliserade material och ­miljöer. Exakt vilka metoder som bör inbegripas finns det olika uppfattningar om (Hughes m.fl. 2016). Vilka forskningspraktiker är i dag opåverkade av digital teknik? Historikern som söker efter dokument i digitala data­ baser använder digitala hjälpmedel även om hen inte beskriver sin metod som ”digital” (Fridlund 2020). En forskare som studerar interaktionen på sociala medier kan å sin sida beskriva sin metod som ”digital etnografi” även om forskningsverktygen till stor del utgörs av papper och penna. De som beskriver sina metoder som digitala vill ofta framhäva antingen att programvara används för insamling, analys och visualisering – av digitaliserade såväl som digitalt skapade material – eller att metoderna på olika sätt uppmärksammar hur studieobjekten villkoras av digital teknik. Det skulle schematiskt gå att tala om en glidande skala, från metoder som bygger på datorns beräkningsförmåga eller kapacitet, till kvalitativa metoder för att undersöka digitala miljöer. De metoder som bygger på datorernas beräkningsförmåga omnämns ofta som datorstödda metoder (computational methods) (Snee m.fl. 2016).

Inledning

13


14

Johan Jarlbrink & Fredrik Norén

© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR

I en del fall erbjuder sådana metoder helt nya sätt att processa material, utan någon manuell motsvarighet. Hit hör bland annat så kallad tema­ modellering, även om tillämpningen av metoden har en hel del gemensamt med innehålls- och diskursanalys. I kapitlet om temamodellering visar André Baltz och Fredrik Norén hur denna statistiska metod med minimal mänsklig inblandning kan användas för att hitta teman och visa mönster i en oöverskådlig textsamling, baserat på fördelningen av ord i dokument. Simon Lindgrens kapitel om ordinbäddningar presenterar en annan datorstödd metod utan någon direkt motsvarighet bland de analoga metoderna. I andra fall används datorstödda metoder för att snabbare beräkna sådant som tidigare har gjorts manuellt. Att räkna antalet ord i en text är ett exempel. Andra metoder med analogt ursprung, där programvara förenklar arbetet, är nätverksanalys och analys av rörlig bild, något som David Gunnarsson Lorentzen och Emil Stjernholm skriver om i sina respektive kapitel. Gunnarsson Lorentzen visar hur nätverksanalysens centrala komponenter – noder, kopplingar, centralitet med mera – kan användas för att studera relationer mellan individer, organisationer och ting, i stora dataset såväl som små. Stjernholm beskriver hur stilmässiga analyser av rörliga bilder i dag kan förenklas med program för att kan skala upp och automatisera det manuella arbete som tidigare har krävts. Programmen kan både vara en hjälp när rörliga bilder ska märkas upp och göra det möjligt att automatiskt identifiera klipp, ljus- och färgskalor. Digital kommunikation ger också upphov till nya materialkategorier som är helt oåtkomliga utan digitala redskap. Antropologer har länge stude­rat hur föremål förflyttas mellan människor och platser. För att studera hur data på ett liknande sätt rör sig mellan laptops och serverhallar krävs programvara som gör datatrafiken synlig. Maria Eriksson visar i sitt kapitel hur infrastruktur och digitala aktörer kan kartläggas för att svara på frågor om digital övervakning, hur data färdas, samlas in och säljs när människor strömmar, söker och kommunicerar. De verktyg som Eriksson introducerar gör det möjligt både att dokumentera så kallade kakor och att spåra alla de små datapaket som hela tiden skickas till och från datorer och telefoner när människor är uppkopplade. Härutöver finns metoder för studier av digitala miljöer som inte nödvändigtvis kräver något särskilt hjälpmedel, mer än en webbläsare eller en


© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR

mobiltelefon. Det kan, som Coppélie Cocq och Evelina Liliequist belyser i sitt kapitel, handla om etnografiska metoder som är sprungna ur en fördigital kontext och som har vidareutvecklats för att fånga interaktion och kulturella processer i digitala miljöer. Länge var den digitala etnografin främst upptagen av människors kommunikation i digitala kanaler, men i takt med att tekniken integrerats i samhället och vardagen har det blivit svårare att dra gränsen mellan världen online och offline. Som Cocq och Liliequist betonar kan den digitala etnografin intressera sig för teknik i vardagen likaväl som kommunikation via forum och plattformar. Ofta används intervjuer och observationer för att studera sociala samspel, upplevelser och praktiker. En annan metod för studier av digitala miljöer är teknografin, men här handlar det i stället om att undersöka hur gränssnitt i exempelvis mobilapplikationer villkorar interaktionsmöjligheterna och vår användning av tekniken. Eric Carlsson, Jens Lindberg och Anna Sofia Lundgren visar i sitt kapitel att teknikens design gör att vissa val och handlingar blir mycket lätta när människor interagerar med digitala objekt – en del är förinställt, annat kräver bara en knapptryckning. Andra val blir betydligt svårare och kanske omöjliga eftersom designen har begränsat handlingsalternativen. Teknografiska studier av gränssnitt kan synliggöra ideologiska antaganden inskrivna i dess utformning. Metoden hämtar inspiration från bland annat diskursanalys och semiotik, men i stället för statiska texter och bilder utforskar teknografin interaktiva objekt som kräver att forskaren använder dem, klickar sig fram och observerar hur de svarar. Gränserna mellan de metodkategorier som här skisserats är emellertid knappast skarpa. De kunde ha grupperats på andra sätt, och vad vi urskilt som en specifik metod hade andra hellre delat upp i mindre undergrupper. I praktiken är det dessutom vanligt att olika metoder kombineras. Ambitionen med denna introduktionsbok är emellertid inte att slå fast kategorier och dra skarpa gränser. Syftet är pragmatiskt: att beskriva och exemplifiera ett brett spektrum av metoder för dem som vill undersöka digitala material och miljöer med andra metoder än de som vanligtvis dominerar metod­ under­vis­ningen inom humaniora och samhällsvetenskap.

Inledning

15


Forskningsproblem och frågeställningar bör rimligtvis styra valet av metod. Många studier av digitala material kännetecknas samtidigt av en experi­ men­te­rande ansats, där valet av metod och dess specifika design växer fram i takt med att forskaren prövar sig fram (Lindgren 2017). Eftersom ingen metod kan göra anspråk på fullständighet måste forskaren alltid vara medveten om och beredd på att en del aspekter förblir oåtkomliga. Statistikern George E. Box sammanfattade denna begränsning på följande sätt: ”alla modeller är felaktiga, men vissa är användbara” (Box & Draper 1987 s. 424, vår översättning). Olika metoder kan med fördel kombineras. Ett experimentellt till­väga­ gångs­sätt kan synliggöra hur olika metoder genererar skilda perspektiv på det fenomen som undersöks och på det material som används (Guldi 2018). Icke desto mindre krävs en medvetenhet om att de metoder som används påverkar vilken typ av data som det är möjligt att arbeta med och vilka slutsatser som man kan dra (Neilson m.fl. 2018). Olika metoder är bra på olika saker. Ett förändrat deltagande på Twitter kan studeras genom en beräkning av Twitterinlägg och retweets över tid, men metoden säger ingenting om vilka intentioner eller motiv som Twitteranvändarna har. Att sätta studieobjektet i ett kulturellt och socialt sammanhang, problematisera meningsskapande uttryck samt att få finkänslig materialkännedom är något som ibland kan vara svårt med datorstödda metoder. Här kan i stället kvalitativt orienterade metoder bidra med kunskap om deltagandets innebörder. För att göra genomtänkta metodval måste forskaren ha kunskap om de antaganden som kan ligga inbyggda i de metoder, program och material som används. Vilka antaganden om texters mening ligger exempelvis till grund för temamodellering? Vad kan en analys av sociala nätverk svara på, och när kommer metoden till korta? Vad kan en teknografisk studie av gränssnitt belysa och vilka frågor undersöks bättre med andra metoder? Metoder och programvaror sätter gränserna för vad forskare kan fånga. För att inte jaga i blindo måste den som använder dem veta hur de är beskaffade. Olika metoder kräver förkunskaper av olika slag och på olika nivåer. Etnografiskt orienterade studier, undersökningar av gränssnitt och spel kräver bland annat införståddhet med det specifika fältet och de fall som

16

Johan Jarlbrink & Fredrik Norén

© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR

Metodologiska val och förkunskaper


© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR

ska studeras, samt en metodologisk medvetenhet kring sådant som intervjuoch observationstekniker eller diskurs- och innehållsanalys. I sitt kapitel om spelstudier poängterar till exempel Patrick Prax och Paulina Rajkowska vikten av att spela spelet för att förstå och analysera dess regler och uttryck. De visar bland annat hur budskap och ideologi kan studeras genom den procedurella retorik som spelet uttrycker, det vill säga betydelsen av vilka val som en spelare ställs inför och vad dessa får för konsekvenser. Vidare illustrerar Prax och Rajkowska hur spelets grundläggande komponenter, handlingar och mål kan studeras – vilket med fördel kan kombineras till exempel med undersökningar av spelens visuella representationer. Dessa undersökningar förutsätter att den som studerar spelen har förståelse för de inbyggda möjligheter och begränsningar som på olika sätt villkorar interaktionen – metoderna som sådana kräver emellertid inga tekniska färdigheter. Eftersom alla metoder bär spår av de medier och företeelser som de utvecklats för att studera är det också viktigt att det digitalt mediespecifika inte förbises (Hayles 2004). I studier av dataspel kan man mycket väl låna perspektiv och modeller från den narrato­logi som utvecklats inom litteratur- och filmvetenskap. Det specifika för spel är emellertid att spelarens agerande påverkar berättelsen – modeller som gäller andra medier kan alltså ha begränsat förklaringsvärde. Enklare språkliga analyser eller studier av nätverk, dataflöden och ­rörliga bilder kräver att forskaren lär sig ett specifikt program, men det finns en hel del som är relativt användarvänliga. Temamodellering och ord­ inbäddnings­metoder kräver däremot åtminstone basala programmeringskunskaper. Ofta finns färdig kod tillgänglig som någon annan har utvecklat, men denna måste inte sällan modifieras utifrån forskarens specifika syfte och material. Flera av de mer tekniskt komplicerade metoderna befinner sig fortfarande i en utvecklingsfas, där nya versioner och program regelbundet dyker upp och utvärderas. Det finns ännu ingen samsyn kring hur dessa metoder borde användas inom humaniora och samhällsvetenskap. Det är ett metodologiskt fält som håller på att uppfinna sig självt, och helt etablerade tillvägagångssätt har helt enkelt inte utvecklats. För den som är beredd att lägga lite tid på att lära nytt finns det därmed goda möjligheter att lämna ett bidrag till och påverka metodutvecklingen.

Inledning

17


Humanister och samhällsvetare har traditionellt avgränsat sina studie­ objekt till enskilda fall eller begränsade urval. De metoder som tidigare stått till buds har helt enkelt gjort det svårt och kostsamt att undersöka stora material. Också i kvantitativa studier där man tar hjälp av datorns beräkningskraft måste urval göras, men urvalet kan vara så mycket större: 500 i stället för fem bästsäljande romaner, 5 000 i stället för 50 tidningsartiklar. Datorstödda metoder gör det enklare att identifiera enskilda element, ordna dem på nya sätt, beräkna frekvenser och presentera resultatet i tabeller, grafer och kartor. I en stor samling romaner kan forskaren välja att studera sådant som pronomen, platsnamn eller känslouttryck, som algoritmiskt går att identifiera och sedan analysera på olika sätt. När helhetens komplexitet på detta vis reduceras kan mönster och samband träda fram som hade varit svåra att upptäcka genom närläsning (Moretti 2013). Till den nödvändiga metodkunskapen hör en kritisk medvetenhet om de digitala data som ska studeras, vad olika datasets storlek innebär och möjliggör, hur de har valts ut och vilket sammanhang de kommer ifrån. Med möjligheten att undersöka och visualisera stora datamängder, eller data som kan kvantifieras på olika sätt, kommer ofta föreställningen om att storskalighet och mätbarhet representerar en högre form av vetande. Det som tidigare kunde anas kan nu beläggas med en graf. Man bör dock vara mycket försiktig med den typen av slutsatser (boyd & Crawford 2012). Johan Jarlbrink visar i sitt kapitel hur olika former av vetenskapliga visua­li­se­ringar fungerar som både pedagogiska och förföriska tekniker för att presentera data och analytiska resultat. Visualiseringar presenterar resultat, belägger slutsatser och gör det svåröverskådliga synligt, men de kan också reducera och få det komplexa att se entydigt ut. I visuell form kan det se ut som att data talar för sig själva, men de urval och filter som kartor, diagram och nätverksgrafer bygger på bör hellre förstås som delar av en tolkningsprocess. Som påpekats av bland andra informationsvetaren Carl Lagoze (2014) och medieforskaren Lisa Gitelman och litteraturvetaren Virginia Jackson (2013) bygger även stora datamängder på urval som kan snedvrida resultaten. Data är aldrig ”råa” utan har alltid skapats och samlats utifrån specifika syften. Tillgången både till samtida dataflöden i sociala medier och till digitaliserade historiska samlingar är dessutom ofta reglerad och beroende 18

Johan Jarlbrink & Fredrik Norén

© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR

Materialinsamling och urval


© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR

av urvalsmekanismer som enskilda forskare har svårt att kontrollera och få insyn i. Det är inte heller säkert att innehållet i ett dataset är vad det utges för att vara – automatiskt genererade samlingar innehåller ofta ”ruttna” data såsom felkategoriserade texter, spam och avbrutna länkar (Boellstorff 2013). I sitt kapitel om automatiserad datainsamling beskriver Mathilda ­Å kerlund två vanliga sätt att samla in material online: via en webbsidas API (Application Programming Interface) och genom en webbsidas HTMLkod (HyperText Markup Language). Ett API syftar ofta till att möjliggöra för externa parter att utveckla program och funktioner som på olika sätt kan interagera med en webbsida eller plattform. Forskare kan emellertid använda samma API för att helt enkelt ladda hem texter, bilder, länkar och annat i forskningssyfte. Materialet är ofta välstrukturerat, men det är inte alltid som det är komplett. Vad urvalet baseras på och vad som saknas kan vara svårt att veta säkert. Innehåll från sidor som saknar API kan ”skrapas” utifrån den HTML-kodning som styr vilka element som visas. På ett forum kan det till exempel handla om textkommentarer, användarnamn och datum. Svårigheten med denna insamlingsmetod är att olika sidor har olika kodning, och det är inte alltid lätt att veta vilka element som fångas in och vilka som missas. Som Åkerlund konstaterar får den som skrapar prova sig fram och på det viset bilda sig en uppfattning om hur olika insamlings­ strategier påverkar urvalet. För att skapa transparens måste valen och deras konsekvenser beskrivas, och det gäller naturligtvis inte bara för insamling som är automatiserad. En annan utmaning med materialinsamling och urval av digitala material och miljöer är att vissa materialkategorier tenderar att bli över­ representerade inom forskningen. Ett tydligt exempel på detta är textbaserade källor. Ord är lätta att identifiera, räkna och gruppera. Att på maskinell väg hitta meningsfulla mönster i stora samlingar av bilder och ljud är mycket svårare, även om det finns intressanta försök på området (Lingold m.fl. 2018, ­Manovich 2020). Text är förstås en central material­ kategori i flera sammanhang, men knappast den enda som är värd att studera. I många digitala kanaler är det kanske snarare bilden som har en särställning. Youtube är en plattform för distribution av rörlig bild och ljud, men datorstödda undersökningar av sajtens material baseras som regel på de mer lätt­arbetade kommentarsfälten i text.

Inledning

19


20

Johan Jarlbrink & Fredrik Norén

© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR

Eftersom de verktyg som används för insamling och analys sätter gränserna för vad som kan undersökas finns en risk att forskningen förbiser de materialkategorier som är svåra att studera, samtidigt som det lätt­ studerade får orimligt stor uppmärksamhet. Olika källors tillgänglighet kan styra forskningsfokus på ett liknande sätt. Många populära kommersiella plattformar och forum är mer eller mindre låsta och stängda för forskare som vill göra storskaliga analyser av innehållet. En anledning till att så många forskat på Twitterdata är inte minst att just tweets har varit möjliga att samla in med relativt enkla medel. Databaser med digitaliserade material kan ha en motsvarande effekt. När ett material har digitaliserats och tillgängliggjorts ökar ofta antalet forskningsstudier som bygger på just detta material, även om icke-digitaliserade material hade svarat bättre mot de forskningsfrågor som ställs (Milligan 2013). För forskare som studerar människors beteende och interaktion med hjälp av intervjuer och observationer är etiska förhållningssätt sedan länge integrerade delar av forskningsprocessen. Forskaren presenterar sig för personerna som studeras och berättar vad syftet är. Den som intervjuas tillfrågas om samtycke och om hen vill vara anonym. Detsamma gäller ofta i observationsstudier. Personerna får inte sällan möjlighet att läsa och ta ställning till vad som skrivs om dem innan det publiceras. När människor observeras på digitala plattformar är dessa etiska förhållningssätt inte lika självklara – även om de ofta borde vara det. En anledning är att platt­ formarna kan framstå som offentliga arenor där den som är aktiv får räkna med att synas, även av forskare. Det är dock inte säkert att användarna vet hur synliga de är. Många digitala miljöer befinner sig i gränslandet mellan privat och offentligt. Även om dessa miljöer i princip är öppna för utomstående kan de präglas av en intim gemenskap mellan deltagare som upplever sig ingå i en avgränsad grupp, där bara bekanta eller likasinnade ingår. Därför bör forskaren agera med försiktighet och alltid fråga sig om forskningsnyttan är värd riskerna för de personer som studeras. Etiken och forskningspraktiken har dessutom att förhålla sig till lagstiftning på området, inte minst gällande lagring av personuppgifter som regleras i den europeiska dataskyddsförordningen (GDPR). Association of Internet Researchers har tagit fram bra riktlinjer att utgå från (franzke m.fl. 2020), men som Cocq och Liliequist skriver ska etiken inte reduceras till


© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR

en checklista att pricka av, utan ett etiskt förhållningssätt bör genomsyra hela forskningsprocessen. För en digital etnografi som strävar efter att komma nära de miljöer och personer som studeras finns all anledning att gå försiktigt fram. Forskaren kan till exempel göra sin närvaro i miljön känd och berätta om studien och dess syfte. Som Cocq och Liliequist skriver är syftet vanligtvis att samla ett rikt material om ett begränsat antal fall, och därför är det ofta fullt möjligt att kontakta personerna och be om samtycke. Den som skrapar hundratusentals eller miljontals tweets och forumkommentarer har inga möjligheter att kontakta alla skribenter och följare individuellt, även om forskaren i vissa fall kan meddela sin närvaro i miljön på andra sätt. Syftet med en storskalig studie brukar dock vara ett helt annat. Där den digitala etnografin vill komma nära vill den storskaliga forskningen skapa distans. I det senare fallet är det är inte enskilda personer som intresserar utan text- och interaktionsmönster på aggregerad nivå. Strategier för att göra materialet mindre känsligt kan vara att anonymisera det eller helt enkelt avstå från att samla in användar-id. I Gunnarsson Lorentzens kapitel finns ett exempel på det förra: nätverksanalysen av vaccinationsfrågan på Twitter utgår endast från samförekomst av hashtaggar, varken textinnehåll eller användar-id har samlats in. Forskare som studerar övergripande mönster på detta sätt vill emellertid ofta illustrera och belägga med hjälp av enskilda exempel – och om det är text det rör sig om kan de via sökfunktionerna vara lätta att spåra tillbaka till källan, till och med om de översatts. En möjlighet här är att söka medgivande från just de användare som skrivit de foruminlägg eller användarkommentarer som man önskar använda som illustrationer – det rör sig sällan om särskilt många.

Metodologisk transparens Transparens är ett övergripande metodologiskt ideal. Om vi tänker oss att indata såsom texter, bilder, nätverksrelationer och annat processas maskinellt och skapar utdata i form av statistik, visualiseringar och modeller är det viktigt att veta vad som händer med dessa data när de processas, och varför resultatet blir som det blir. Detta gäller förstås inte bara metoder som baseras på datorns beräkningskraft – också kvalitativa forskare måste

Inledning

21


22

Johan Jarlbrink & Fredrik Norén

© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR

kunna förklara hur analysen har gått till. Är processen och tekniken helt ogenomskinlig brukar den beskrivas som en ”svart låda”, där något stoppas in och något annat kommer ut, men där maskineriet inne i lådan, det som omvandlar indata till utdata, är svårt att förklara eller begripa. Transparens kan handla om att förstå och kunna förklara hur bearbetningar och beräkningar görs och varför, men också möjligheten att spåra slutsatser till de indata som resultatet baseras på. Enklare metoder för att exempelvis undersöka hur ord samförekommer med varandra är ofta lätta att beskriva och förstå. Karl Berglunds kapitel är en introduktion till fjärrläsning där en rad enklare metoder förklaras och exemplifieras. Med hjälp av samförekomstanalys visar han bland annat vilka ord som är överrepresenterade bland dem som förekommer tillsammans med könsbestämda pronomen (som ”han” och ”hon”) i några svenska romaner. Vidare belyser Berglund en metod för att jämföra texter från olika tidsperioder mellan varandra för att se vilka ord som är de mest distinkta för respektive period. I Berglunds kapitel är det förhållandevis enkelt både att förstå hur texterna omvandlats till listor över ord och att spåra enskilda ord tillbaka till texterna. Temamodeller och ordinbäddningar är något mer svårhanterliga i detta avseende. Simon Lindgren beskriver i sitt kapitel hur ordinbäddningar kan förstås på ett teoretiskt plan, men varken forskaren eller läsaren kan förklara resultatet i sina detaljer eller följa hur texterna har processats steg för steg. Metoden försöker förutsäga vilka ord som kommer att uppträda tillsammans, och varje gång beräkningen av förutsägelserna upprepas ser utfallet olika ut (skillnaderna är dock ofta marginella). Men även om metoden i sig kan vara svårbegriplig betyder det inte att resultatet är oanvändbart. I kapitlet exemplifierar Lindgren med en ordinbäddningsmodell som baseras på 1,2 miljarder inlägg och kommentarer på Reddit. Lindgren argumenterar för att metoden kan användas diskursanalytiskt för att urskilja ideologiska mönster i forumdiskussioner. Ordinbäddningsmodeller är svåra att göra helt genomskinliga, men det finns ändå sätt att öka transparensen. Forskare som använder denna och liknande metoder gör som regel koden publikt tillgänglig för andra, som i sin tur kan testa och utvärdera den. Ett annat sätt att visa transparens är att tydligt redovisa vilka val som man har gjort, vilka parametervärden som


satts och hur texterna har avgränsats eller tvättats med hjälp av ordfönster, stoppordslistor och annat. Även om metoden förblir något av en svart låda är genomskinlighet alltid något att sträva efter.

© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR

Metodöverföring från industrin till akademin Digitala program och hjälpmedel utvecklas inte sällan inom discipliner som statistik och datavetenskap. Men de kan också ha sitt ursprung i näringslivet. Den metod för ordinbäddning som Lindgren illustrerar i sitt kapitel, ­word2vec, kommer till exempel från forskare på Google. Sådan metod­över­föring behöver inte nödvändigtvis vara problematisk, men det är viktigt att vara medveten om att metoderna ofta utvecklats för andra ändamål än humanistisk och samhällsvetenskaplig forskning. Eftersom tid är pengar kan det för företagen vara viktigare att modellerna levererar ett acceptabelt resultat snabbt än att utfallet är det bästa möjliga men tar lång tid att få fram. De kan också ha optimerats för att processa mycket omfattande datamängder och därför fungera mindre bra för undersökningar av mer begränsade dataset. Men det som utgör ett problem när företag och institutioner tar maskin­inlärning i bruk kan samtidigt skapa analytiska möjligheter för forskare. När myndigheter, företag och andra organisationer fattar beslut utifrån underlag genererade från maskininlärningsmodeller som tränats på dataset präglade av snedvridningar, stereotyper och fördomar finns stor risk att besluten reproducerar och förstärker orättvisorna: uträkningar av försäkringspremier som baseras på bostadsadress, riktad onlinereklam som könas beroende på vilken musik användarna har strömmat, eller modeller som utvecklats för en rättvis bedömning av forskningsansökningar men där träningsdata främst består av ansökningar skrivna av män. För forskare i humaniora och samhällsvetenskap kan sådan snedvridning innebära en möjlighet att synliggöra samma stereotyper och orättvisor (Underwood 2019). De Reddit-inlägg Lindgren undersöker behandlas inte som neutrala texter, utan det är just värderingarna och normerna de bygger på som gör materialet intressant. Ordinbäddningsmodellen används inte minst för att frilägga de perspektiv och stereotyper som präglar texterna. En annan skillnad mellan företags och forskares användning av maskin­

Inledning

23


Referenser Boellstorff, T. (2013), Making big data, in theory. First Monday, 18(10), s. 1–17. Box, G.E.P. & Draper, N.R. (1987), Empirical model-building and response surfaces. New York: Wiley. boyd, d. & Crawford, K. (2012), Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon. Information, Communication & Society, 15(5), s. 662–679.

24

Johan Jarlbrink & Fredrik Norén

© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR

inlärning är att de förra ofta använder tekniken för att göra förutsägelser om framtida fall baserade på befintliga data eller ett träningsmaterial: vilka filmer en Imdb-användare borde tycka om, baserat på vad andra användare med liknande preferenser har uppskattat; identifiering av ansikten i foton som läggs upp på sociala medier, baserat på foton som tidigare lagts upp. Resultaten kan vara mer eller mindre träffsäkra, men de säger inte alltid så mycket om de samband som kan förklara utfallet – något som forskare inom humaniora och samhällsvetenskap oftare är mer intresserade av än utfallet i sig (Efron 2020). Ändå finns det möjligheter att använda metoderna kreativt i forskningens tjänst. Ibland kan det till och med vara intressant när modeller gör felaktiga eller missvisande förutsägelser eftersom det pekar ut studieobjekt att undersöka närmare, sådant som inte riktigt passar in och som bryter mönstren (Underwood 2019). För varje ny internetplattform som tillkommer kan det behövas nya metoder för att samla in och analysera data. Kommersiella aktörer är ofta snabbast med att utveckla de verktyg som krävs. Hastigheten i dessa förändringar kan innebära att forskare inom humaniora och samhällsvetenskap halkar efter och gör sig beroende av programvara som utvecklats för andra syften än forskning (Snee m.fl. 2016). Samtidigt kan studieobjekten – bottar, sökmotorresultat, webbsidesinnehåll med mera – i sig vara extremt flyktiga och föränderliga. Ibland förändras dataflödet från en sekund till en annan, och även om materialet är stort erbjuder en studie som baseras på det ingenting mer än en ögonblicksbild. Dessa problem får vi nog leva med. Icke desto mindre: humanistisk och samhällsvetenskaplig forskning som vill studera ett digitalt samhälle och digitaliserat material behöver behärska en bred metod­ arsenal. Det handlar dels om att hantera och modifiera de digitala verktyg som redan finns, dels om att hitta sina egna angreppssätt och metoder.


© F ÖRFAT TARNA OCH S T UDEN TL IT TER AT UR

Burdick, A., Drucker, J., Lunefeld, P., Presner, T. & Schnapp, J. (2012), Digital_humanities. Cambridge, MA: MIT Press. Efron, B. (2020), Prediction, estimation, and attribution. Journal of the American Statistical Association, 115(530), s. 636–655. franzke, a.s., Bechmann, A., Zimmer, M., Ess, C. & Association of Internet Researchers (2020), Internet research: Ethical guidelines 3.0. https://aoir.org/reports/ethics3.pdf. Fridlund, M. (2020), Digital history 1.5: A middle way between normal and paradigmatic digital historical research. I: M. Fridlund, M. Oiva & P. Paju (red.), Digital histories: Emergent approaches within the new digital history. Helsinki: Helsinki University Press, s. 69–87. Gitelman, L. & Jackson, V. (2013), Introduction. I: L. Gitelman (red.), ”Raw data” is an oxymoron. Cambridge & London: MIT Press, s. 1–14. Guldi, J. (2018), Critical search: A procedure for guided reading in large-scale textual corpora. Journal of Cultural Analytics, december, s. 1–35. Hayles, K. (2004), Print is flat, code is deep: The importance of media-specific analysis. Poetics Today, 25(1), s. 67–90. Hughes, L., Constantopoulos, P. & Dallas, C. (2016), Digital methods in the humanities: Understanding and describing their use across the disciplines. I: S. Schreibman, R. Siemens & J. Unsworth (red.), A new companion to digital humanities. Chichester: Blackwell, s. 150–170. Jarlbrink, J. (2015), Historievetenskapens mediehantering. I: M. Hyvönen, P. Snickars & P. Vesterlund (red.), Massmedieproblem: Mediestudiets formering. Lund: Mediehistoriskt arkiv, s. 225–247. Jensen, K.B. (2011), New media, old methods: Internet methodologies and the online/ offline divide. I: M. Consalvo & C. Ess (red.), The handbook of internet studies. Chichester: Wiley-Blackwell, s. 43–58. Lagoze, C. (2014), Big data, data integrity, and the fracturing of the control zone. Big Data & Society, 1(2), s. 1–11. Lindgren, S. (2017), Digital media & society. Thousand Oaks: Sage. Lingold, M.C., Mueller, D. & Trettien, W. (red.) (2018), Digital sound studies. London: Duke University Press. Manovich, L. (2020), Cultural analytics. Cambridge, MA: MIT Press. Milligan, I. (2013), Illusionary order: Online databases, optical character recognition, and Canadian history, 1997–2010. The Canadian Historical Review, 94(4), s. 540–569. Moretti, F. (2013), Distant reading. London: Verso. Neilson, T., Levenberg, L. & Rheams, D. (2018), Introduction: Research methods for the digital humanities. I: T. Neilson, L. Levenberg & D. Rheams (red.), Research methods for the digital humanities. Hampshire: Palgrave Macmillan, s. 1–14. Snee, H., Hine, C., Morey, Y., Roberts, S. & Watson, H. (2016), Digital methods as mainstream methodology: An introduction. I: H. Snee, C. Hine, Y. Morey, S. Roberts & H. Watson (red.), Digital methods for social science: An interdisciplinary guide to research innovation. Hampshire: Palgrave Macmillan, s. 1–11.

Inledning

25


Digitala metoder i humaniora och samhällsvetenskap Hur sprids nyheter, politiska upprop och memes över världen i sociala medier? Hur interagerar användarna med varandra i forum och dataspel? Hur har 1900-talets tidningspress rapporterat om olika delar av världen? Digitala medier ger upphov till nya forskningsfrågor men gör det också möjligt att undersöka gamla frågor med nya metoder. Digitaliseringen av kulturarv och arkivsamlingar innebär att historien kan utforskas på digital väg. För första gången på svenska introduceras här en bred uppsättning digitala metoder för studier av historia och samtid. I bokens elva kapitel behandlas digital etnografi, metoder för text-, bild- och nätverksanalys samt studier av dataspel, gränssnitt och digitala flöden. Dessutom beskrivs metoder för automatisk datainsamling och vetenskapliga visualiseringar. Författarna går igenom grunderna för respektive metod och visar med illustrativa exempel hur de kan användas i konkreta undersökningar. Digitala metoder i humaniora och samhällsvetenskap vänder sig till studenter på grund- och avancerad nivå inom ett flertal ämnesområden, men riktar sig också till forskare som vill uppdatera sin metodarsenal.

Art.nr 43218

studentlitteratur.se


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.