9789151109756 by Smakprov Media AB

Anders Jönsson

2 UPPL.

Prov eller bedömning? ATT TOLKA OCH ANVÄNDA PROVRESULTAT OCH OMDÖMEN

Innehåll

Inledning

1. Skillnaden mellan prov och bedömning

Vad är ett prov? Vad är en bedömning? Skillnaden mellan prov och bedömning

11 18 24

2. Att tolka provresultat och omdömen: Kan man lita på dem?

Mätfel i prov Var kommer mätfelet ifrån? Att öka mätsäkerheten Osäkerhet i bedömningar Varifrån kommer osäkerheten? Att öka säkerheten i bedömningar Likheter och skillnader mellan prov och bedömning

27 32 35 36 46 50 53

3. Att tolka provresultat och omdömen: Validitet

Vad är validitet? En historisk tillbakablick på validitetsbegreppet Bedömningars validitet Likheter och skillnader mellan prov och bedömning

55 56 61 69

4. Att använda provresultat och omdömen för formativa ändamål

Formativ återkoppling 75 Att använda provresultat för formativa ändamål 80 Att använda omdömen för formativa ändamål 83 Att kombinera prov och bedömningar för formativa ändamål 85 Likheter och skillnader mellan prov och bedömningar 86

5. Att använda provresultat och omdömen för summativa ändamål Dagens betygssystem Prov som betygsunderlag Bedömning som betygsunderlag Prov eller bedömning som betygsunderlag

89 89 92 98 105

6. Nya vägar för prov och bedömning

107

Item response theory Transparens i bedömningen Nya vägar för prov och bedömning

108 118 122

7. Lärdomar Prov och bedömning är inte samma sak Kombinationer av prov och bedömningar är inte nödvändigtvis av godo Alla mätningar och bedömningar är osäkra Validitet för prov handlar om att dra rimliga slutsatser Validitet för bedömningar handlar om användbarhet Prov och bedömningar ger konsekvenser Bedömning har en pedagogisk potential som prov saknar Provresultat fungerar inte så bra för formativ bedömning Betygsunderlag behöver alignment Prov och bedömning går olika vägar

Referenser

125 125 126 127 127 129 129 130 130 131 132

133

Inledning And this points out one of the best ways to avoid misusing test data: don’t treat any single test as providing the ”right,” authoritative answer. Ever. (Koretz 2008 s. 320)

– Om eleverna får veta uppgifterna på provet i förväg, så kan de öva sig på dem. Och då lär de ju sig det som är viktigt. – Nej, om eleverna får veta uppgifterna på provet i förväg, då lär de ju sig bara svaren utantill och lär sig inte på djupet.

Känner du igen diskussionen? Har du en uppfattning om vem som har rätt? Det jag vill visa med den här boken är att båda har rätt, men utifrån två helt olika perspektiv på bedömning. Ur ett provperspektiv kan eleverna inte få veta uppgifterna i förväg, eftersom prov är ett bedömningsinstrument som utgår från att man drar slutsatser om en osynlig egenskap (dvs. elevens kunskaper). Att eleverna lär sig de uppgifter som kommer på provet är därmed ointressant, eftersom de bara utgör ett litet urval – inte det som man egentligen vill testa. Detta perspektiv skiljer sig från att se bedömning som ett professionellt omdöme, där man avgör hur bra eleverna klarar vissa specifika uppgifter. Bedömningsuppgifter fungerar då inte enbart som indikatorer på en bakomliggande egenskap, utan är viktiga i sig själva och speglar mål i kursplanerna. I dessa båda perspektiv – prov respektive bedömning – vill man alltså pröva två olika saker: elevernas kunskaper utifrån ett urval av uppgifter alternativt kvaliteten på deras lösningar 7

prov eller bedömning? på specifika uppgifter. Denna grundläggande skillnad ger konsekvenser för hur prov och bedömningar utformas och genomförs samt hur provresultat respektive omdömen från bedömningar tolkas och används. Och det är detta sistnämnda, hur provresultat respektive omdömen från bedömningar tolkas och används, som denna bok handlar om. Det är viktigt att notera att jag, för att kunna tydliggöra skillnaderna mellan prov och bedömningar, kommer att utgå från idealformer av dessa båda företeelser. Eftersom prov och bedömning existerat sida vid sida under lång tid, har de naturligtvis påverkat varandra och gett upphov till en rik flora av hybridformer. Min avsikt är emellertid inte att försöka göra rättvisa åt denna rikedom, utan tvärtom att reducera komplexiteten genom att endast fokusera på de mest fundamentala egenskaperna. Jag är medveten om att detta innebär att jag därmed å ena sidan gör milt våld på verkligheten, men att jämförelsen å andra sidan blir så mycket tydligare. Innan man läser boken kan det även vara bra att känna till några detaljer om provens och bedömningens historia, eftersom det underlättar förståelsen av innehållet. En sådan detalj är att kunskapsbedömning troligen skett mer eller mindre uteslutande i kvalitativa termer fram till mitten av 1800-talet (se t.ex. Korp 2011). De flesta bedömningar tycks dessutom ha varit muntliga och/eller praktiska. Ett undantag, som ofta noteras i historiska tillbakablickar om prov och bedömning, är examinationerna som användes i Kina redan 200 år före vår tideräkning och fram till kejsardömets fall i början på 1900-talet (se t.ex. Wikström 2014). Tydligen testades tiotusentals personer varje år för att konkurrera om anställning som myndighetspersoner och även där förde man en ständig kamp mot fusk (Black 1998), precis som vi nu gör för högskoleprovet och de nationella proven i skolan. Skriftliga prov utgjorde dock endast en del av examinationerna och andra delar handlade om praktiska färdigheter i exempelvis musik eller bågskytte (se t.ex. Urbina 2004). I västvärlden började skriftliga examinationer användas långt senare. Black (1998) skriver att de första skriftliga examinationerna introducerades vid universitetet i Oxford i början på 1700-talet och vid universitetet i Cambridge cirka 100 år senare. Det var dock inte förrän runt mitten på 1800-talet som de skriftliga examinationerna tog över 8

Inledning de muntliga och man började använda kvantitativa provresultat i syfte att jämföra individers prestationer med varandra. De flesta författare tycks eniga om att anledningen till att det ökade intresset för skriftliga examinationer går att finna i drivkraften att identifiera vilka individer som var mest kunniga, i stället för att förlita sig på social ställning och arv (se t.ex. Korp 2011). Starten för prov och testteorier, så som vi känner dem i dag, förläggs dock vanligen till början på 1900-talet och Alfred Binets intelligenstest. Det Binet gjorde, var att utveckla ett antal tester avsedda att mäta barns inlärningsförmåga. Utformningen av dessa tester innebar att de viktigaste egenskaperna hos standardiserade tester kom på plats, nämligen att alla testtagare fick genomföra testet med samma instrument och under samma förhållanden samt att testen poängsattes på samma sätt för alla. Dessa tester fick därmed i stor utsträckning stå modell för de intelligenstest som utvecklades senare. Dagens provtradition, eller ”mätmodellen” som Anders Gustavsson, Per Måhl och Bo Sundblad (2012) kallar den, har sina rötter i den utveckling som tog fart i början på 1900-talet kring intelligenstesterna. Denna tradition trängde på allvar in i det svenska skolväsendet i och med att man införde standardiserade prov i slutet på 1930-talet, vilket beskrivs på ett förtjänstfullt sätt av bland andra Bengt Selghed (2004), och betygsättningen baserades på mätmodellen ända fram till att läroplanen Lpo 94 (och Lgf 94 för gymnasieskolan) introducerades. Sverige har således under mycket lång tid haft ett starkt inflytande från provtraditionen, vilket naturligtvis satt sin prägel på bedömningspraktiken i skolan, men också på inställningen till storskaliga prov. Det som är viktigt att notera i det här sammanhanget är att prov, så som de kom att konceptualiseras av provtraditionen, bygger på andra antaganden än bedömning och därför genomförs på andra villkor. Provtraditionens framväxt innebar därmed ett radikalt brott mot den kvalitativa bedömningen och konflikten är tydlig i forskningsrapporter från över 100 år sedan fram till i dag. I praktiken har emellertid de båda traditionerna närmat sig varandra över tid och just nu är troligen olika hybridformer mellan prov och bedömning det vanligaste bedömningsformatet både i klassrummet och på nationella prov. 9

prov eller bedömning? Dagens utveckling inom såväl bedömnings- som provområdet sätter emellertid ökad press på denna samexistens. Inom bedömningsområdet går utvecklingen mot att använda information från bedömningar för att stödja elevernas utveckling och lärande (s.k. formativ bedömning), vilket kräver nyanserad information om kvaliteter i elevernas prestationer, som kan kommuniceras i termer av styrkor och utvecklingsmöjligheter. Formativ bedömning kräver också öppenhet i bedömningsprocessen, så att även eleverna kan planera, följa och utvärdera sitt arbete. Parallellt med denna utveckling utarbetas emellertid så kallat moderna testteorier och -metoder, som i flera avseenden går i motsatt riktning. Datorbaserade, adaptiva test – och storskaliga, internationella kunskapsmätningar – bygger på komplexa matematiska modeller, som visserligen underlättar och förfinar mätningen av elevers kunskaper, men på samma gång gör det omöjligt för elever, lärare, skolledare eller vårdnadshavare att få insyn i bedömningsprocessen. Bedömningen riskerar därmed att bli en ”svart låda” där man matar in svar på uppgifter, vilka transformeras till provresultat som kommer ut i andra änden, utan att man får veta hur det går till. Resultaten blir därmed också svårare för lärare att utnyttja för såväl formativa som summativa ändamål. Mycket tyder därför på att det kommer att bli allt viktigare att förstå skillnaderna mellan prov och bedömning, om man ska kunna tolka och använda provresultat respektive omdömen från bedömningar på ett klokt sätt. Min förhoppning är att denna bok kan bidra till detta!

1. Skillnaden mellan prov och bedömning I det här kapitlet görs en jämförelse mellan prov och bedömning. Syftet är att visa att dessa båda begrepp handlar om olika saker, trots att man ibland använder dem som synonymer (jfr t.ex. Gustavsson, Måhl & Sundblad 2012; Wikström 2014). Den mest grundläggande skillnaden består i att prov och bedömningar används för att dra slutsatser om olika saker. Medan prov används för att dra slutsatser om elevers kunskaper, handlar bedömning om att uppskatta kvaliteten i elevprestationer. En annan viktig skillnad är att man inom provtraditionen eftersträvar allmängiltiga resultat som inte är knutna till den specifika provkontexten, medan kontexten är en central del i bedömningar. Dessa grundläggande skillnader påverkar i sin tur flera andra egenskaper hos prov och bedömningar, inte minst möjligheten att använda prov och bedömningar för formativa ändamål, vilket kommer att fördjupas i kommande kapitel. Inledningsvis definieras vad prov är för något och varför de ser ut som de gör, varefter motsvarande genomgång görs för bedömning. På så sätt kan skillnaderna framträda tydligare.

Vad är ett prov? Prov kan betyda många olika saker i vardagligt språk, men som bedömningsinstrument har prov vissa specifika egenskaper. Ett prov är ett urval av uppgifter, som tillsammans används för att mäta individers 11

prov eller bedömning? kunskaper.1 Detta låter kanske inte så krångligt, men det finns en dold komplexitet i provbegreppet. Vi kommer därför att titta närmare på dessa egenskaper, för att få en bättre förståelse för vad ett prov egentligen är.

Indirekta mätningar Det som är allra viktigast att förstå, men som samtidigt kanske också det svåraste, är att prov är konstruerade för indirekta mätningar. Indirekta mätningar är inget märkligt i sig, utan förekommer i en mängd olika vetenskaper. Ett enkelt exempel är joniserande strålning från radioaktiva preparat. Sådan strålning syns inte, vilket innebär att vi inte kan lägga en klump uran bredvid en motsvarande klump radioaktivt torium för att se vilken som avger mest alfastrålning. Om vi däremot kopplar preparaten till en så kallad dimkammare, kommer alfastrålningen som avges att jonisera omgivande partiklar, vilka i sin tur drar till sig vattenmolekyler. Det kommer därmed att bildas små dimstråk i kammaren som avslöjar den osynliga alfastrålningen. Så det är inte själva alfastrålningen vi ser, utan kondenserad vattenånga. Vi har dock en teoretisk modell som kan användas för att översätta dimstråken (det vi ser) till det vi vill mäta (dvs. alfastrålning). På motsvarande sätt behöver vi en teoretisk modell för att översätta provresultat (det vi ser) till det vi vill mäta (dvs. kunskaper). Att prov är konstruerade för indirekta mätningar beror alltså på att det som ska mätas är osynligt, precis som joniserande strålning. Vi kan därför inte ställa två människor bredvid varandra och jämföra dem, för att på så sätt ta reda på vem som har mest kunskap inom ett område. I stället måste vi hitta sätt att locka fram människors kunskaper, så 1 Här används ”kunskaper” som övergripande begrepp, men varje enskilt prov har ett mer specificerat så kallat construct som man vill mäta och dra slutsatser om. Exempel på sådana construct kan vara hörförståelse i engelska eller problemlösningsförmåga i matematik. Om det är kunskaper inom ett särskilt kunskapsområde som testas, snarare än en personlig egenskap, då kallas detta oftast domän. Exempel på domäner kan vara algebra och ellära.

1. Skillnaden mellan prov och bedömning att de blir synliga för oss. Att mäta kunskaper skiljer sig därmed på ett avgörande sätt från att mäta exempelvis människors längd och vikt. Längd och vikt kan mätas direkt, medan kunskaper endast kan mätas indirekt. Prov är ett sätt att synliggöra människors kunskaper, vilket innebär att man låter dem svara på ett antal uppgifter. Beroende på hur uppgifterna besvaras, drar man slutsatser om människornas kunskaper (fig. 1.1). En enkel modell för att översätta provresultat till kunskaper kan uttryckas enligt ”ju fler korrekta svar, desto mer kunskaper”. Om denna modell stämmer, har vi en teoretisk koppling mellan prov resultaten och det vi vill mäta. I själva verket finns det oerhört många faktorer som kan påverka provresultat, alltifrån själva uppgiftsformatet till elevens motivation att besvara uppgiften och lärarens förmåga att bedöma svaret, vilket vi återkommer till längre fram. Men tills vidare nöjer vi oss med att konstatera att kunskaper är en osynlig egenskap och att prov därmed innebär en indirekt mätning, vilket kräver att det finns en teoretisk modell för att översätta provresultat till ett mått på kunskap.

Poäng Procent Rangordning

Elevens kunskaper (osynliga)

Slutsatser om elevens kunskaper Användning av provresultat

Uppgifter med elevsvar Provresultat (synliga)

Figur 1.1. Provuppgifter fungerar som indikatorer på elevers kunskaper. Elevsvar från flera uppgifter sammanställs till ett provresultat. Utifrån provresultatet dras slutsatser om elevens kunskaper. Resultaten kan användas för formativa (kap. 4 i denna bok) respektive summativa (kap. 5 i denna bok) ändamål.

4. Att använda provresultat och omdömen för formativa ändamål Formativ bedömning är ett begrepp som fick en bredare spridning av Paul Black och Dylan Wiliam (1998) genom deras forskningsöversikt Assessment and Classroom Learning. Sedan dess har formativ bedömning fått många olika betydelser. Kärnan i formativ bedömning är dock att information från bedömningar används för att stödja elevernas lärande. Idén har sin grund i iakttagelser som att: (a) information från prov/bedömningar framför allt används för att kategorisera eller sortera elever och att (b) beslut om hur elevernas lärande bör stödjas ofta baseras på osystematiska observationer av ett fåtal elever. Tanken med formativ bedömning är således att om man använder information från prov/ bedömningar, för att systematiskt följa upp elevernas kunskapsutveckling, ges bättre förutsättningar att stödja elevernas fortsatta lärande. Formativ bedömning kan i princip genomföras på två olika nivåer. Dels kan läraren använda information från prov/bedömningar på gruppnivå för att ta beslut om sin undervisning. Genom att till exempel notera att kvaliteten på elevernas prestationer generellt är otillfredsställande i förhållande till en viss uppgift eller en viss kvalitetsaspekt, då kan man som lärare välja att iscensätta nya lärandeaktiviteter och låta eleverna genomföra ytterligare uppgifter på samma tema. Eller tvärtom, om kvaliteten på elevernas prestationer är över förväntan, kan man hoppa över eller ändra ett planerat moment. Det råder viss oenighet kring huruvida formativ bedömning på gruppnivå bör benämnas just formativ bedömning, då det enligt vissa definitioner inte handlar om bedömning, utan om utvärdering. Helena 73

prov eller bedömning? Korp (2011) föreslår till exempel att man bör använda termen utvärdering för bedömningar på systemnivå, där det inte är individer som är i fokus, medan termen bedömning används för bedömningar som fokuserar de lärande. I detta kapitel kommer jag att inkludera formativ bedömning på gruppnivå, men kallar det för formativ utvärdering, just för att undvika att förväxla det med formativ bedömning på individnivå. Information från bedömningar kan användas på individnivå, genom att återkoppling ges på elevers prestationer. Denna återkoppling kan ges av läraren, men också av klasskamrater eller av eleven själv. Det finns starka belägg från forskning att återkoppling, oavsett vem som ger den, kan medföra stora positiva effekter på elevers lärande och prestationer (t.ex. Hattie & Timperley 2007; Shute 2008; Brown & Harris 2013; Panadero, Jönsson & Alqassab 2018). Det finns även starka kopplingar mellan övning i självbedömning och elevers möjligheter att ta ansvar för sitt eget lärande (Panadero, Jönsson & Botella 2017). Trots att återkoppling har mycket stor potential för elevernas lärande, är det inte all återkoppling som ger goda resultat. Tvärtom finns det vissa förutsättningar som behöver vara uppfyllda, för att återkoppling ska kunna ge resultat. Vi behöver därför klargöra dessa förutsättningar innan vi kan diskutera relationen mellan formativ bedömning och prov respektive bedömningar.

Formativ återkoppling Återkoppling kan se ut på väldigt många olika sätt. Man kan till exempel ge antingen muntlig eller skriftlig återkoppling. Återkopplingen kan antingen komma direkt eller dröja ett tag. Eleverna kan få återkoppling ofta eller mer sällan. I princip kan man variera återkopplingen i det oändliga (se fig. 4.1) och det finns även forskning som tyder på att olika elever (t.ex. låg- respektive högpresterande elever) behöver olika typ av återkoppling. Det är därför inte helt enkelt att klarlägga vilken återkoppling som är mest effektiv för elevernas lärande. Visserligen finns det vissa indikationer på att det ibland är bättre med skriftlig än med muntlig återkoppling, och oftast bättre med snabb och mer 74

4. Att använda provresultat och omdömen … frekvent återkoppling än med undantagsmässig dito som dröjer, men samtidigt beror dessa resultat på flera andra faktorer, som exempelvis hur gamla eleverna är, hur omfattande uppgiften är eller hur osäkra eleverna är (se t.ex. Hattie & Timperley 2007; Shute 2008). Kanske är den bästa strategin därför att variera återkopplingen, så att eleverna – över tid – får såväl skriftlig som muntlig återkoppling, såväl omfattande som mer kortfattad och så vidare. Det finns emellertid vissa aspekter av återkopplingen, där forskningen har gett mer entydiga svar om kopplingen till elevernas lärande och som därför kan ge viss vägledning i hur man kan ge eleverna återkoppling på ett sätt som mer effektivt stödjer deras utveckling. Dessa är att återkopplingen bör vara: (a) uppgiftsrelaterad, (b) informationsrik, (c) framåtsyftande och (d) dialogisk (se t.ex. Black & Wiliam 1998; Hattie & Timperley 2007). För konkreta exempel på formativ återkoppling, se referenserna i tabell 4.1 nedan. Tabell 4.1. Referenser till konkreta exempel på formativ återkoppling. Bedömning för lärande – En vägledning utifrån aktuell forskning av Andreia Balan & Anders Jönsson. Ingår i serien Forskning i korthet, utgiven av FoU Skola/Kommunförbundet Skåne 2014. ”Att bedöma förmågan att genomföra systematiska undersökningar i kemi” av Anders Jönsson. Kapitel i Pedagogisk bedömning (2:a. uppl., s. 217–231). Utgiven av Liber 2011. Bedömning i NO – Grundskolans tidiga år av Anders Jönsson, Margareta Ekborg, Britt Lindahl & Lena Löfgren. Utgiven av Gleerups 2013.

Uppgiftsrelaterad återkoppling För att återkopplingen ska fungera effektivt för elevernas lärande, ska den helst vara riktad mot den uppgift som eleverna har gjort. Om återkopplingen riktas som uppgiften, finns det möjlighet för eleverna att använda sin återkoppling till att prestera bättre. Det är dock vanligt att återkoppling riktar sig till eleven som person, snarare än mot uppgiften. Men återkoppling som riktar sig mot eleven som person riskerar i mycket högre grad att ge negativa konsekvenser för elevens fortsatta lärande. Exempel på återkoppling mot eleven som 75

Prov eller bedömning?

ANDRA UPPLAGAN

Att tolka och använda provresultat och omdömen Anders Jönsson Vad är prov respektive bedömning och varför ser de ut som de gör? Den mest grundläggande skillnaden består i att prov och bedömningar används för att dra slutsatser om olika saker. Genom prov vill man pröva elevernas kunskaper, medan man genom bedömning vill pröva kvaliteten på elevernas lösningar. Eftersom elev ernas lösningar är observerbara kan de bedömas direkt och omdömen formu leras. Elevernas kunskaper är däremot inte omedelbart tillgängliga och måste därför mätas indirekt, genom att sammanställa resultat från provuppgifter till ett provresultat. Denna grundläggande skillnad ger i sin tur upphov till skillnader i hur prov och bedömningar utformas och genomförs, samt hur utfallet kan tolkas och användas. Prov och bedömning är alltså i grunden är olika saker, trots att man ibland använder dem som synonymer. Detta får konsekvenser för hur man tolkar provresultat respektive omdömen från bedömningar, samt hur man använder dem på ett rimligt sätt för formativa och summativa ändamål. I den nya upplagan har texten uppdaterats utifrån de nya kurs planerna i Lgr22. Flera delar av boken har även uppdaterats uti från aktuell forskning om bedömning och betygsättning.

Anders Jönsson är professor i didaktik vid Högskolan Kristianstad.

9 789151 109756