9789147100583

Page 1



2012-02-24 – sida i – # 1

Förord

Denna bok är avsedd för en grundkurs i matematik och statistik för biologer, och merparten av bokens innehåll har under fem års tid används på två parallella kurser i kvantitativ biologi, matematik och statistik om sammanlagt 15 högskolepoäng på Uppsala universitets kandidatprogram i biologi. Vad har då matematik och statistik för kopplingar till biologi − läran om livet, levande organismer och livets processer − som gör det mödan värt för en biologistuderande att läsa en kurs om dessa ämnen? Svaret är att matematiken tillhandahåller generella metoder som är användbara också för att formulera och analysera biologiska samband och processer, och statistiken ger metoder för planläggning av försök och värdering och presentation av försöksresultat. En blivande biolog behöver därför i sin utbildning orientera sig om olika kvantitativa metoder och åtminstone tillägna sig det språk som behövs för att tolka och förstå i biologiska sammanhang vanligen förekommande matematiska och statistiska modeller samt för att − i den mån de egna kunskaperna inte visar sig räcka till − kunna kommunicera med specialister. Boken är organiserad så att den grundläggande matematiken beskrivs i kapitlen 2–3, 5–8 och 17–18 och statistiken i kapitlen 9–16. Olika modeller presenteras lite här och var men huvudsakligen i kapitlen 4 och 19–22. Det är inte nödvändigt att läsa materialet i kapitelordning; det går exempelvis bra att läsa kapitel 9 om diskreta sannolikhetsfördelningar eller kapitlen 17 och 18 om linjära ekvationssystem, matriser och egenvärden direkt efter kapitel 3. Likaså kan man hoppa direkt från kapitel 8 till kapitel 19 och fortsätta framåt. Trots att boken innehåller betydligt mer än vad som kan förväntas ingå i kurser om 15 högskolepoäng, har vi av utrymmesskäl tvingats avstå från mycket av det stoff som ingår i allmänt inriktade inledande matematik- och statistikkurser; exempelvis nämns inte de trigonometriska funktionerna och deras inverser, och integralbegreppet har blivit styvmoderligt behandlat. Å andra sidan innehåller boken stoff som traditionellt inte behandlas alls i sådana kurser. Vi har genomgående försökt att introducera, motivera och exemplifiera matematiken och statistiken med olika biologiska exempel. I många fall är detta enkelt −


2012-02-24 – sida ii – # 2

II

FÖRORD

det är exempelvis självklart att man för att förstå och kunna tolka ett allometriskt samband måste förstå potens- och logaritmbegreppen, det är lika självklart att man för att modellera diffusionsprocesser i en cell, något som leder till partiella differentialekvationer, måste förstå det matematiska begreppet derivata, och det är lika uppenbart att det krävs statistiska metoder för att kunna dra vettiga slutsatser utifrån en datamängd. Men precis som det i en rallytävling behövs transportsträckor mellan de olika fartsträckorna, behövs det transportsträckor när man lär sig matematik och statistik, vilket i det här fallet betyder att det finns metoder och tekniker som man − ofta inte utan viss möda − måste lära sig utan att se den omedelbara nyttan i form av intressanta tillämpningar. Exempelvis kan man säkert direkt av själva definitionen förstå poängen med derivatan som matematisk abstraktion för begreppet tillväxthastighet, men innan man kan ta steget till att modellera biologiska processer som differentialekvationer, krävs det nog att man arbetar en del med deriveringsregler och andra egenskaper hos derivatan. Bokens kapitel om derivatan är därför exempel på en sådan ”transportsträcka”. Det som är speciellt för matematiken är att dess resultat och metoder är allmängiltiga och följaktligen kan tillämpas i en mängd olika situationer. Samma differentialekvation kan användas för att beskriva diffusion i en cell och värmeledning i en kropp. Allmängiltigheten följer av att resultaten inte beror av hur verkligheten faktiskt råkar se ut utan är konsekvenser av logiska resonemang, s.k. bevis. Det är naturligtvis inte nödvändigt att känna till beviset för ett matematiskt resultat för att kunna tillämpa det, men kännedom om beviset fördjupar insikten om resultatets räckvidd och begränsningar. Och utan minsta hum om hur de matematiska resultaten motiveras och hänger samman blir matematiken lätt en oöverskådlig och svåranvändbar receptsamling. Förståelse för sammanhangen tar bort mystiken men inte magin! En annan nytta med att studera bevis är att man lär sig att resonera logiskt fram till ett mål, och det är en kunskap som är mycket användbar i alla vetenskapliga sammanhang. Boken innehåller därför bevis och understödjande argument för nästan alla de resultat som presenteras. Bevisens roll är att övertyga om påståendenas giltighet, och de är som brukligt skrivna i ”monologform”, författarnas monolog, men som läsare bör du komplettera dem till en dialog, där du efter varje mening eller stycke skjuter in en kommentar av typen ”Ja, så här är det”, ”Det här förstår jag”, ”Det här är ju självklart”, ”Nej, det här förstår jag inte alls”. I det sistnämnda fallet bör du backa tillbaka, och läsa om stycket. Bevisen är avsedda att fungera som en stege för att nå högre höjder; när man nått upp och förstått kan man kasta stegen, dvs. glömma detaljerna i dem. Vi har använt symbolen för att markera att ett bevis är avslutat. Det slutgiltiga kvittot på förståelse kommer dock genom framgång i problemlösning, som är matematikinlärningens A och O. Som student bör du därför arbeta dig igenom så många som möjligt av de övningsuppgifter som avslutar avsnitten. Många matematikuppgifter och nästan alla statistikuppgifter förutsätter tillgång till något datorprogram. I statistik refererar vi ofta till Minitab, men det finns förstås andra lik-


2012-02-24 – sida iii – # 3

III

värda program, och nästan alla förekommande statistikuppgifter går också att lösa i Excel. Med hjälp av Excel kan man också lösa alla matematikuppgifter som kräver datorhjälp med undantag för några enstaka uppgifter som kräver tillgång till något symbolhanterande program såsom Derive, Maple, Mathematica eller Matlab. Dessa övningsuppgifter har markerats med bokstaven d före uppgiftens nummer. Förr innehöll alla läroböcker i statistik tabeller över olika viktiga sannolikhetsfördelningar. Det är inte längre nödvändigt eftersom alla viktigare sannolikhetsfördelningar numera är inkorporerade i program såsom Excel och Minitab eller är lättillgängliga på internet. Vi har därför nöjt oss med att i ett appendix ta med tabeller över normal-, χ 2 - och t-fördelningarna. Vi vill slutligen tacka några personer som varit till hjälp under skrivandets gång. Anna Lindahl har bidragit med ett intressant tillämpningsexempel, Johan Ridenfeldt har läst stora delar av manuskriptet och kommit med många förslag på innehållsmässiga och språkliga förbättringar, och Torgny Persson, prefekt vid Institutionen för biologisk grundutbildning, har från början stöttat projektet att utveckla en speciell kurs för biologer. Ett stort tack också till vår redaktör Lennart Köhler på Liber för många värdefulla synpunkter och förbättringar av det preliminära manuskriptet. Lars-Åke Lindahl och Ulf Lindh Uppsala den 2 januari 2012


2012-02-24 – sida iv – # 4


2012-02-24 – sida v – # 5

Innehåll

Förord

i

Innehåll

v

1

Att ställa frågor i biologin

1.1 1.2 1.3 1.4 1.5 1.6 1.7 2

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

Lite av varje

2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 3

1

Vilka slags frågor handlar det om? Variabilitet . . . . . . . . . . . . . Matematiska modeller . . . . . . Hypoteser . . . . . . . . . . . . . Statistisk inferens . . . . . . . . . Att bevisa orsakssamband . . . . . Försöksplaneringen . . . . . . . .

Räkneregler . . . . . . . . Potenser . . . . . . . . . . Andragradsekvationen . . Absolutbelopp . . . . . . . Summor . . . . . . . . . . Komplexa tal . . . . . . . Räta linjens ekvation . . . Grafer . . . . . . . . . . . Skalor . . . . . . . . . . . Läges- och spridningsmått

1 2 6 13 18 22 24 29

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

29 31 34 36 37 38 41 44 49 50

Logaritmer

55

3.1 3.2 3.3

57 60 65

Definition och räkneregler . . . . . . . . . . . . . . . . . . . . . . Logaritmiska skalor . . . . . . . . . . . . . . . . . . . . . . . . . . Liv åt logaritmerna . . . . . . . . . . . . . . . . . . . . . . . . . .


2012-02-24 – sida vi – # 6

VI

4

INNEHÅLL

Allometri

4.1 4.2 4.3 4.4 5

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

En diskret modell . . . . . . . . . . . . . . . . . . . . . Differensekvationer . . . . . . . . . . . . . . . . . . . . Gränsvärden . . . . . . . . . . . . . . . . . . . . . . . . Linjära differensekvationer av första ordningen . . . . . Homogena linjära differensekvationer av andra ordningen Homogena linjära differensekvationer av högre ordning .

. . . .

. . . . . . .

. . . . . .

. . . . . .

. . . . . .

. 84 . 87 . 90 . 92 . 96 . 101

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

105

Derivatan − definition och tolkning . . . . . . . . Approximation och kontinuitet . . . . . . . . . . Deriveringsregler . . . . . . . . . . . . . . . . . Kedjeregeln . . . . . . . . . . . . . . . . . . . . Inversen och dess derivata . . . . . . . . . . . . Exponential- och logaritmfunktionernas derivator Derivator av högre ordning . . . . . . . . . . . . Partiella derivator . . . . . . . . . . . . . . . . . Kritiska punkter . . . . . . . . . . . Medelvärdessatsen och monotonitet Optimering . . . . . . . . . . . . . Taylors formel . . . . . . . . . . . . Några gränsvärden . . . . . . . . . En enkel differentialekvation . . . . Primitiva funktioner . . . . . . . . . Integrationsteknik . . . . . . . . . . Integralen . . . . . . . . . . . . . . Nysning – spridning med integration

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

106 111 116 118 123 125 131 132 137

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

137 140 146 151 158 162 167

Diskreta sannolikhetsmodeller, binomialfördelningen

9.1 9.2 9.3 9.4

69 70 74 79 83

Integraler

8.1 8.2 8.3 8.4 9

. . . .

Tillämpningar av derivering

7.1 7.2 7.3 7.4 7.5 7.6 8

. . . .

Derivator

6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 7

69

. . . .

Exponentiell tillväxt

5.1 5.2 5.3 5.4 5.5 5.6 6

Allometri . . . . . . . . . . . . . . Geometrisk skalning . . . . . . . . Kroppsstorlek och metabol hastighet Däggdjursskelettet . . . . . . . . .

Varför behöver en biolog sannolikheter? En inledning till sannolikhetsteorin . . . Binomialfördelningen . . . . . . . . . . Test baserade på binomialfördelningen .

. . . .

. . . .

. . . .

. . . .

. . . .

167 170 175 178 183

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

183 186 205 212


2012-02-24 – sida vii – # 7

INNEHÅLL

10 Kontinuerliga sannolikhetsmodeller, normalfördelningen

VII

217

10.1 Kontinuerliga slumpvariabler . . . . . . . . . . . . . . . . . . . . . 217 10.2 Normalfördelningen . . . . . . . . . . . . . . . . . . . . . . . . . . 225 10.3 Centrala gränsvärdessatsen . . . . . . . . . . . . . . . . . . . . . . 231 11 Skattning och hypotesprövning

11.1 11.2 11.3 11.4 11.5 11.6 11.7

235

Punktskattning . . . . . . . . . . . . . . . . Konfidensintervall . . . . . . . . . . . . . . . Hypotesprövning . . . . . . . . . . . . . . . Inferens om väntevärdet då variansen är känd Inferens om väntevärdet då variansen är okänd Skillnader mellan populationsmedelvärden . . Parvisa observationer . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

12 Planering av biologiska studier

12.1 12.2 12.3 12.4

267

Skattning av populationsmedelvärden . . . Statistisk signifikans och praktisk betydelse Risker vid hypotesprövning . . . . . . . . . Försöksplanering . . . . . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

13 Icke-parametriska metoder

13.1 13.2 13.3 13.4 13.5 13.6 13.7 13.8

Hur vet man att poliovaccinet är effektivt? χ 2 -fördelningen . . . . . . . . . . . . . . χ 2 -metoder . . . . . . . . . . . . . . . . Fishers exakta test . . . . . . . . . . . . . Teckentest . . . . . . . . . . . . . . . . . Rangsummetest . . . . . . . . . . . . . . Kruskal–Wallis test . . . . . . . . . . . . Friedmans test . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

Rökning och lungcancer. Samband eller inte samband? . Korrelation . . . . . . . . . . . . . . . . . . . . . . . . Linjär regression . . . . . . . . . . . . . . . . . . . . . Förklaringsgrad, konfidensintervall och hypotesprövning Regressionsanalysens förutsättningar . . . . . . . . . . .

Musselskal som miljökemiska arkiv Variansanalysen rakt på sak . . . . . F -fördelningen . . . . . . . . . . . Utvidgning av ANOVA . . . . . . .

291 295 298 305 308 310 317 320 325

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

15 Variansanalys

15.1 15.2 15.3 15.4

267 270 276 283 291

14 Korrelations- och regressionsanalys

14.1 14.2 14.3 14.4 14.5

236 239 242 244 248 257 264

325 330 336 343 351 355

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

355 360 365 374


2012-02-24 – sida viii – # 8

VIII

INNEHÅLL

15.5 Faktoriella försök . . . . . . . . . . . . . . . . . . . . . . . . . . . 381 15.6 Behandling av blockfaktorer . . . . . . . . . . . . . . . . . . . . . 396 15.7 MPN-metoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403 16 Multipla jämförelser

407

16.1 Arsenik och infektion . . . . . . . . . . . . . . . . . . . . . . . . . 407 16.2 Tukey HSD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409 17 Linjära ekvationssystem, matriser och vektorer

17.1 17.2 17.3 17.4 17.5

Linjära ekvationssystem . . . . . . . Matriser och vektorer . . . . . . . . . Matrisinvers . . . . . . . . . . . . . . RNA, matriser och och Markovkedjor Det optimala avverkningsschemat . .

. . . . .

. . . . .

. . . . .

415

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

18 Egenvärden

18.1 18.2 18.3 18.4

Samspel mellan olika djurarter Determinanten . . . . . . . . . Egenvärden . . . . . . . . . . En demografisk modell . . . .

449

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

19 Populationsdynamik och diskreta dynamiska system

19.1 19.2 19.3 19.4 19.5 19.6 19.7

Diskreta dynamiska system . . . . . . . . . Den diskreta logistiska modellen . . . . . . Jämvikter och stabilitet . . . . . . . . . . . Analys av den diskreta logistiska modellen . Effekter av jakt och fiske . . . . . . . . . . Rickers modell . . . . . . . . . . . . . . . Newtons metod . . . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

Några modeller . . . . . . . . . . . . Existens av lösningar . . . . . . . . . Separabla differentialekvationer . . . Den kontinuerliga logistiska modellen Autonoma ekvationer . . . . . . . . . Linjära differentialekvationer . . . . . System av differentialekvationer . . .

21 Några dynamiska biologiska modeller

449 453 457 464 479

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

20 Differentialekvationer

20.1 20.2 20.3 20.4 20.5 20.6 20.7

415 424 431 436 441

480 481 487 493 497 499 503 507

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

507 512 514 519 522 524 529 535

21.1 Biomassa och växttäthet . . . . . . . . . . . . . . . . . . . . . . . 535 21.2 von Bertalanffys modell för tillväxt av kroppsstorlek . . . . . . . . 539


2012-02-24 – sida ix – # 9

INNEHÅLL

IX

21.3 Sjukdomsspridning . . . . . . . . . . . . . . . . . . . . . . . . . . 543 21.4 Enzymkinetik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548 21.5 Cellcykeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554 22 Diffusion och brownsk rörelse

559

22.1 Diffusion − en makroskopisk betraktelse . . . . . . . . . . . . . . . 559 22.2 Brownsk rörelse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565 22.3 Diffusion − en mikroskopisk betraktelse . . . . . . . . . . . . . . . 568 Tabeller

571

Svar till övningarna

575

Sakregister

589


2012-02-24 – sida x – # 10


2012-02-24 – sida 1 – # 11

KAPITEL 1

Att ställa frågor i biologin

Varför behöver en biolog matematik och statistik? Svaret är att matematikens språk behövs för att beskriva och analysera många biologiska processer och statistikens verktyg behövs för att behandla och dra korrekta slutsatser av data från observationer och försök. I detta kapitel ska vi utveckla det kortfattade svaret en smula genom att lite mer i detalj beskriva hur och varför matematik och statistik uppträder som ett viktigt moment i behandlingen av biologiska frågeställningar.

1.1

Vilka slags frågor handlar det om?

Biologi är läran om det levande och därmed studiet av det levande. Det är ett område som sträcker sig från molekyler som bygger upp celler, till struktur och funktion hos hela ekosystem. När vetenskapen var ung kunde biologer som Darwin framgångsrikt undersöka så vitt skilda företeelser som daggmaskar, havstulpaner, orkidéer och evolutionen, men allt eftersom vår kunskap har utvecklats har det blivit omöjligt för någon individ att på egen hand hantera hela området. Biologin har kommit att bli uppdelad i en uppsjö av olika specialiserade områden eller discipliner, där biologer begränsar sig till studiet av någon liten del av området. Det finns många sätt att beskriva denna uppdelning. Ett är att dra nytta av olika organisationsnivåer hos biologiska system och börja med molekylära system och röra sig uppåt genom celler, organ, organismer och populationer till ekosystem. En sådan uppdelning reflekteras i en mångfald av olika sorters biologer, exempelvis molekylärbiologer och populationsbiologer. Ett annat sätt att dela upp området bygger på huruvida den studerade organismen är ett djur, en växt eller en mikroorganism. Det finns biologer som gärna beskriver sig som djurpopulationsbiologer eller växtmolekylära biologer med ännu finare indelningar som beror på om de aktuella djuren är vertebrater eller evertebrater, insekter eller blötdjur. Som ett alternativ kan man använda ett schema som bygger på biologiska processer som genetik, utveck-


2012-02-24 – sida 2 – # 12

2

KAPITEL 1 ATT STÄLLA FRÅGOR I BIOLOGIN

ling, evolution eller fysiologi. Detta skulle också skapa en motsvarande uppdelning av biologer av olika slag. Olika indelningar av biologin i olika områden betyder inte att biologin snyggt kan stoppas ned i ett antal märkta lådor. I själva verket är dessa indelningar artificiella och mellan disciplinerna finns gråzoner. Vad indelningarna verkligen tydliggör är områdets stora diversitet, något som kunde antyda att de olika slagen av biologer har väldigt lite gemensamt. Men vi finner att det inte är så, framför allt om vi ser på området från en annan vinkel. I själva verket gör alla biologer samma två saker, nämligen svarar på frågor av typen ”Vad?” och ”Hur?”. Svaren på frågan ”Vad?” handlar om att beskriva det karakteristiska i den speciella del av den levande världen som är i fokus. Vi skulle kunna formulera frågan som ”Vad finns det att upptäcka?”. En zooekolog kunde beskriva antalet individer i ett habitat och en cellbiolog kunde beskriva koncentrationen av ett specifikt protein i ett visst slags celler vid två skilda stadier i cellcykeln. Svaren på frågan ”Hur?” handlar om att förklara det som har beskrivits eller, med andra ord, att svara på frågan ”Hur kan det redovisas?”. Vår ekolog kunde vilja veta hur ett habitat kan försörja det observerade antalet. Cellbiologen kunde vilja veta hur tidsskillnaden orsakar skillnaden i proteinkoncentration. Som vi ska se längre fram är dessa frågor mycket nära besläktade eftersom förklaringar innehåller beskrivningar under specificerade förhållanden. I sökandet efter svar på dessa frågor stöter alla biologer på en liknande uppsättning problem, som i vissa delar förekommer inom andra vetenskaper men i andra delar är unika för biologiska system. Det är dessa problem och lösningarna till dem som är föremålet för denna framställning och vi börjar med den grundläggande orsaken till svårigheterna − variabiliteten.

1.2

Variabilitet

Olika biologer är intresserade av olika saker, men alla är inblandade i att göra observationer om de studerade objekten och att beskriva dem med avseende på vissa karakteristika. Vare sig vi räknar antalet arter i olika skogar av lika storlek, räknar antalet sniglar i provrutor på stranden, mäter torrvikten hos växter, mäter proteinkoncentrationen i 10 mL prover av en lösning eller beskriver kvoten av röda till vita blommor i en genetisk korsning, kommer samtliga observationer att ha en egenskap gemensam − variabilitet. Det grundläggande problemet med variabilitet är att den kommer i vägen för oss när vi försöker beskriva och förklara. Vi ska se längre fram varför den kommer i vägen för oss, men för att förstå problemet måste vi veta varför saker är variabla.


2012-02-24 – sida 3 – # 13

1.2 VARIABILITET

3

Experimentell variation

Den första källan till variabilitet är gemensam för alla vetenskaper och den brukar kallas experimentell variation. Det är en variabilitet som forskaren orsakar eller som orsakas av de tekniker och den utrustning som används. Den uppstår som följd av experimentella fel. Närhelst vi räknar eller mäter någonting är det osannolikt att vi skulle kunna göra det utan fel. Med andra ord, vi kommer inte alltid (i själva verket mycket sällan) räkna eller mäta det sanna värdet. Detta kan bero på att vårt mätverktyg, exempelvis linjal, pipett eller spektrofotometer, har inneboende begränsningar av noggrannheten. Därutöver kan det hända att vi använder mätverktygen lite olika vid olika tillfällen, dvs. att vår teknik kan variera. Det enklaste sättet att inse hur det här kan äga rum är att föreställa sig att man gör upprepade mätningar av exakt samma sak. Ta ett enkelt biokemiskt exempel som innehåller mätning av en kemikalies koncentration i en lösning (figur 1.1). För att göra detta måste vi pipettera 10 mL av lösningen från en flaska, tillsätta en känd mängd reagens för att producera en färgad slutprodukt som är proportionell mot koncentrationen hos den kemikalie vi intresserar oss för. Färgkoncentrationen och sålunda kemikaliens koncentration mäts med hjälp av en spektrofotometer.

1,25 1,20 1,15 1,22 1,40 1,30 1,25 1,21 1,30 mg mL−1

Figur 1.1. Olika stadier i en kemisk bestämning av fosfat − pipettering,

tillsättning av reagens, tidtagning och färgkoncentrationsmätning med spektrofotometer − och tänkbara fel i vart och ett av dem.

Om vi skulle upprepa denna procedur flera gånger, skulle vi då få samma resultat varje gång? Sannolikheten för det är minimal, helt enkelt på grund av variation i det sätt som proceduren genomförs från gång till gång. Vissa gånger skulle vi pipettera


2012-02-24 – sida 4 – # 14

4

KAPITEL 1 ATT STÄLLA FRÅGOR I BIOLOGIN

lite mindre än 10 mL och andra gånger skulle vi pipettera lite mer (figur 1.1 a), och den tillsatta mängden reagens skulle inte bli exakt densamma varje gång av samma skäl (figur 1.1 b). Det kan också hända att vi skulle låta färgen utvecklas lite olika tid (figur 1.1 c). Det kan också vara små skillnader i de optiska egenskaperna hos de olika kyvetterna (figur 1.1 d), och egenskaperna hos spektrofotometern kan variera med komponenternas ålder eller fluktuation i nätspänningen (figur 1.1 e). Varje potentiell felkälla kan på egen hand orsaka mätningar som antingen är över eller under det sanna värdet, och i var och en av mätningarna kommer fel i olika stadier av proceduren att vara kumulativa. I vissa fall kommer effekterna av fel i en riktning av en slump att mer eller mindre tas ut av fel i den andra riktningen, och vi får ett värde som är mycket nära det sanna värdet. I andra fall, åter av slump, kommer majoriteten av felen att gå i samma riktning och vi får ett värde som är långt från det sanna värdet. För att visa omfattningen av denna slags variabilitet finns en uppsättning mätresultat i undre delen av figur 1.1. Det är fosfatkoncentrationer i en lösning uppmätta med en procedur som den vi just har beskrivit. De nio mätningarna gjordes i samma lösning och variabiliteten är uppenbar. Ytterligare variabilitet skulle ha uppstått om nio olika personer hade gjort mätningarna eller om mer än en spektrofotometer hade använts. De fel som leder till denna variabilitet är inte som stavfel eller räknefel, som med försiktighet kan undvikas helt och hållet. Experimentella fel kommer alltid att finnas med. Även om de kan minimeras med noggrann hantering av experimentella tekniker, kan de aldrig helt undvikas. Som resultat av detta kommer det svar vi får att bero på vilken kombination av fel som vår mätning belastas av. Vår beskrivning kommer alltid att innehålla osäkerhet.

Variabilitet i fenotyp och genotyp

En annan källa till variabilitet uppstår från skillnader i biokemi, fysiologi, morfologi och beteende mellan individuella organismer av samma art. Detta är något som är mycket uppenbart i vår egen art, och det är inte svårt att hitta exempel hos andra organismer. Ibland är inte denna slags variabilitet uppenbar vid en flyktig observation, men en närmare undersökning av de aktuella individerna kommer nästan alltid att avslöja skillnader mellan dem. Den närmast universella förekomsten av denna slags variabilitet är inte förvånande om vi tar hänsyn till på vilket sätt dessa karakteristika skapas. Karakteristika hos en individ består av dess fenotyp, som är resultatet av växelverkan mellan individens genotyp och den miljö i vilken individen utvecklas och lever. Hos organismer som förökas sexuellt leder kombinationen av meios och befruktning till en kontinuerlig produktion av nya kombinationer av genotyper på så sätt att två individer inte sannolikt kommer att vara genetiskt identiska. Genetiska skillnader mellan individer kommer att leda till fenotypiska skillnader dem emellan, även om de lever i identiska


2012-02-24 – sida 5 – # 15

1.2 VARIABILITET

5

miljöer. Eftersom två individer sällan upplever samma uppsättning av miljövillkor kommer varje skillnad i den miljö som individerna upplever att ytterligare öka deras fenotypiska skillnader. I vilken utsträckning detta kommer att ske beror på de speciella karakteristika som individerna uppvisar. Vissa fenotypiska skillnader, som blodgrupper i vår egen art, tycks inte påverkas av miljön. Andra fenotypiska skillnader mellan individer i karakteristika som längd, vikt, beteende och mottaglighet för sjukdomar beror på både genotypen och miljön. Om individer verkligen skiljer sig från varandra när vi beskriver deras karakteristik kommer det svar vi får att bero på vilka individer vi har betraktat. Åter har vi ett problem med att beskriva variabeln.

Variabilitet i tid och rum

Karakteristika som antal individer per ytenhet i ett habitat och antalet besök av pollinatörer hos en blomma per tidsenhet är också variabler. För att förstå hur det tredje slaget av variabilitet uppstår måste vi tänka på hur organismerna kom att vara där de är. Organismer, deras frön, sporer och larver sprids ofta passivt med luft- och vattenströmmar, och vi kunde tänka oss att de helt enkelt ”faller ned” från luft och vatten på substratet. Detta kommer inte att leda till att individerna arrangeras på ett regelbundet sätt på ytan, eftersom vissa delar av ytan av ren slump kommer att ta emot fler individer än andra delar. För verkliga organismer kommer dessa slumpmässiga oregelbundenheter att modifieras av en uppsjö av faktorer. Exempelvis kan virvelströmmar i luften eller vattnet leda till att ett mycket högre antal individer deponeras på vissa delar av ytan − tänk på det sätt vinden kan skapa lövhögar. Frön kan tendera att falla nära den växt som producerat dem och det leder till att ett stort antal växter flockas kring moderväxten, och detsamma kan vara sant för avkomman hos några djur. Slutligen är ofta djur i sitt dispersiva stadium kapabla att välja var de vill slå sig ned. Om ytan är en mosaik av lämpliga och olämpliga ställen, så kommer organismerna att samlas på de lämpliga platserna, och det leder åter till variation i antalet på olika delar av ytan. Även om inget av detta skulle hända och individerna vore regelbundet spridda vid nedfallet är det osannolikt att det skulle vara så under längre tid, helt enkelt på grund av den ojämna miljön. Individer kommer att överleva och reproducera sig bättre på de lämpliga ställena och därigenom åstadkomma variation i antalet från en plats till en annan. Tämligen likartade argument kan tillämpas på händelser i tiden. Antalet mutationer som uppträder i en population av konstant storlek kommer att variera slumpmässigt från en generation till en annan även om den bakomliggande mutationshastigheten är konstant. Och om vi registrerar antalet pollinatörsbesök hos var och en av


2012-02-24 – sida 6 – # 16

6

KAPITEL 1 ATT STÄLLA FRÅGOR I BIOLOGIN

tio identiska blommor under en femminutersperiod kommer antalet besök hos varje blomma inte nödvändigtvis att vara lika, åter på grund av slumpen.

1.3

Matematiska modeller

Biologiska system, från enskilda celler till hela ekosystem, karakteriseras av förändring. Liv uppstår, växer, reagerar på omgivningen, reproduceras och dör. Ett svar på frågan ”Hur?” handlar i det här sammanhanget om att förstå och förklara dynamiken i sådana förändringsprocesser och att dra slutsatser om utvecklingen framåt i tiden. Men verkligheten är oerhört komplicerad, inte minst på grund av den variabilitet som beskrevs i föregående avsnitt, så hur kan det överhuvudtaget vara möjligt för en människa att förstå och förklara verkligheten och att beskriva den på ett sätt som går att kommunicera till andra människor? Filosofer har spekulerat över denna kunskapsteoretiska fråga sedan antiken utan att komma fram till något slutgiltigt svar, men låt oss ändå utveckla lite vad som menas med att förstå ett studerat fenomen, i vårt fall ett biologiskt system eller en biologisk process. I varje konkret fall är utgångspunkten data som erhållits genom egna eller andras observationer och experiment. Dessa data behöver förstås inte vara numeriska utan kan vara beskrivningar av form och färg, av olika slags relationer etc. Det räcker emellertid inte att vara i besittning av en osorterad samling av data för att man ska kunna säga att man förstått och förklarat det studerade fenomenet; förståelse erhåller vi först när vi ser strukturer och samband och i förekommande fall kan göra förutsägelser om den framtida utvecklingen. Upptäckta samband och strukturer formuleras oftast först med hjälp av vårt vardagliga språk, men det finns ett mer precist språk att beskriva många samband på − matematik. Matematik är nämligen en vetenskap som utvecklats för detta ändamål, även om matematisk forskning liksom all annan grundforskning huvudsakligen är nyfikenhetsdriven. Exempelvis definierar Nationalencyklopedin matematik som ”en abstrakt och generell vetenskap för problemlösning och metodutveckling”, där generell betyder att den är tillämpbar i en mångfald situationer. När vi översatt våra uppfattningar om hur en ”bit av verkligheten” fungerar till matematikens språk, har vi skapat oss en matematisk modell; själva processen att utveckla en matematisk modell för ett fenomen kallas matematisk modellering. Medan verklighetens byggstenar − beroende på vilket fenomen som studeras − är atomer, molekyler, celler, bakterier, organ, människor, ekosystem, planeter, solsystem och så vidare, är den matematiska modellens byggstenar matematiska begrepp såsom variabler, funktioner och olika slags ekvationer. Figur 1.2 beskriver schematiskt det samband som råder mellan å ena sidan det verkliga fenomenet och förklaringar och förutsägelser om detta och å andra sidan modellen och matematiska slutsatser inom modellen.


2012-02-24 – sida 7 – # 17

1.3 MATEMATISKA MODELLER

Verklighet

Formulering

Modell

Testning

Förklaringar förutsägelser

7

Analys

Tolkning

Matematiska slutsatser

Figur 1.2. Modell och verklighet.

Matematiska modeller används för att behandla hela skalan av frågor, allt ifrån små praktiska problem utan vetenskapligt intresse som exempelvis att för djurbesättningen på en viss lantgård beskriva sambandet mellan fodermängd och mjölkmängd till grandiosa vetenskapliga frågor som att beskriva universums uppkomst och utveckling. Storslagna modeller kallas ofta teorier; ett exempel på en sådan är Einsteins allmänna relativitetsteori. Att utveckla en matematisk modell för ett helt nytt fenomen är en iterativ process som kräver avancerade kunskaper i det aktuella fackområdet, matematiska kunskaper och kunskaper om redan existerande modeller. Flertalet verkliga fenomen är också alltför komplicerade för att kunna modelleras i sin helhet. Vi måste kompromissa och koncentrera oss på att identifiera de mest väsentliga delarna av det aktuella systemet och ta med dem i vår modell. Resten måste vi bortse ifrån. Ibland måste vi också förenkla vår modell av det skälet att matematiken i den annars blir alltför komplicerad. Ofta tvingas vi till en avvägning mellan enkelhet och precision − genom att göra modellen mer komplex kanske vi kan vinna i realism och exakthet i förutsägelserna, men priset kan vara att modellen blir svårare att förstå och analysera samt att beräkningarna blir krångliga och numeriskt instabila. Enkelhet söks således inte enbart av estetiska skäl. Kan man välja mellan två modeller som fungerar ungefär lika bra för ett givet ändamål så tillämpar man Ockhams berömda rakkniv1 och väljer den enklaste. Einstein har formulerat detta på följande vis: ”A good theory should be as simple as possible, but not simpler.” 1

William Ockham (ca 1288–ca 1348), engelsk franciskanermunk och filosof. Ockhams rakknivsprincip, som han formulerade på latin som ”Non est ponenda pluralitas sine necessitate”, innebär att man inte ska anta mer än som behövs för att förklara det observerade. Ordet ”rakkniv” syftar på att man rakar bort onödiga antaganden för att nå den enklaste förklaringen.


2012-02-24 – sida 8 – # 18

8

KAPITEL 1 ATT STÄLLA FRÅGOR I BIOLOGIN

Hur bra en modell är avgörs ytterst av hur väl tolkningarna av modellens slutsatser stämmer överens med verkligheten, och detta kan vi bara avgöra genom att konfrontera förklaringarna och förutsägelserna med verkligheten, dvs. genom att utföra tester. Om modellen konstruerats med utgångspunkt i en given datamängd måste vi försöka avgöra för vilka situationer som den kända datamängden är typisk. Att använda modellen för data mellan de givna datapunkterna kallas interpolation och att använda den för händelser eller datapunkter utanför de givna kallas extrapolation. Att förstå sin modells giltighetsområde är förstås oerhört viktigt för att undvika förhastade och felaktiga slutsatser. Matematiska modeller har många fördelar. Matematikens precisa språk hjälper oss att formulera idéer och antaganden på ett klart sätt. Alla resultat som matematiker bevisat under århundradenas lopp står till vårt förfogande för att inom modellen göra beräkningar och dra slutsatser som sedan kan användas för att göra oväntade upptäckter och förutsägelser om den verklighet som modellen beskriver. Vi kan vidare använda datorer för att göra simuleringar och utföra numeriska beräkningar i modellen. Med en bra modell kan vi ersätta verkliga experiment med experiment i modellen genom att t.ex. variera olika parametrar. Genom att på så sätt simulera verkligheten kan man i många fall undvika farliga eller av andra skäl oönskade experiment, exempelvis spara livet på försöksdjur, och experiment som i verkligheten skulle ta åratal att genomföra kan i en modell kanske simuleras på några sekunder. En stor fördel med matematiska modeller är att de, på grund av att de är formulerade i allmänna matematiska termer och inte i specifika verkliga objekt, är återanvändbara och med lämpliga omtolkningar av modellens beståndsdelar kan användas på verkliga fenomen som skenbart sett kan förefalla mycket olika.

Klassificering av modeller

Man kan klassificera modeller efter olika indelningsgrunder. En sådan klassificering baseras på den typ av utfall som modellen förutsäger. I en deterministisk modell är utfallet entydigt bestämt av modellens ingångsvärden. Upprepade beräkningar med samma ingångsvärden ger alltid samma resultat. I stokastiska modeller är däremot utfallen slumpartade, upprepad användning med samma ingångsvärden kan ge upphov till olika resultat, och om ett visst utfall kan man därför bara säga att det inträffar med en viss sannolikhet. En annan indelningsgrund tar sikte på tidens roll i modellen. Dynamiska modeller beskriver förlopp som varierar med tiden och innehåller därför tiden som väsentlig variabel. Differens- eller differentialekvationer är typiska ingredienser i sådana modeller. En statisk modell beskriver, i den mån tiden ingår som del av modellen, tillståndet hos ett system vid en specifik tidpunkt.


2012-02-24 – sida 9 – # 19

1.3 MATEMATISKA MODELLER

9

En dynamisk modell kallas kontinuerlig om tidsvariabeln tillåts anta alla reella värden eller alla värden i något intervall. Modellen kallas diskret om tidsvariabelns värden kan beskrivas med heltal. Beroende på den matematik som används i modellen skiljer man också på linjära och icke-linjära modeller. I en linjär modell är ingående ekvationer och funktioner linjära, i en icke-linjär modell förekommer det ekvationer eller funktioner som inte är linjära. Linjära modeller är i allmänhet enkla att hantera matematiskt, medan ickelinjära modeller ofta har komplicerade egenskaper. Exempel

Vi avslutar vår diskussion av modeller med två exempel för att illustrera begreppen och för att visa lite på den typ av matematik som behövs för att formulera och använda matematiska modeller. Längre fram i boken kommer vi att stöta på ett antal klassiska modeller samtidigt som vi utvecklar den matematik som behövs för att förstå dem. Tillväxt

I många populationsstudier antar man att populationen i frånvaro av begränsande faktorer växer så att tillväxthastigheten är proportionell mot populationsstorleken. Under optimala villkor och under begränsad tid gäller detta exempelvis för bakterier. Bakterier är encelliga organismer som växer till en bestämd storlek och sedan reproducerar sig genom celldelning, och under gynnsamma villkor kan detta ske extremt snabbt. När en bakteriekultur placeras i en näringsrik miljö sker tilläxten i tre faser. Först anpassar sig bakterierna till de nya villkoren, och under denna fördröjningsfas sker tillväxten relativt långsamt. Sedan inträder en fas med mycket snabb tillväxt, den exponentiella fasen, och tiden det då tar för cellerna att fördubblas kallas generationstiden. Den sista stationära fasen inträffar när tillgången på näringsämnen blivit uttömd. Generationstiden rör sig för flertalet E. coli stammar om 16–17 minuter. Den kortaste generationstid som observerats är 9,8 minuter för den marina bakterien Pseudomonas natriegens, och den exponentiella fasen varade i detta fall 3 timmar.2 En diskret modell för bakterietillväxt under den exponentiella fasen ges av den enkla ekvationen xn+1 = 2xn ,

(1.1)

där xn står för antalet bakterier n generationstider efter det att den exponentiella fasen startat och xn+1 är antalet bakterier en generationstid senare. Ekvation (1.1) är ett exempel på en linjär differensekvation. Att kalla den en differensekvation låter kanske 2 Eagon RG (1962). Pseudomonas natriegens, a marine bacterium with a generation time of less than 10 minutes. J. Bacteriol 83(4), 1962; 736–7.


2012-02-24 – sida 10 – # 20

10

KAPITEL 1 ATT STÄLLA FRÅGOR I BIOLOGIN

lite märkligt, men om vi skriver om den på formen xn+1 − xn = xn , så har vi en ekvivalent ekvation som uttrycker att ökningen i bakterieantal under en generationstid (dvs. en differens) är lika med antalet bakterier vid generationstidens början. Det är lätt att lösa ekvationen (1.1) explicit; genom att successivt välja n = 1, 2, 3 . . . ser vi att x1 = 2x0 , x2 = 2x1 = 2 · 2x0 = 22 x0 , x3 = 2x2 = 23 x0 , och att allmänt xn = 2 n x0 , där x0 är antalet bakterier då den exponentiella fasen börjar. För Pseudomonas natriegens med en generationstid avrundad till 10 minuter har således 100 bakterier efter 3 timmar, dvs. 18 generationstider, växt till x18 = 218 · 102 bakterier, vilket är ungefär tjugofem miljoner stycken. Vi förstår nu också att vår modell har begränsningar och inte kan användas för att beskriva den stationära fasen. För n = 288, vilket motsvarar 2 dygn för vår marina bakterie, är 2n = 2288 ≈ 5 · 1086 , vilket är ett ofattbart stort tal. Uppskattningar av antalet atomer i vårt kända universum brukar landa på 1080 ! Ekvation (1.1) är en diskret modell för populationstillväxt. För att beskriva tillväxten i kontinurlig tid behöver vi använda oss av begeppet derivata, och den kontinuerliga modell som närmast motsvarar ekvation (1.1) är en s.k. differentialekvation och har formen dx = cx. dt Modeller för populationstillväxt kommer att vara ett återkommande tema i denna bok. När det gäller studiet av den mänskliga befolkningsutvecklingens grunder och förutsättningar är britten Thomas Malthus (1766–1834) den store pionjären. Malthus, som var präst, nationalekonom och demograf, skrev i det viktiga verket An Essay on the Principle of Population 1798: ”It may safely be pronounced, therefore, that population, when unchecked, goes on doubling itself every twenty-five years, or increases in a geometrical ratio.” Frasen ”when unchecked” är viktig eftersom Malthus gick vidare och argumenterade att populationen rimligen inte kunde öka okontrollerat för all framtid, eftersom vårt levebröd i bästa fall inte kunde öka geometriskt utan aritmetiskt, t.ex. som 1, 2, 3, 4, 5, 6, . . . . Fytosanering

Pil (Salix ssp.) är en snabbväxande trädartad växt, som främst odlas som energiskog i syfte att producera bioenergi. Några arter är också mycket effektiva på att avlägsna


2012-02-24 – sida 11 – # 21

1.3 MATEMATISKA MODELLER

11

metaller från kontaminerade jordar, delvis på grund av den snabba biomassaproduktionen men också på grund av en relativt stor inneboende kapacitet att ta upp metaller från jorden. Att förstå vilka faktorer som bestämmer fytosaneringshastigheten3 är extremt viktigt för att kunna planera användning av Salix för saneringsändamål. Den modell som vi ska presentera beskriver utvecklingen av kadmiumkoncentrationen C (kg m−3 ) i toppskiktet på odlingsbar mark i Sverige som funktion av tiden t, mätt i år. Koncentrationen i toppskiktet förändras av två orsaker, dels tillförs marken nytt kadmium med en hastighet av I (kg m−3 år−1 ) på grund av nedfall från föroreningar i luften och på grund av orenheter hos påförd gödning, dels försvinner kadmium från toppskiktet på grund av upptag i växtligheten och på grund av utlakning nedåt i marken med en hastighet som kan antas vara proportionell mot den aktuella koncentrationen. Nettokoncentrationsförändringen per tidsenhet ges av derivatan dC/dt, så om saneringskonstanten (proportionalitetskonstanten) kallas k (år−1 ), erhåller vi genom att balansera tillförsel och förluster följande linjära differentialekvation: dC = I − kC. dt

(1.2)

Detta är en differentialekvation som vi kommer att lära oss lösa i kapitlet om differentialekvationer, och i specialfallet I = 0, som innebär att ingen ny kadmium tillförs jorden, har lösningen formen C = C0 e−kt ,

(1.3)

där C0 betecknar koncentrationen vid tiden t = 0. Forskare har beräknat att den genomsnittliga kadmiumkoncentrationen i odlingsbar jord ökat med ca 30 % under de senaste hundra åren.4 För att återställa kadmiumkoncentrationen till den ursprungliga nivån skulle man därför behöva reducera den nuvarande nivån med 25 %. Anta nu att vi lyckats nedbringa de tillförda kadmiumföroreningarna till noll och vill veta hur lång tid det tar för växtlighet och utlakning att återställa dagens koncentration C0 till den naturliga nivå som rådde för hundra år sedan, dvs. till 0,75C0 . Vi behöver då bara lösa den ekvation som fås genom att i ekvation (1.3) sätta C = 0,75C0 , vilket efter förenkling och logaritmering ger den sökta tiden t=

1 4 0,2877 ln ≈ . k 3 k

(1.4)

Men för att detta uttryck ska vara användbart för beräkningar och för att vår modell ska bli fullständig måste vi också få ett grepp om saneringskoefficienten k. Utlakningshastigheten beror på perkolationen q (m år−1 ) från rotzonen, rotzonens tjocklek 3

fytosanering, sanering av förorenade jordar med hjälp av växter. Andersson, A (1992). Trace elements in agricultural soils − fluxes, balances and background values. SNV Report 4077. 4


2012-02-24 – sida 12 – # 22

12

KAPITEL 1 ATT STÄLLA FRÅGOR I BIOLOGIN

∆z (m), jordens skrymdensitet γ (kg m−3 ) och adsorbtionskonstanten Kd (m3 kg−1 ), medan upptagningshastigheten i växtligheten beror på den årliga biomassaproduktionen ovan jord Bg (kg m−2 år−1 ) och en koefficient f (m3 kg−1 ) som anger växtens förmåga att ta upp kadmium, samt redan nämnda konstanter γ, Kd och z. Sammantaget kommer man fram till följande uttryck för saneringskoefficienten:5 k=

q + f Bg . γKd ∆z

(1.5)

Det är ekvationerna (1.2) och (1.5) som tillsammans utgör en modell för fytosanering. Modellen gäller bara för måttligt förorenade jordar eftersom adsorbtion och växtupptagning antagits vara linjära funktioner av kadmiumkoncentrationen i markvattnet. För att beräkna k behöver vi alltså värden på sex parametrar, och rimliga uppskattningar av dem ges i tabell 1.1. Tabell 1.1. Parameteruppskattningar för fytosaneringsmodellen.

Parameter −1

Perkolation q (m år ) Upptagningskoefficient f (m3 kg−1 ) Biomassaproduktion Bg (kg m−2 år−1 ) Skrymdensitet γ (kg m−3 ) Adsorbtionskoefficient Kd (m3 kg−1 ) Rotzon ∆z (m)

Intervall

Nominella medelvärden

0,1–0,3 0,3–0,7 0,6–1,0 1 000–1 400 0,1–1.5 0,2–0,6

0,2 0,5 0,8 1 200 0,8 0,4

Vi ser nu återigen ett exempel på att variabilitet förorsakar oss svårigheter. Hur ska vi kunna använda tabellens intervalluppskattningar, som avspeglar variationen hos olika jordar och växter, för att skaffa oss en vettig uppfattning om saneringstiden som ges av formel (1.4)? Innan vi behandlar den frågan uppmanas läsaren att studera ekvationerna (1.5) och (1.4) för att med deras hjälp avgöra vilka parameterkombinationer som leder till snabb sanering. Notera också att om vi använder parametrarnas nominella medelvärden, så blir medelvärdet för q lika med 0,2 och medelvärdet för q + fBg lika med 0,6 (= 0,2 + 0,5 · 0,8.) Detta betyder att k-värdet för en jord med Salixgröda är tre gånger så stort som k-värdet för en bar jord (som bara saneras genom utlakning), och därför är på grund av ekvation (1.4) saneringstiden för en jord med Salixgröda bara en tredjedel av saneringstiden för en bar jord. 5 Bergkvist, P, Jarvis, N, Rapp, L och Eriksson, J (2005). Critical load of cadmium on arable soils in Sweden. Emergo no. 4, Studies in the Biogeophysical Environment. Dep. of Soil Sci., Swedish Univ. of Agricultural Sciences, Uppsala.


2012-02-24 – sida 13 – # 23

Frekvens

1.4 HYPOTESER

13

80 70 60 50 40 30 20 10 0 0

50 100 150 200 250 300 350 400 450 500 550 600 650 700 750 800 850 900 Saneringstid t

Figur 1.3. Histogrammet visar erhållna saneringstider vid 1000 simulerade försök

med slumpmässigt valda parametrar.

Det är klart att variabiliteten gör att saneringstiderna blir olika långa för olika jordar, klimat och grödor, men vi kan skaffa oss en uppfattning om variabilitet och medelvärde för saneringstiden genom datorsimulering. För var och en av de sex inblandade parametrarna väljer vi slumpmässigt ett värde i respektive parameterintervall och beräknar sedan för den erhållna kombinationen motsvarande k-värde och motsvarande saneringstid t. Genom att upprepa detta exempelvis tusen gånger får man tusen värden på t som vi kan använda för att skatta medelvärde, standardavvikelse och andra intressanta statistiska storheter. Ett histogram över t-värdena ger också en uppfattning om saneringstidens sannolikhetsfördelning. Resultatet av en sådan simulering med 1000 slumpvis valda parameterkombinationer visas i figur 1.3. Variationsbredden är 816 år med 18,3 som minsta och 834,3 som största värde, medelvärdet är 239,4 år och standardavvikelsen 152,2 år. Vi har alltså här ett exempel på en modell som för givna parameteruppsättningar är deterministisk, men där parametrarna i praktiken är slumpmässiga och där utfallet därför också är slumpmässigt och måste tolkas statistiskt.

1.4

Hypoteser

Utomstående uppfattar ofta vetenskap som ett öppet sökande efter objektiv förståelse av universum och allt det som finns däri. Detta är en världsbild som är långt ifrån den vetenskapliga verkligheten, åtminstone om man beaktar den starka grad av specialisering som kännetecknat vetenskapen de senare decennierna. Det kan också tyckas som om det öppna sökandet är väsensskilt inom olika vetenskapliga discipliner. Det kan finnas skillnader i metod mellan exempelvis samhällsvetenskaper och naturvetenskaper. Ofta är dock skillnaderna av den karaktären att man använder olika terminologi. I den följande framställningen ska vi så klart fokusera på biologin. I det vardagliga vetenskapliga arbetet kan man tycka att det öppna sökandet lyser med sin frånvaro. Det beror på att de flesta frågeställningarna är långt ifrån öppna.


2012-02-24 – sida 14 – # 24

14

KAPITEL 1 ATT STÄLLA FRÅGOR I BIOLOGIN

Ett steg framåt är oftast ett resultat av förfinat frågande, fokusering på frågorna och på de tekniker som behövs för att besvara dessa i syfte att åstadkomma tydligast möjliga skillnad mellan alternativa förklaringar till ett observerat fenomen. Detta är en färdighet, eller en uppsättning av färdigheter, som måste läras in, och denna inlärning är ett av de viktigaste målen för träning i vetenskapligt arbete. Att ställa frågor i biologin handlar om att ställa rätt frågor på rätt sätt. Detta är mycket mer krävande än det kan verka. Till att börja med kräver det att något är känt om det system eller objekt som forskaren är intresserad av. En sådan kunskap kan vi skaffa oss på olika sätt, exempelvis genom att gå kurser, läsa textböcker, läsa vetenskapliga tidskrifter, fråga andra som är specialister på området eller genom att göra egna undersökningar och försök. Den senare varianten är nog den mest arbetsamma, men det kan ju hända att den information som finns inte är korrekt eller att den inte finns alls. Att ta den tillhandahållna informationen som sanning kan vara farligt. Kunskap är ett levande väsen och den kan ändras snabbt, och det finns många exempel på att det kan vara fruktbart att ifrågasätta accepterade sanningar. Ett ganska sent exempel på hur ett paradigmskifte förändrar sanningar är sjukdomen magsår. Tillståndet är dokumenterat sedan ungefär 200 år. Besvär från övre delen av magsäcken, ”ont i magen” eller dyspepsi (bl.a. sura uppstötningar) har funnits i människans hela medicinska historia. Syrasekretion som förklaringsmodell har dominerat sedan början av 1900-talet och den har styrt behandlingen. Kirurgisk behandling för att minska syraproduktionen introducerades och förfinades under många år med början redan på 1920-talet. Under lång tid kom sedan behandling med antacida, H2-blockerare (som hämmar syraproduktionen) och protonpumpshämmare att användas i första hand. Problemet verkade således kunna lösas med syrahämmande medel i kombination med kirurgiskt ingrepp i de riktigt svåra fallen. En mycket omvälvande upptäckt i Australien på 1980-talet skulle komma att ändra paradigmet för behandling av magsårssjukdom radikalt. Man hade upptäckt att det förekom bakterier i magsäcken vid gastrit, dvs. inflammation i magsäcken, och man fann att de hade morfologiska likheter med bakterier inom familjen Campylobacter. Gastroenterologen Barry Marshall lyckades odla bakterien och misslyckades med att infektera griskultingar med den, men han drack själv odling av bakterier, som då kallades Helicobacter pylori, och blev sjuk. Hans sjukdom regredierade spontant, vilket tyder på att det finns en medfödd immunitet mot bakterien hos vissa individer.6 Barry Marshall och hans kompanjon sedan mycket länge, Robin Warren, belönades 2005 med Nobelpriset i fysiologi eller medicin. Resten är historia och behandlingen är numera antibakteriell. Det är lyckligtvis och dessvärre så att det vilar ett stort ansvar på dig som forskare och student att värdera den information som är tillgänglig. Ansvaret kan vara 6 Marshall BJ, McGechie DB, Rogers PA, Glaney RJ. Pyloric Campylobacter infection and gastroduodenal disease. Med J Aust 1985; 142:439–44.


2012-02-24 – sida 15 – # 25

1.4 HYPOTESER

15

tungt, men det är också inspirerande att utifrån egna erfarenheter och logiskt tänkande värdera andras arbeten. Innan du sätter igång en större undersökning av vad det vara må inom biologins alla områden krävs det omfattande tankearbete och litteraturstudier samt kontakter med andra som kan ha större och längre erfarenhet. Du ska också hålla i minnet att vetenskapen är mycket konservativ, och det krävs tydliga och välgrundade resultat för att ändra en vedertagen uppfattning, liksom för att bekräfta nyare resultat. Man kan referera till Barry Marshall som har sagt i en intervju att ”Everyone was against me, but I knew I was right.” Att ställa rätt fråga är att formulera en hypotes som kan prövas mot verkligheten genom observationer eller experiment. Charles Darwin lär ha sagt att utan en hypotes kan en geolog lika gärna gå till ett grustag och räkna stenar. Vad han syftade på är förstås att det vore bortkastad tid att bara samla in fakta för deras egen skull. En geolog skulle inte ha någon nytta av att veta hur många stenar det finns i ett grustag. Detta förefaller självklart, men sådant mållöst samlande av fakta, som inte ska förväxlas med den ofta nödvändiga fasen i utvecklingen av en hypotes, är ett vanligt problem bland studenter i praktiskt arbete och projektarbete. Det har nog hänt ganska ofta att lärare i naturvetenskaper har konfronterats med vädjan: ”Jag har samlat in alla dessa fakta och vad ska jag göra med dem nu?”. Det uppenbara svaret är förstås att den som samlar fakta redan före insamlingen ska veta vad som ska göras med data. Som Darwin väl kände till är det som ger rätt riktning i datainsamlingen en arbetshypotes. Ordet hypotes låter ganska formellt och det kan det verkligen vara − i vissa fall kan hypoteser formuleras på ett mycket formellt sätt. Den allmänna tillämpningen är dock ofta mycket lösare. En enkel definition är:7 a tentative proposition which is subject to verification through subsequent investigation . . . . In many cases hypotheses are hunches that the researcher has about the existence of relationships between variables. En hypotes ska därmed vara lite mer än en intuitiv känsla för hur något fungerar eller för hur ändringar i en faktor hör samman med ändringar i en annan faktor eller om någon aspekt på det studerade materialet. Hur vag hypotesen än kan verka, så har den ett formativt syfte och påverkar utformningen av studien, eftersom denna sätts i verket för att pröva hypotesen. När studien är genomförd kan resultaten synas strida mot hypotesen, och den kan förkastas till förmån för en ny hypotes. Karl Popper,8 en av de mest inflytelserika vetenskapsfilosoferna, hävdar att en utsaga bara är vetenskaplig ifall (1) det är möjligt att falsifiera utsagan genom en observation som visar att den inte kan vara sann och (2) den har bekräftats av en observation. Denna tes underhålls också av andra vetenskapsfilosofer, men Popper 7 Verma GK, Beard RM. What is educational research? Perspectives on techniques of research. Gower, Aldershot 1981. 8 Popper K. Logic of scientific discovery. Rutledge, UK, 2002.


2012-02-24 – sida 16 – # 26

16

KAPITEL 1 ATT STÄLLA FRÅGOR I BIOLOGIN

har inte undgått att bli motsagd av andra filosofer. Exempelvis finns det en svensk filosof, Sven Ove Hansson, som hävdar att många vetenskapliga hypoteser är av den arten att de inte kan falsifieras i strikt mening men att de ändå är fruktbara därför att de driver vetenskapen framåt. Ett exempel på en sådan hypotes skulle kunna vara påståendet ”Rökning förkortar livet med fem år”. Hypoteser kan vara ganska enkla att formulera i vissa sammanhang och komplicerade att utforma i andra. Man får inte inbilla sig att den rätta frågan, dvs. den korrekta hypotesen, alltid kan formuleras vid den första tanken om ett problem. Den prövbara och goda hypotesen utvecklas ofta genom ett flertal ifrågasättanden och korrigeringar. Kärnan i den goda hypotesen är att den kan prövas genom experiment eller observationer. Under processen att tänka ut ett sätt att genomföra studien kommer hypotesens formulering att finslipas. Ett exempel

Låt oss ta som exempel en undersökning av koldioxidtransporten i blodet hos däggdjur. Först måste man se till att vara informerad om det aktuella kunskapsläget och eftersom detta är tämligen detaljerat och fullständigt inom det aktuella området, måste frågeställningen för att vara nydanande avse någon av de delar som är okända eller kontroversiella. För övningens skull kan vi dock tänka bort en del av det aktuella kunskapsläget och formulera vår fråga mot den bakgrunden. Vi undrar över hur stor andel av koldioxiden som faktiskt transporteras med hemoglobinmolekylen. Vad vi vet är att huvuddelen av koldioxiden från vävnaderna transporteras i form av vätekarbonat löst i blodplasman. Många frågor måste besvaras innan vi ens kan komma till hur vi ska genomföra undersökningen. De första är: . . . .

Hur mycket av koldioxiden transporteras som vätekarbonat? Hur mycket transporteras eventuellt som koldioxid löst i blodplasma? Finns det andra transportvägar än dem ovan och den vi ska undersöka? Är det en oberoende mekanism eller är den kopplad till någon annan?

Nästa steg är att försöka besvara frågorna ovan. Det får vi göra i första hand genom en omfattande litteraturgenomgång och genom att identifiera grupper och personer med kunskap inom området. När dessa initiala frågor är besvarade återstår en hel del planering och besvarande av frågor av mer praktisk natur som exempelvis: . Kan frågan besvaras med laboratorieförsök? . Krävs det djurförsök? . Kan frågan besvaras med reaktioner i ”provröret”? Vi sammanfattar svaren på ovanstående frågor och färdigställer en bas för att gå vidare med själva undersökningen. Litteratursökning och diskussioner med kolleger har gett oss uppgifterna att ungefär 7 % transporteras löst i blodplasma och ungefär


2012-02-24 – sida 17 – # 27

1.4 HYPOTESER

17

87 % transporteras som vätekarbonat. Det skulle innebära att ungefär 6 % transporteras bundet till hemoglobin. Den slutsatsen förutsätter förstås att det inte finns någon annan transportmekanism. Samma källor ger vid handen att det inte finns någon sådan alternativ transportväg, i alla fall ingen nu känd. Det finns också en koppling mellan koldioxidtransport och syretransport med hemoglobin, men den förefaller inte påverka den andel av koldioxiden som transporteras med hemoglobin. Vi utgår från att försök genomförts för att lägga fast att koldioxid över huvud taget binder till hemoglobin, direkt eller indirekt.9 En utgångspunkt för ett laboratorieförsök för att besvara huvudfrågan skulle kunna vara en ansats in vitro. Anta att vi behöver 10 mL venöst blod för mätningar. Anta vidare att vi har valt tjugo blodgivare av samma kön och ålder samt liknande socioekonomiska förhållanden. Koldioxidhalten, halten av hemoglobin, halten av koldioxid bundet till hemoglobin och halten av vätekarbonat i blodet mäts direkt efter provtagningen av donatorerna. Nu åter till huvudfrågan. Vi har redogjort för planeringen av försöket och nu är det dags att formulera den fråga vi vill få svar på. Frågan har naturligtvis funnits i tankarna under hela planeringsfasen och sålunda påverkat uppläggningen av försöket. Vår huvudfråga är ju hur stor andel av koldioxiden som transporteras bunden till hemoglobin. Efter att ha konsulterat litteratur och kolleger kom vi fram till att det borde röra sig om ungefär 6 %. Hur ska vi formulera hypotesen, när frågan är så enkel? Är det inte bara att sätta igång och mäta? Jo, det kan man tycka, men kom då ihåg Darwins argument om geologen. Hypotesen ska vara klar och prövbar. Det finns en överenskommelse, för att inte säga en teoribas, om hur den ska formuleras. Nu närmar vi oss pudelns kärna och hypotesen blir ”Andelen koldioxid som transporteras bunden till hemoglobin är 6 %”. Enkelt, eller hur? För att prövningen ska bli rimlig i slutändan krävs det också ytterligare en hypotes som motpart i prövningen. I vårt fall blir den ”Andelen koldioxid som transporteras bunden till hemoglobin är inte 6 %”. Nu verkar det kanske som om vi komplicerar problemet i onödan, men vi måste hålla oss till de regler som vetenskapssamhället har kommit överens om. Om vi inte har tänkt noga på det tidigare, kommer nu frågan huruvida den formgivning som vi tänkt oss för försöket är lämplig för prövningen. Tekniskt sett är den troligen bra, men det finns andra frågor som måste bli besvarade. Hur kan vi veta att de donatorer vi valt är representativa för den aktuella populationen? Är antalet donatorer tillräckligt för att hypotesprövningens resultat ska vara giltiga? Det är frågor som vi återkommer till senare i boken. Eftersom det inte räcker med att bara mäta och tolka resultaten, måste vi också hitta ett sätt att pröva hypotesen. Låt oss anta att vi efter de planerade och genomförda mätningarna har följande datamaterial att arbeta med (tabell 1.2):

9 Forster RE, Constantine HP, Craw MR, Rotman HH, Klocke RA. Reaction of CO2 with human hemoglobin solution. J Biol Chem 1968; 243:3317–26.


2012-02-24 – sida 18 – # 28

18

KAPITEL 1 ATT STÄLLA FRÅGOR I BIOLOGIN

Tabell 1.2. Mätresultat för blodproverna (andelar).

Form CO2 löst HCO− 3 CO2 bundet

Medelvärde

Standardavvikelse

0,072 0,872 0,056

0,008 0,079 0,007

Av tabellen att döma verkar andelen koldioxid bundet till hemoglobin vara ganska nära 6 %, men hur ska vi veta om detta resultat är tillräckligt bra för att acceptera hypotesen ”Andelen koldioxid som transporteras bunden till hemoglobin är 6 %”? Vi måste hitta ett invändningsfritt sätt att pröva hypotesen, och en annan fråga är vad vi ska ha standardavvikelsen till. Det ska vi också återkomma till senare i boken.

1.5

Statistisk inferens

Variabilitet hos resultat är typisk i många grenar av experimentell verksamhet. Det kan därför te sig problematiskt att dra slutsatser om en hel population från resultat som erhållits från ett relativt litet antal enskilda fall. Den statistiska teorin om uppskattning och hypotesprövning ger oss emellertid lösningar på detta s.k. induktionsproblem i form av bestämda utsagor som har en känd och kontrollerbar sannolikhet att vara korrekta. Dessa utsagor är precisa nog för att vara användbara när det gäller att besluta huruvida åtgärder kan genomföras på grundval av resultaten. Hur vi lägger upp program för att dra stickprov och detaljerna i den påföljande statistiska analysen måste behandlas tillsammans. De är inte separata problem. Som vi kommer att se senare finns det många olika statistiska test som var för sig kan svara på olika frågor. Det finns olika tester för olika slags variabler, och varje test innehåller antaganden om de egenskaper som ska analyseras och det sätt som resultaten har uppkommit. Tester kan också skilja sig i hur många observationer som krävs. Sådana specifikationer lägger till en extra dimension till formgivningen av experiment eller till programmet för stickprovsdragning. Detta kan innebära att vi måste fundera lite mer på planläggningen av försöket, antalet observationer som krävs och det sätt på vilket variabeln beskrivs. Som biologer vill vi så snabbt som möjligt komma till den praktiska biologin, och problemen i samband med planläggning inför den efterkommande analysen av resultaten kan verka distraherande. Det kan dock inte nog betonas att detaljerna i formgivningen och den statistiska analysen måste bearbetas noggrant innan det praktiska arbetet genomförs. Den väsentliga utgångspunkten för allt detta är att ha en mycket klar uppfattning om den fråga som ska besvaras. Utan denna initiala investering i tid och tanke är det lätt att genomföra ett experiment som inte kan besvara frågan an-


2012-02-24 – sida 19 – # 29

1.5 STATISTISK INFERENS

19

tingen för att det praktiska arbetet har en eller flera brister eller för att resultaten inte kan bearbetas statistiskt. Det är nog den tuffaste läxan att lära sig. Tidigare uppkom önskan om assistans från statistisk expertis nästan alltid i samband med tolkning av resultat. Det är en vanlig egenskap hos experiment inom mycket olika forskningsfält att när de upprepas, varierar effekterna av de experimentella behandlingarna från försök till försök. Denna variation inför en grad av osäkerhet i varje slutsats som dras från resultaten. Inte ens efter ett antal upprepningar, eller replikationer som de kallas, vet undersökaren hur mycket resultaten skulle ändras om experimentet upprepades fler gånger under samma omständigheter. Successiva försök kan vara så diskrepanta i resultaten att det är tveksamt vilken av två behandlingar som skulle vara bättre i ett längre perspektiv. Som en illustration av denna variation har vi data i tabell 1.3 från ett enkelt experiment som handlar om att jämföra två uppsättningar av reagens (kit) för att utföra samma kemiska reaktion. Inalles genomfördes tio olika försök med reagens A och reagens B. Tiden för reaktionen mättes i sekunder intill en hundradels sekund. Det är värt att notera att skillnaden i tid sträckte sig från 6,74 s till förmån för reagens B till 0,78 s till förmån för reagens A.

Tabell 1.3. Kemisk reaktionstid med två olika

uppsättningar av reagens (kit).

Replikation

Kit A

Kit B

Skillnad (A − B)

1 2 3 4 5 6 7 8 9 10

11,86 8,30 8,72 8,70 7,11 11,46 6,32 4,74 9,09 9,08

5,53 8,30 1,98 5,14 5,15 6,72 2,77 5,52 3,16 9,49

6,33 0,00 6,74 3,56 1,96 4,74 3,55 −0,78 5,93 −0,41

Medelvärde

8,54

5,38

3,16

Avsikten med experimentet är förstås att jämföra de båda reagensernas reaktionshastighet. Mer specifikt kan vi identifiera två avsikter. Den första är att svara på frågan om det är någon skillnad i hastighet. Eller för att formulera det annorlunda: att pröva hypotesen att det inte är en skillnad i hastighet. Den andra avsikten, som är besläktad med den första, är att uppskatta storleken i hastighetsskillnad. De allra flesta expe-


2012-02-24 – sida 20 – # 30

20

KAPITEL 1 ATT STÄLLA FRÅGOR I BIOLOGIN

riment utförs av ett av eller båda dessa skäl – hypotesprövning och uppskattning av skillnader i effekter från olika behandlingar. När det gäller prövningen av hypotesen att det inte är någon hastighetsskillnad kan vi rapportera som relevant bevis att B var snabbare sju gånger av tio och A två gånger, samt att båda var lika snabba en gång. Vad uppskattningen beträffar kan vi rapportera att medelskillnaden i hastighet i experimentet var 3,16 sekunder till förmån för B. Sådana rent deskriptiva utsagor för oss dock inte särskilt mycket längre. Svagheten är att de inte förser oss med någon information om reliabiliteten i de siffror som presenteras. Har vi exempelvis någon tilltro till att fördelen fortfarande skulle vara i närheten av 3,16 sekunder för B om experimentet upprepades ytterligare tio gånger?

Konfidensintervall

På grund av bristerna i det deskriptiva tillvägagångssättet använder vi oss av en annan infallsvinkel för summeringen av resultaten. Vi kan resonera på följande sätt. Anta att det skulle vara möjligt att fortsätta med experimentet oändligt många gånger med samma förutsättningar. Medelskillnaden i hastighet mellan de båda reagensen skulle förmodligen stabilisera sig och anta ett bestämt värde. Detta värde, som är oberoende av experimentets ursprungliga storlek, skulle rimligen kunna sägas vara den sanna skillnaden mellan A och B. Från denna utgångspunkt skulle problemet att summera resultaten kunna omformuleras i frågan: vad kan vi säga om den sanna skillnaden mellan A och B? Detta är ett induktionsproblem från en del till det hela eller, i statistiska termer, från stickprovet till populationen. Det är uppenbart att vi inte kan förvänta oss att den statistiska lösningen på detta problem ska ge det exakta värdet av den sanna skillnaden. Som ett något mindre ambitiöst mål kan vi hoppas att kunna finna två gränser inom vilka det exakta värdet med säkerhet ligger, men inte ens det kan vi uppnå. Vad vi kan göra är att för en given vald sannolikhet, exempelvis 95 %, finna två gränser så att sannolikheten att den sanna skillnaden är innesluten av gränserna är 95 %. Med andra ord kan vi hitta gränser som nästan säkert innesluter den sanna skillnaden, där graden av säkerhet mätt som sannolikheten kan väljas av försöksledaren. Eftersom vi vill sätta fokus på den typ av slutsats som kan formuleras snarare än på metoden att beräkna gränserna, lämnar vi beräkningarna till ett senare kapitel. För exemplet i tabell 1.3 visar det sig att gränserna för den sanna skillnaden i hastighet mellan reagenserna är 1,02 och 5,30 sekunder till förmån för reagens B, om sannolikheten är 0,95. En utsaga att B är snabbare med ett värde som ligger mellan 1,02 och 5,30 sekunder har en risk av 1 på 20 att vara felaktig. Om vi ändrar graden av säkerhet till 0,80, snävas gränserna in till 1,81 och 4,51 sekunder. Om sannolikheten ökas till 0,99, blir gränserna istället 0,23 och 6,10 sekunder, och om sannolikheten bringas närmare säkerhet kommer gränserna att fjärmas än mer från varandra. Gränserna kallas konfidensgränser och sannolikheterna konfidensgrader.


2012-02-24 – sida 21 – # 31

1.5 STATISTISK INFERENS

21

Som vi har sett består den statistiska lösningen till problemet av en utsaga att den sanna skillnaden ligger mellan speciella gränser och av en sannolikhet att utsagan är korrekt. Det är förstås intressant att se om denna typ av information är tillräckligt precis för att tillåta beslut av praktisk betydelse. Låt oss titta på ett exempel. Anta att vi vill veta om det skulle vara lönsamt att tillföra någon slags gödsel till en gröda. Kostnaden för gödselmedlet är sådan att användningen blir lönsam bara om den ökar utbytet i medeltal med 75 liter (torr säd) eller mer. En serie försök genomförs för att uppskatta det sanna medelsvaret på gödselmedlet. Om de 95-procentiga konfidensgränserna för utbytesökning till följd av gödsling då blir 150 och 412,5 liter, så är gödslingen med stor grad av säkerhet lönsam. Skulle konfidensgränserna istället vara −187,5 och 37,5 liter, så är gödsling med stor säkerhet olönsam. Ett fall där det uppstår osäkerhet är om gränserna blir 0 och 187,5 liter. Här är det sannolikt att det antingen blir en liten vinst eller en liten förlust, men det går inte att ge någon rekommendation utan att det finns en ansenlig risk att det blir fel. Om det är viktigt att fatta det korrekta beslutet måste fler försök genomföras för att minska avståndet mellan konfidensgränserna.

Hypotesprövning

Så här långt har vi betraktat problemet att uppskatta den sanna skillnaden mellan effekten av två behandlingar. I hypotesprövning är vi intresserade av antagandet att den sanna skillnaden har något specificerat värde, som ofta väljs lika med noll. Liksom i fallet med uppskattning uppstår svårigheter på grund av den variabilitet som är typisk i experimentella data. Som resultat av denna variabilitet står data aldrig exakt i överensstämmelse med hypotesen, och problemet är att besluta om skillnaden mellan data och hypotesen beror på sådana slumpmässiga variationer eller om det är så att hypotesen är falsk. Bidraget från statistiken är den operation som kallas hypotesprövning eller signifikanstest. Detta är väsentligen en beslutsregel, grundad på undersökning av data, huruvida hypotesen ska förkastas eller ej. Beslutsregeln ska tillfredsställa två uppenbart önskvärda villkor, nämligen att hypoteser som är sanna inte ska förkastas annat än i enstaka fall och då med en sannolikhet som kontrolleras av försöksledaren, och att hypoteser som är falska ska förkastas så ofta som möjligt. Denna teknik gör det möjligt för en forskare att pröva sin hypotes om verkan hos behandlingar med förvissning om att det är liten risk att felaktigt förkasta en hypotes som är sann. De vanligast använda sannolikheterna för denna risk är 5 % (0,05), 1 % (0,01) och 0,1 % (0,001), och i dessa fall säger man att prövningarna har genomförts på 5, 1 respektive 0,1 % signifikansnivå. Dessa nivåer är enbart användbara konventioner, men det är sällsynt att andra nivåer används. Den lägsta sannolikheten kan användas om följderna av att felaktigt förkasta en sann hypotes är mycket allvarliga. Vi ska dock komma ihåg att genom att minska denna sannolikhet minskar också möjligheterna att förkasta en falsk hypotes.


2012-02-24 – sida 22 – # 32

22

KAPITEL 1 ATT STÄLLA FRÅGOR I BIOLOGIN

En användbar egenskap hos en hypotesprövning är att den har ett tillnyktrande inflytande på en experimentator som fattar beslut på knapphändiga data, och som annars skulle försöka entusiasmera alla andra om sensationella behandlingseffekter som väl kan tillskrivas de vanliga variationerna i ett försök. Det kan dock vara så att hypotesprövningar inte alltid är särskilt användbara i experimentellt arbete, utan konfidensgränser kan vara lämpligare. I många försök verkar det uppenbart att de olika behandlingarna borde orsaka någon skillnad, även om effekten är liten. Sålunda är hypotesen att det inte föreligger någon skillnad orealistisk. Det verkliga problemet är att hitta uppskattningar av skillnadernas storlek. Konstruktionen av konfidensgränser kan faktiskt lägga till någonting till tolkningen av en hypotesprövning. Anta att hastigheterna hos de båda reagenserna i exemplet ovan inte hade varit signifikant skilda. Det är en trivialitet att detta resultat inte bevisar att de båda reagenserna har identiska hastigheter. Om 95 % konfidensgränser för skillnaden i hastighet exempelvis hade varit −2 och +4 sekunder, kunde vi argumentera att en sann skillnad om 4 sekunder, även om den skulle förekomma, inte skulle ha någon praktisk betydelse. Följaktligen skulle vi säga att för alla praktiska ändamål har reagenserna identisk hastighet. Detta är mer positivt och användbart än att bara säga att hastighetsskillnaden inte var statistiskt signfikant. Om å andra sidan konfidensgränserna skulle vara −30 och +32 sekunder finns det inget berättigande för slutsatsen att reagenserna kan betraktas som ekvivalenta. Allt vi har lärt oss är att data inte är tillräckligt precisa för att visa om det finns en hastighetsskillnad som har praktisk betydelse.

1.6

Att bevisa orsakssamband

Det enda sättet att verifiera hypotesen att faktor x orsakar en förändring i variabeln y är att genomföra ett experiment. Faktor x kan ha identifierats genom kunskap från tidigare arbeten med det system som studeras eller från studier av ett besläktat problem. Exempelvis kan vår ekolog, som studerar antalet sniglar i två olika områden, veta från arbeten med andra snigelarter att födotillgången i form av mängden vegetation påverkar antalet sniglar, eller ha observerat (eller till och med ha mätt) en skillnad i mängden vegetation mellan de två områdena. Alternativt kan den faktor som identifierats för undersökningen vara en ren gissning! Varifrån än idén kommer är kvintessensen i det experimentella tillvägagångssättet att försöka variera bara den studerade faktorn, medan övriga tänkbara orsaksfaktorer hålls konstanta. (Det finns också andra strategier, men den statistiska behandlingen av sådana ligger bortom den här framställningen.) Eftersom den som genomför experimentet inte drar nytta av den naturliga variationen utan istället medvetet modifierar den intressanta faktorn, kallas detta tillvägagångssätt för ett manipulativt experiment. I de enklaste experimenten varierar vi bara en faktor så att den


2012-02-24 – sida 23 – # 33

1.6 ATT BEVISA ORSAKSSAMBAND

23

förekommer på två nivåer, t.ex. hög eller låg tillgång på föda, ett läkemedel används eller används inte, lågt pH eller högt pH. Ett sådant experiment innehåller två olika behandlingar. Om en av dessa behandlingar motsvarar någon sorts ”normal” nivå hos faktorn kan den betecknas som en kontroll. Vi sätter således upp experimentet så att den enda skillnaden mellan de båda behandlingarna finns i den aktuella faktorn. Det innebär att om vi sedan observerar en skillnad (i variabeln) mellan de båda behandlingarna, måste detta vara en behandlingseffekt, dvs. skillnaden måste ha orsakats av den aktuella faktorn. Om det däremot skulle finns andra skillnader mellan de båda behandlingarna, skillnader som vi kanske eller kanske inte känner till, kan vi inte vara säkra på vad som egentligen orsakar en observerad effekt. Att i praktiken hålla alla faktorer utom den aktuella konstanta är inte så enkelt som det kan låta och kräver noggrant tänkande och planering. Detta (och andra saker) är vad som menas med experimentell formgivning. Naturligtvis krävs det sedan en statistisk analys av de experimentella resultat som erhålls. För att minimera ovidkommande, kända eller okända, faktorers inverkan på ett resultat måste vi hitta sätt att försäkra oss om att en behandling med upprepade replikationer inte fortlöpande kommer att vara favoriserad eller handikappad av variationen hos dessa faktorer. Detta görs med ett knep som kallas randomisering och har sitt ursprung hos Sir Ronald Fisher,10 som var en av förra seklets största statistiker. Istället för att systematiskt genomföra behandling A före behandling B tillämpar vi principen om randomisering genom att exempelvis singla slant för att bestämma vilken behandling som ska ges först i varje försök. Detta beslut fattas oberoende i varje försök. Effekten är att varje behandling har samma chans att bli prövad under de gynnsamma omständigheterna. Självklart kommer resultaten av varje speciell randomisering att kunna gynna den ena eller den andra behandlingen, men detta händer bara i en omfattning som tillåts i de beräkningar som används för hypotesprövning och konfidensgränser. Randomisering är en av få egenskaper i nutida experimentell formgivning som förefaller verkligt modern − det går att hitta experiment som genomförts för 100 eller 150 år sedan och som omfattar principer som nu anses sunda med det iögonenfallande undantaget för randomisering. Randomisering har vissa likheter med försäkringar på det sättet att det är en försiktighetsåtgärd mot störningar som kan uppträda eller inte uppträda och som kan vara eller inte vara allvarliga om de uppträder. Det är i allmänhet tillrådligt att göra sig besväret att randomisera, även om det inte förefaller finnas någon allvarlig påverkan om man underlåter att randomisera. Experimentatorn är således skyddad mot ovanliga händelser som kunde kullkasta förväntningarna. Självfallet kan det vara tidsödande att i försök där det förekommer ett stort antal fysiska operationer rando10 Sir Ronald Aylmer Fisher (1890–1962), brittisk statistiker, evolutionsbiolog, genetiker och rashygieniker, känd för banbrytande insatser i statistisk inferensteori, variansanalys och försöksplanering och pionjär i att tillämpa statistiska metoder inom särskilt genetik och jordbruksvetenskap.


2012-02-24 – sida 24 – # 34

24

KAPITEL 1 ATT STÄLLA FRÅGOR I BIOLOGIN

misera varje operation, och experimentatorn kan använda sin kunskap och erfarenhet för att utesluta randomisering där det finns reell kunskap om att resultaten inte kan komma att förvanskas. Vi måste dock vara medvetna om att underlåtenhet att randomisera kan medföra oönskad påverkan om inte den variation som införs är försumbar eller experimentet randomiserar sig självt på ett effektivt sätt.

1.7

Försöksplaneringen

Vi har nämnt att statistiker ofta blir rådfrågade när det är dags att dra slutsatser från försöksresultat. Eftersom den inferens som kan göras beror på hur försöket genomförts, bör statistikern begära en detaljerad beskrivning av försöket och dess mål. Det kan då hända att det inte går att dra några slutsatser eller att de som kan dras inte svarar på de frågor som forskaren hade hoppats få svar på. Under sådana olyckliga omständigheter är det möjligen så att allt som kan göras är att få indikationer på hur man kan undvika sådana utfall i framtida försök. Följaktligen är det klokt att inse att planeringen av försök är mycket viktig, och det är i det skedet statistiken spelar sin största roll. Erfarenheter av deltagande i de inledande stegen av försök inom olika forskningsområden ger vid handen att alldeles för lite tid och möda spenderas på försöksplaneringen. Statistikern, som förväntar sig att det egna bidraget till planeringen ska innehålla en del tekniska aspekter av statistisk teori, finner ofta att han eller hon gör mycket större nytta genom att få undersökaren att noggrant förklara varför försöket ska utföras, att rättfärdiga de experimentella behandlingar vars effekt ska jämföras och att förklara hur genomförandet av försöket ska uppfylla de aktuella målen. Av ovanstående skäl kommer resten av det här kapitlet att ägnas åt några grundläggande kommentarer om ämnet planering. Det är en praxis att göra en skriftlig sammanställning av hur ett försök ska genomföras. En sådan sammanfattning bör i allmänhet innehålla tre delar: (1) en beskrivning av målen, (2) en beskrivning av försöket som innehåller sådant som de experimentella behandlingarna, försökets storlek och det experimentella materialet och (3) en översikt över de avsedda statistiska analysmetoderna. Beskrivning av målen

En målbeskrivning bör innehålla de frågor som ska besvaras, den hypotes som ska prövas eller de effekter man vill studera. Målet bör vara att göra beskrivningen klarsynt och specifik. De vanligaste felen är vaghet och överdriven ambition i den meningen att det skulle krävas ett försöksprogram om tjugo år för att realisera de beskrivna målen. Det är ofta tillrådligt att klassificera målen som större och mindre eftersom vissa typer av försök ger hög precision för vissa behandlingsjämförelser men låg precision för andra.


2012-02-24 – sida 25 – # 35

1.7 FÖRSÖKSPLANERINGEN

25

När försöket omfattar samarbete mellan forskare från olika intresseområden är en sådan klassificering speciellt nyttig på det sättet att den gör klart vilka mål som har prioritet och hjälper till att undvika en olycklig kompromiss som antas i förhoppningen att tillfredsställa alla inblandade. Beskrivningen bör innehålla en redogörelse för det område i vilket generaliseringar är tänkta att göras, med andra ord de populationer för vilka man hoppas dra slutsatser. Om ett försök ska göras på individer som lider av någon sjukdom, är då resultaten tänkta att tillämpas på patienter på ett visst sjukhus, på patienter på alla sjukhus eller på alla sjuka oavsett om de är på sjukhus eller ej? Sådana frågor är kritiska i tillämpad forskning där forskaren ofta har någon specifik population i tankarna som resultaten ska tillämpas på. Det är uppenbart att meningsfulla slutsatser om en omfattande population inte låter sig dras från ett enskilt försök. Exempelvis är de slutsatser som kan dras från försöket med de två reagensen begränsade till den person som gjorde mätningarna och till den typ av mätningar som gjordes. Det finns ingen garanti för att resultaten skulle bli lika för andra slags beräkningar eller med andra utförare. Följaktligen har försöket bara skrapat på ytan av problemet, om målet var att få reda på vilket reagens som är snabbast för allmänt bruk på ett laboratorium.

De experimentella behandlingarna

Vi har använt termen behandling för att beteckna de olika procedurer vars effekt ska mätas och jämföras. I valet av behandlingar är det viktigt att klart definiera varje behandling och att verkligen förstå vilken roll varje behandling kommer att ha för att nå målen för försöket. Förvirring uppstår ibland på grund av att man inte klarar av att skilja mellan om målet bara är att hitta vinnaren bland de olika behandlingarna eller om det också är önskvärt att hitta några ledtrådar till varför behandlingarna beter sig som de gör. Ett bra exempel är försöket som demonstrerar att var och en av tre behandlingar, whisky och vatten, gin och vatten och rom och vatten, orsakar en viss grad av intoxikation om de tas oralt. I sig självt ger försöket ingen information om intoxikationen orsakas av vattnet, den andra ingrediensen eller om det är blandningen. Ett mer omfattande försök med flera behandlingar skulle krävas för att kasta ljus över frågan. Även om det finns tillfällen då det är tillräckligt enkelt att upptäcka vilken av behandlingarna som är bäst, visar erfarenheten att även i strikt tillämpade försöksprogram är utvecklingen snabbare om försöken också tillför grundläggande kunskap. På samma sätt är kritiken att en viss behandling ska uteslutas eftersom den inte skulle kunna användas i praktiken berättigad om syftet är att hitta den bästa praktiska behandlingen. Dock är den inte berättigad om den ”opraktiska” behandlingen kan tillföra information om de andra behandlingarnas uppträdande i försöket.


2012-02-24 – sida 26 – # 36

26

KAPITEL 1 ATT STÄLLA FRÅGOR I BIOLOGIN

Specificeringen av behandlingarna kan ge upphov till svåra frågor om de förhållanden de olika behandlingarna ska jämföras vid. Anta att målet är att bestämma effekten av behandling med kvävetillförsel på avkastningen hos någon gröda. Det är välkänt att effekten beror på de mängder av andra näringsämnen som är tillgängliga för växten. Följaktligen måste vi bestämma oss för om vi ska se till att det finns riklig tillgång till dessa näringsämnen i varje odlingslott eller om vi ska testa kvävet på jorden oavsett innehåll av andra näringsämnen. Beslutet måste vägledas av målen för försöket och särskilt av det slags population slutsatserna är avsedda att användas för. Ibland är det tillrådligt att pröva kväve i både närvaro och frånvaro av andra näringsämnen. Ett resultat av ett sådant beslut är att försöket också blir en prövning av de andra näringsämnena, även om det inte har varit en del av den ursprungliga planen. Försök av det här slaget, där en faktor prövas över olika nivåer av en annan faktor, brukar kallas faktoriella försök, och de har kommit att spela en stor roll i experimentella försök. I vissa fall kan det visa sig att de behandlingar som kan prövas i praktiken inte är de vi vill testa. Följande exempel är typiskt inom många områden där mänskliga relationer behandlas. Anta att vi vill jämföra två metoder a och b för att undervisa i ett främmande språk och att vi har definierat varje metod klart och tydligt samt att vi har bestämt hur framgången för varje metod ska mätas. En del av de lärare som ska medverka i försöket använder redan en metod som liknar a och har starka uppfattningar om att metod b är underlägsen, medan andra redan använder metod b och inte har användning för metod a. Om lärarna delas in slumpmässigt i två grupper som ska använda de båda metoderna, kan vi förvänta oss att några lärare kommer att tilldelas en metod som de inte tror på, och vi kan då komma fram till att detta inte är en jämförelse vi vill göra. Om vi å andra sidan underlåter att randomisera och låter lärarna själva välja den metod de tycker bäst om, kan skillnader mellan metoderna i själva verket vara skillnader i skicklighet hos lärargrupperna. Med tillräckliga resurser till hands kan jämförelsen göras bättre om varje metod används av de lärare som tycker om den, av dem som inte tycker om metoden och av dem som är neutrala. I så fall blir det sex behandlingar istället för två. I praktiken kan det dock vara så att tillgängliga resurser inte tillåter den här utvidgningen, och de frågor som vi måste ta ställning till är hur vi bäst använder resurserna och om försöket, som det kan genomföras, är värt att göra. Åter är den beslutande faktorn vanligtvis hur resultaten ska användas. Diskussioner kan uppkomma om det verkligen är nödvändigt med en ”kontroll”. Termen ”kontroll” används här ganska lösligt om en behandling som vi inte är särskilt intresserade av men som kan bli nödvändig för att visa, genom jämförelse, om andra behandlingar är effektiva. Anta att vi vill jämföra effektiviteten hos tre behandlingar som är kvalitativt likartade, exempelvis tre kvävehaltiga gödselmedel som alla tillför samma mängd kväve. Kontrollen skulle vara en behandling ”utan kväve”. Tre fall kan urskiljas: (1) Behandling med kvävehaltiga gödselmedel har tidigare kon-


2012-02-24 – sida 27 – # 37

1.7 FÖRSÖKSPLANERINGEN

27

sekvent visat sig vara effektiv, och det återstår endast att ta reda på vilken av de tre kvaliteterna som är bäst. Det finns då inget behov av en kontroll. (2) Behandling med kvävehaltiga gödselmedel är i allmänhet effektiv, men då och då är förhållandena i en prövning sådana att den inte är effektiv. Exempelvis kan kvävehaltiga gödselmedel misslyckas med att skapa respons i fält där jordens bördighet är mycket hög. I detta fall skulle det vara bra att ta med en kontroll, som huvudsakligen tjänar syftet att beskriva de förhållanden som rådde vid prövningen. (3) Det kan vara så att vi inte vet om behandlingsslaget är effektivt. En kontroll skulle då naturligtvis inkluderas och det kan vara ett fall där kontrollen ges mer replikation än de andra behandlingarna. Ett exempel på en situation av den tredje typen är när behandlingarna är tre slag av jordrökningsmedel och kontrollen (ingen rökning) replikeras tolv gånger mot fyra gånger för de andra behandlingarna. Detta innebär fyra separata jämförelser för vart och ett av de tre jordrökningsmedlen mot en kontroll, och effekten av detta blir en noggrannare skattning av medelresponsen för rökningsmedel på bekostnad av en mindre förlust av noggrannhet i jämförelsen mellan rökningsmedlen. Ett intressant exempel på den ökade insikt som ibland skapas genom att ha med en kontroll är följande. Ett medel mot huvudvärk innehöll tre olika substanser, a, b, och c. För att pröva om substanserna b och c var nödvändiga för effekten jämfördes den kompletta blandningen (abc) med (ac) och (ab). Studien innehöll 199 försökspersoner som var och en testades med varje läkemedel under en tvåveckorsperiod, och adekvat läkemedel administrerades när försökspersonen klagade på huvudvärk. Framgång mättes med kvoten mellan antalet botade huvudvärkar och antalet testade under tvåveckorsperioden. Medelframgångarna var 0,84 för (abc), 0,80 för (ac) och 0,80 för (ab). Detta utfall visar liten skillnad mellan effektiviteterna. Försöket innehöll också en kontroll − en inert blandning som såg likadan ut som de andra men inte innehöll någon aktiv substans. Kontrollen testades under samma villkor som de tre läkemedlen. Inte mindre än 120 försökspersoner, eller omkring 60 %, rapporterade att åtminstone några av deras huvudvärkar botades av kontrollen, ett resultat som är intressant i sig. Vidare gjorde kontrollen det möjligt att skilja ut en grupp om 79 försökspersoner vars huvudvärkar inte botades med den inerta blandningen. För den grupp som inte fick effekt av kontrollen var medelframgångarna 0,88 för (abc), 0,67 för (ac) och 0,77 för (ab), och skillnaderna kunde visas vara signifikanta. Som försökledaren kommenterade: “banal as it may sound, discrimination among remedies for pain can be made only by subjects who have a pain on which the analgetic action can be tested.” Om det krävs en kontroll måste den vara en integrerad del av försöket så att resultat från kontrollen är direkt jämförbara med resultaten från de andra behandlingarna. Denna punkt tenderar att vara förbisedd i försök med människor när det är svårt eller krångligt att få ihop det önskade antalet försökspersoner.


2012-02-24 – sida 28 – # 38

28

KAPITEL 1 ATT STÄLLA FRÅGOR I BIOLOGIN

Om exempelvis ett nytt läkemedel ska testas på en sjukhusavdelning, är inte återhämtningsgraden på avdelningen innan det nya läkemedlet prövades någon tillfredsställande kontroll. Inte heller är återhämtningsgraden på en annan avdelning, där patienterna händelsevis får standardläkemedlet, en bra kontroll. En observerad skillnad mellan effekten hos det nya läkemedlet och standardvarianten kan orsakas av skillnader i allvarlighetsgrad hos sjukdomen eller i patienttyp, eller av andra aspekter av omvårdnaden på de båda avdelningarna. Det är nödvändigt att ta hänsyn till det nya läkemedlet och standardläkemedlet som två experimentella behandlingar på lika villkor och att använda randomisering när läkemedlen tilldelas patienterna. De statistiska metoderna

Andra aspekter av försöket som bör inkluderas i utkastet till förslaget är antalet replikationer, slaget av experimentellt material som ska användas och de mätningar som ska göras. Eftersom dessa huvudsakligen påverkar försökets noggrannhet lämnar vi diskussionen om dem till kapitel 12. Slutligen ska utkastet i detalj beskriva den föreslagna metoden för att dra slutsatser från resultaten. Detta är den del som oftast inte är med trots att det är en viktig del. Den kan innehålla en skiss av variansanalys, en indikation på hur tabeller av resultaten ska visas och någon beskrivning av de hypotesprövningar som ska göras och de skillnader i behandlingseffekter som ska uppskattas. I denna process identifierar vi vilka behandlingsjämförelser som är relevanta för vart och ett av försökets mål. Påpekande av brister i uppsättningen av behandlingar ska göras liksom av vilka behandlingar som inte ger någon information som är väsentlig för målet för försöket. I den bästa av alla världar skulle de olika stegen i en undersökning eller studie i biologisk forskning således kunna sammanfattas i följande punkter: . . . . . . .

Beskriv klart och tydligt målen för undersökningen Beskriv de eventuella matematiska modeller som används Beskriv formgivningen av försöket och de statistiska metoder som ska användas Samla in data på ett adekvat sätt Undersök strukturen hos och kvaliteten i data Genomför lämpliga formella statistiska analyser Tolka och kommunicera resultaten

Världen är dock sällan helt ideal för biologiforskare (och tveklöst inte heller för biologistudenter som läser detta). Varje steg i listan ovan kan leda till problem och svårigheter, och därför kommer få undersökningar i praktiken följa ett så okomplicerat mönster. En iterativ process som inkluderar omprövning, omformulering och ny analys är sannolikare. Emellertid är förhoppningen att denna ofta traumatiska process slutligen kommer att konvergera mot en uppsättning resultat som, även om de vanligen inte är världsomvälvande, kan bli ett värdefullt steg på vägen mot att förstå ett speciellt problem.


2012-02-24 – sida 29 – # 39

KAPITEL 2

Lite av varje

I inledningskapitlet har vi visat att det behövs kunskaper i matematik och statistik för att beskriva och förstå biologiska fenomen och processer. Matematik har en hierarkisk struktur där varje nivå bygger på tidigare nivåer. Det är därför viktigt med en solid grund och vi börjar följaktligen våra matematiska studier med en repetition av viktiga baskunskaper från tidigare skolkurser. Detta ger oss också tillfälle att komplettera med lite nytt material.

2.1

Räkneregler

Vi läser text från vänster till höger, men matematik styrs av ett antal konventioner som gör att vi inte alltid utför matematiska operationer i den ordningen. I exempelvis uttrycket 3 + 7 · 5 ska multiplikationen utföras före additionen med 38 som resultat. Detta beror på konventionen att multiplikation och division har högre prioritet än addition och subtraktion. Om avsikten var att additionen av 3 och 7 skulle utföras innan summan multiplicerades med 5, så måste vi ange detta med hjälp av parenteser genom att skriva (3 + 7) · 5. Uttryck inom parentes beräknas först, och finns det flera parentesuttryck inuti varandra beräknar vi det innersta först. Multiplikation och division har inbördes samma prioritet, och detsamma gäller för addition och subtraktion. Om flera operationer av samma prioritet förekommer i följd så utför man dem från vänster till höger. Exempelvis är 6/2 · 3 lika med 3 · 3, dvs. 9, och inte lika med 6/6, dvs. 1. Vill vi vara extra tydliga kan vi alltid sätta ut parenteser − ett parentespar för mycket gör inte någon skada. Däremot kan det vara katastrofalt att utelämna nödvändiga parenteser. Var alltså noga med parenteserna och tappa inte bort dem under räkningarnas gång! Normalt utelämnar man produkttecknet · mellan två tal när så kan ske utan missförstånd. Om a och b står för två tal skriver man således ab och 7a istället för a · b respektive 7 · a.


2012-02-24 – sida 30 – # 40

30

KAPITEL 2 LITE AV VARJE

Observera att minustecknet − används i två betydelser: för att bilda negativa tal som exempelvis −7 och för subtraktion som i 9 − 3. De båda betydelserna knyts samman av att −7 = 0 − 7, och rent allmänt är förstås −a = 0 − a för alla reella tal a. Det är naturligtvis viktigt att behärska räkning med negativa tal. Här följer de fundamentala reglerna: −(−a) = a, a + (−b) = a − b, (−a) · b = a · (−b) = −(a · b), (−a) · (−b) = a · b. Konkreta exempel på ovanstående regler är −(−7) = 7, 7 + (−9) = −2, 5 · (−7) = −35, (−3)(−5) = 15. Räkneoperationerna addition och multiplikation kopplas samman genom följande s.k. distributiva lag: (a + b)c = ac + bc. Eftersom ordningen mellan faktorerna i en produkt är oväsentlig (liksom ordningen mellan termerna i en summa), är förstås också c(a + b) = ca + cb. Genom att använda ovanstående distributiva lag flera gånger kan vi multiplicera ihop summor. Exempelvis är (a + b)(c + d) = (a + b)c + (a + b)d = ac + bc + ad + bd. Ett viktigt specialfall är att de båda parentesuttrycken är identiska; då får vi (a + b)2 = (a + b)(a + b) = (a + b)a + (a + b)b = aa + ba + ab + bb = a2 + 2ab + b2 . Detta resultat brukar kallas kvadreringsregeln. Det finns också en motsvarande kvadreringsregel för differenser; genom att i uttrycket ovan byta talet b mot −b får vi nämligen (a − b)2 = (a + (−b))2 = a2 + 2a(−b) + (−b)2 = a2 − 2ab + b2 . Konjugatregeln bevisar vi också genom att multiplicera ihop parentesuttryck med hjälp av den distributiva lagen: (a + b)(a − b) = aa − ab + ba − bb = a2 − b2 .


2012-02-24 – sida 31 – # 41

2.2 POTENSER

31

Kvadreringsreglerna och konjugatregeln bör man absolut lära sig utantill. Vi sammanfattar dem därför i följande sats. SATS 2.1 (KVADRERINGS- OCH KONJUGATREGLERNA)

Följande räkneregler gäller: (a + b)2 = a2 + 2ab + b2 , (a − b)2 = a2 − 2ab + b2 , (a + b)(a − b) = a2 − b2 .

Övningar

2.1 Beräkna

a) (2 − 9)(5 − 8),

b) 4 · (9 − 2) − 3(5 − 7)/2. 24 360 2.2 Förkorta så långt som möjligt följande uttryck: a) , b) . 36 960 2.3 Två studenter som är slarviga med att sätta ut parenteser skriver: a) 5 − 7 · 3 + 4 = −2,

b) 5 − 7 · 3 + 4 = −44.

Hjälp dem att få rätt svar genom att i vardera uttrycket sätta ut ett parentespar på lämpligt ställe. 2.4 Förenkla följande uttryck så långt som möjligt: 1/a + 1/b (a2 − b2 )3 a) , b) , 1/ab (a + b)2 (a − b)4 d) (1/a + 1/b)(a2 b − ab2 ).

c)

(a/b − b/a)2 , (1/a + 1/b)2

2.5 Utveckla (a + b + c)2 som en summa av termer. 2.6 Multiplicera ihop följande uttryck: a) (2x + 3)(2x − 3),

b) (x − 3)(x2 + 3x + 9).

2.7 Faktorisera följande uttryck: a) x2 − 36,

2.2

b) 4x2 − 49,

c) x2 − 10x + 25,

d) 4x2 + 4x + 1.

Potenser

”Det dunkelt sagda är det dunkelt tänkta” lyder en rad i en dikt av Esaias Tegnér. Vad du inte klart kan formulera vet du inte. Detta gäller inte minst inom matematiken, och därför är det viktigt med en enkel och ändamålsenlig notation. Försök att multiplicera två tal skrivna på latinsk form, t.ex. CCCLXVII och MDCCXII, utan att först konvertera dem till vanlig decimalform, så inser du nog varför algebra och ekvationslösning inte började utvecklas på allvar här i västerlandet förrän på 1500-talet,


2012-02-24 – sida 32 – # 42

32

KAPITEL 2 LITE AV VARJE

då man mer allmänt började övergå till decimalsystemet och använda våra nuvarande symboler för de aritmetiska operationerna. En sådan beteckningsmässig ”upptäckt” var potenser, dvs. det förenklade sättet att skriva produkten av ett tal med sig självt ett antal gånger. Istället för 10 gånger 10 skriver vi 102 , istället för 10 gånger 10 gånger 10 skriver vi 103 . Detta gäller förstås också för andra tal än 10. Om a är ett godtyckligt reellt tal och n är ett positivt heltal, så betecknar an produkten a · a · · · · · a av n stycken faktorer a. Talet an kallas en a-potens; a är potensens bas och n är dess exponent. Om du experimenterar en smula med potenser upptäcker du snart ett antal räkneregler för potenser. Vi har 103 · 102 = 10 · 10 · 10 · 10 · 10 = 105 = 103+2 , som är ett exempel på den generella räkneregeln am · an = am+n , medan 103 /102 = (10 · 10 · 10)/(10 · 10) = 10 = 103−2 är ett exempel på räkneregeln am = am−n . an Men vad händer i det sistnämnda fallet om talet n är större än eller lika med talet m? I så fall blir ju m − n ett negativt heltal eller noll, och vi har (ännu) inte sagt vad som ska menas med ak i de fall då exponenten k är noll eller negativ. Nu gör man det som är så vanligt i matematik − när något begrepp inte är definierat i en viss situation försöker man utvidga begreppets definition på ett sådant sätt att redan giltiga lagar även gäller för den nya situationen. Ofta går det bara på ett sätt. Exempelvis är a2 /a2 = (a·a)/(a·a) = 1. Om vi vill att räknelagen am /an = am−n också ska gälla i fallet m = n = 2 måste vi därför definiera a0 som talet 1. Men då blir a0 /a3 = 1/a3 , så vi måste definiera a−3 som 1/a3 om vi vill att räknelagen am /an = am−n också ska gälla för m = 0 och n = 3. Överväganden av ovannämnt slag gör att man för godtyckliga tal a 6= 0 och heltalsexponenter n utvidgar potensbegreppet an genom att definiera a0 = 1

och

an = 1/a−n

om n är ett negativt heltal. Det är sedan enkelt att verifiera att följande räkneregler gäller för godtyckliga heltal m, n och godtyckliga reella, nollskilda tal a, b: am+n = am an ,

am−n = am /an ,

(am )n = amn ,

(ab)n = an bn .


2012-02-24 – sida 33 – # 43

2.2 POTENSER

33

När vi väl kommit så långt vill vi också gärna göra ytterligare en utvidgning så att potensen ar också blir definierad för godtyckliga rationella tal r, dvs. tal som kan skrivas som r = m/n med ett heltal m som täljare och ett positivt heltal n som nämnare. Vad bör vi exempelvis mena med 101/3 ? Jo, om vi vill att potenslagen (am )n = amn ska gälla även i fallet m = 13 och n = 3, så måste vi tydligen kräva att (101/3 )3 = 10, dvs. att 101/3 ska vara en lösning till ekvationen x3 √ = 10. Denna √3 1/3 ekvation har ju en unik positiv rot, nämligen 10, så därför är 10 = 3 10. Resonemanget kan naturligtvis generaliseras. För godtyckliga positiva reella tal a och positiva heltal n definieras a1/n =

√n

a,

√ där n a är den unika positiva roten till ekvationen xn = a. Nästa steg blir att definiera √ am/n = (a1/n )m = ( n a)m , √ så att exempelvis 105/3 = ( 3 10)5 . Nu är potenserna ar definierade för alla positiva reella tal a och alla rationella exponenter r = m/n, och man kan visa att potenslagarna gäller för godtyckliga rationella exponenter, dvs. att räknereglerna ar+s = ar as ,

ar−s = ar /as ,

(ar )s = ars ,

(ab)r = ar br

gäller för alla positiva reella tal a, b och alla rationella tal r, s. Det återstår nu endast att definiera ar då exponenten√r är ett godtyckligt reellt tal. Alla reella tal är ju inte rationella, exempelvis är talet √ 2 irrationellt, så vi har ännu inte talat om vad som ska menas med exempelvis 10 2 . Men varje reellt tal r kan approximeras med godtycklig noggrannhet av rationella tal genom att vi√tar med fler och fler decimaler i talets decimalutveckling. Exempelvis approximeras 2 med allt större noggrannhet av de rationella talen 1,4, 1,41, √ 1,414, 1,4142, 1,41421 osv. som fås genom att hugga av decimalutvecklingen av 2 efter en, två, tre, fyra, fem eller fler decimaler. För att definiera ar för ett godtyckligt reellt tal r kan man alltså välja en följd r1 , r2 , r3 , . . . av rationella tal som approximerar r allt bättre och sedan hoppas på att motsvarande följd ar1 , ar2 , ar3 , . . . närmar sig något bestämt tal, som vi då kallar ar . Metoden fungerar, och man kan visa att potenslagarna ovan nu gäller för godtyckliga reella exponenter r och s. Att i detalj genomföra denna procedur är emellertid ganska krångligt och ingenting som vi behöver ge oss in på här. Vi kommer dock att återkomma till problematiken i samband med att vi studerar exponentialfunktionen och i detta sammanhang visa ett alternativt sätt att definiera potenser för godtyckliga exponenter.


2012-02-24 – sida 34 – # 44

34

KAPITEL 2 LITE AV VARJE

Övningar

2.8 Förenkla följande uttryck så långt som möjligt: a) (a4 )−3 + (a−6 )2 + 2a7 a−19 ,

b) (25 )2 − (25 )2 ,

c)

410 411 + 9 − 26 . 47 4

2.9 Beräkna värdet av 2a4 + 3a3 + 4a + 2 + a−1 + 5a−2 om a) a = 10,

b) a = −5,

c) a = −2,

d) a = 1,

e) a = 2−2 .

c) 27 2/3 ,

d) 32−1,2 ,

e) 42,5 .

2.10 Beräkna följande potenser: a) 251/2 ,

b) 0,491/2 ,

2.11 Förenkla följande uttryck så långt som möjligt: 3n+4 4n+1 6n+4 a) n−1 , b) 2n−1 , c) n+5 n+2 , 3 2 2 3 a1/3 , e) a1/2 · a1/4 , f) a−1/2 · a1/3 , g) a1/4 √ a3 b−5 c4 i) (ab3 )3/2 , j) (a b)6 , k) −2 −9 3 . a b c

2.3

d)

(2n+2 )3 , 8n+4

h) (a−3 )−4 ,

Andragradsekvationen

En ekvation av typen Ax2 + Bx + C = 0, där A, B och C är givna tal − ekvationens koefficienter − och x är den obekanta storheten som ska bestämmas, kallas en andragradsekvation. Lösningsmetoden för andragradsekvationer, som varit känd sedan antiken, utgår från kvadreringsregeln x2 + 2ax + a2 = (x + a)2 . Genom att flytta över termen a2 till högerledet erhåller vi likheten x2 + 2ax = (x + a)2 − a2 . Byt sedan ut a mot a/2 samt addera b till båda sidor och vi har erhållit identiteten x2 + ax + b = (x + a/2)2 − a2 /4 + b.

(2.1)

Denna metod att skriva om ett andragradspolynom i variabeln x som summan av kvadraten på en linjär term och ett tal kallas för kvadratkomplettering och är en teknik som kommer till användning i många sammanhang. Som framgår av följande exempel ger den oss direkt lösningsformeln för andragradsekvationen.


2012-02-24 – sida 35 – # 45

2.3 ANDRAGRADSEKVATIONEN

35

EXEMPEL 2.1

Vi ska lösa ekvationen x2 + 6x + 4 = 0 och antar att vi inte kan lösningsformeln för andragradsekvationens rötter. Med hjälp av kvadratkomplettering skriver vi om ekvationens vänsterled som x2 + 6x + 4 = x2 + 2 · 3x + 4 = x2 + 2 · 3x + 32 − 32 + 4 = (x + 3)2 − 32 + 4 = (x + 3)2 − 5. Vår ursprungliga ekvation kan därför skrivas på formen (x + 3)2 − 5 = 0, och överflyttning av femman till högerledet samt kvadratrotsutdragning ger nu (x + 3)2 = 5 p x+3=± 5 x = −3 ±

p

5.

√ √ Ekvationen har med andra ord de två rötterna −3 + 5 och −3 − 5. Metoden i föregående exempel fungerar generellt och ger oss formeln för andragradsekvationens rötter. En allmän andragradsekvation har formen Ax2 + Bx + C = 0, där koefficienten A är skild från noll. Genom att dividera ekvationen med A kan vi överföra den på formen x2 + ax + b = 0 (med a = B/A och b = C/A). Med hjälp av likheten (2.1) reduceras sedan ekvationen till (x + a/2)2 − a2 /4 + b = 0. Överflyttning av termer till högerledet ger nu fortsättningsvis (x + a/2)2 = a2 /4 − b q x + a/2 = ± a2 /4 − b q x = −a/2 ± a2 /4 − b. Sammanfattningsvis har vi därmed härlett följande resultat:


2012-02-24 – sida 36 – # 46

36

KAPITEL 2 LITE AV VARJE

SATS 2.2 (ANDRAGRADSEKVATIONENS RÖTTER)

Andragradsekvationen x2 + ax + b = 0 har rötterna q q x = −a/2 − a2 /4 − b och x = −a/2 + a2 /4 − b.

Övningar

2.12 Kvadratkomplettera följande uttryck: b) x2 + 4x + 5,

a) x2 − 10x,

c) x2 + x + 1.

2.13 Lös följande andragradsekvationer: a) x2 − 4x + 3 = 0, d) (x + 2)(x − 3) = 0,

b) x2 − 2x − 3 = 0, e) x2 + 10x + 25 = 0.

c) 6x2 − 5x + 1 = 0,

2.14 Lös ekvationen x2 − 4x − 5 = 0, och skriv därefter x2 − 4x − 5 som en produkt av två förstagradsfaktorer. 2.15 Lös ekvationen 6x2 + x − 1 = 0, och skriv därefter 6x2 + x − 1 som en produkt av förstagradsfaktorer.

2.4

Absolutbelopp

Med absolutbeloppet |a| av ett reellt tal menas talet a självt ifall det är positivt eller noll och talet −a ifall det är negativt. Med formler lyder definitionen så här: ( |a| =

a om a ≥ 0

−a

om a < 0.

Exempelvis är alltså |13| = 13, |0| = 0 och |− 12 | = 21 . EXEMPEL 2.2

Om x är ett tal och |x| = 3, så är x antingen lika med 3 eller lika med −3. Olikheten |x| > 3 är uppfylld för alla positiva tal x som är större än 3 och för alla negativa tal x som är mindre än −3. Och olikheten |x| < 3 gäller för alla x i intervallet −3 < x < 3.


2012-02-24 – sida 37 – # 47

2.5 SUMMOR

37

Absolutbeloppet av ett nollskilt tal är ett positivt tal. Och om d är ett positivt tal, så är tydligen . likheten |x| = d ekvivalent med påståendet att x = d eller x = −d; . olikheten |x| > d ekvivalent med påståendet att x > d eller x < −d; . olikheten |x| < d ekvivalent med olikheten −d < x < d. För absolutbeloppet av en produkt ab av två tal gäller att |ab| = |a||b|. Exempelvis är |(−3) · 5| = |−15| = 15 = 3 · 5 = |−3||5|. Notera i detta sammanhang att beloppet av en summa inte alltid är lika med summan av beloppen. Detta visas t.ex. av att |7 + (−9)| = |−2| = 2

medan

|7| + |−9| = 7 + 9 = 16.

Däremot gäller alltid den s.k. triangelolikheten |a + b| ≤ |a| + |b|. Vi får, som läsaren lätt kan kontrollera, likhet i triangelolikheten när a och b har samma tecken, dvs. när båda talen är positiva eller båda är negativa, och när ett av talen är noll. Om a och b har olika tecken råder sträng olikhet i triangelolikheten. Övningar

2.16 För vilka tal x gäller följande ekvationer och olikheter? a) |x − 3| = 2, d) |x − 8| ≥ 2,

2.5

b) |x − 3| = 7, e) |3x − 9| = 6,

c) |x − 1| < 5, f) |x + 1| + |x − 1| = 6.

Summor

Vi kommer ibland att behöva bilda summor som innehåller många termer. För den skull behövs det ett bekvämt sätt att skriva sådana summor. Anta att a1 , a2 , . . . , an är P n stycken tal. Då representerar symbolen ni=1 ai summan av alla dessa tal, dvs. n X

ai = a1 + a2 + · · · + an .

i=1

P Summationssymbolen är en förstorad version av den grekiska bokstaven Σ (versalt sigma), som i det latinska alfabetet motsvaras av S, första bokstaven i summa. P Bokstaven i i uttrycket ni=1 ai kallas summationsindex och kan bytas mot vilken annan bokstav som helst.


2012-02-24 – sida 38 – # 48

38

KAPITEL 2 LITE AV VARJE

EXEMPEL 2.3

Anta att vi vill ha ett uttryck för summan av de 7 första kvadrattalen 1, 4, 9, 16, 25, 36 och 49. Då behöver vi först en allmän formel för kvadrattalen, och den är förstås i2 eftersom 1 = 12 , 4 = 22 , 9 = 32 osv. De sju aktuella kvadrattalen får vi P genom att låta i vara 1, 2, . . . , 7. Summan kan således skrivas 7i=1 i2 . Summationsindex i en summa behöver inte nödvändigtvis starta med i = 1. Summan av kvadrattalen från och med 64 (= 82 ) till och med 10 000 (= 1002 ) kan vi P 2 således skriva som 100 i=8 i . Ibland, när det är självklart mellan vilka gränser summationen ska gå, bryr man sig inte om att skriva ut summationsgränserna. Givet n tal som ska summeras kan vi P P skriva ai istället för ni=1 ai för att spara plats i formler. Övningar

2.17 Skriv följande summor utan summationssymbol och beräkna dem: 5 6 10 X X X 1 1 a) k(k − 1), b) i, c) − . k k+1 k=1

i=3

k=1

2.18 Skriv följande summor med summationssymbol: a) 1 + 21 + 13 + · · · + 1n , b) 23 + 43 + 63 + 83 + 103 . 2.19 Skriv medelvärdet av de tio talen a1 , a2 , . . . , a10 med summationssymbol.

2.6

Komplexa tal

Komplexa tal spelar visserligen bara en marginell roll i den här boken, men det hör till allmänbildningen att veta lite om dem, och de kommer att dyka upp i kapitel 18. Därför går vi här mycket kortfattat igenom hur man räknar med dem. För alla reella tal a utom talet 0 är kvadraten a2 ett positivt tal. Därför saknar exempelvis andragradsekvationen x2 = −3 reella lösningar, och följaktligen existerar √ inte heller kvadratroten −3 som reellt tal. Matematiker tycker emellertid inte om undantag. Alla andragradsekvationer (och ekvationer av högre grad) ska ha lösningar, och finns det inga reella sådana återstår det bara att försöka utvidga talbegreppet så att ekvationerna får lösningar med hjälp av de nya talen. Det visar sig finnas en enkel lösning på problemet; vi inför en ny symbol i med egenskapen att i2 = −1

(2.2)

och deklarerar sedan att alla uttryck av typen a + bi, där a och b är reella tal, är nya tal. Som räkneregler för addition, subtraktion, multiplikation och division för dessa


2012-02-24 – sida 39 – # 49

2.6 KOMPLEXA TAL

39

nya komplexa tal använder vi samma regler som gäller för reella tal kompletterade med regeln (2.2). Detta betyder exempelvis att (2 + 3i) + (4 − 5i) = 2 + 4 + 3i − 5i = 6 − 2i och att (2 + 7i)(3 + 5i) = 2 · 3 + 2 · 5i + 7i · 3 + 7 · 5i2 = 6 + 10i + 21i + 35(−1) = 6 − 35 + 31i = −29 + 31i. Allmänt är (a + bi) + (c + di) = (a + c) + (b + d)i och (a + bi)(c + di) = (ac − bd) + (ad + bc)i. Det komplexa talet a − bi sägs vara konjugerat till det komplexa talet a + bi. En konsekvens av konjugatregeln är att (a + bi)(a − bi) = a2 − b2 i2 = a2 + b2 , dvs. produkten av två konjugerade komplexa tal är ett reellt tal (som är positivt utom i fallet a = b = 0). Detta faktum använder vi för att beräkna kvoten av två komplexa tal − vi förlänger helt enkelt det aktuella bråket med nämnarens konjugat, som följande exempel visar. EXEMPEL 2.4

10 + 5i (10 + 5i)(3 − 4i) 10 · 3 − 10 · 4i + 5 · 3i − 5 · 4i2 = = 3 + 4i (3 + 4i)(3 − 4i) 32 + 42 =

30 − 40i + 15i + 20 50 − 25i 50 25 = = − i = 2 − i. 25 25 25 25

De komplexa talen kan ges en mycket konkret geometrisk tolkning som punkter eller som vektorer i ett plan, det komplexa talplanet. I planet inför vi ett vanligt rätvinkligt koordinatsystem och kallar den horisontella axeln för reella axeln och den vertikala axeln för imaginära axeln. På den reella axeln avsätter vi på vanligt sätt de reella talen, medan vi på den imaginära axeln väljer talet i som enhet och avsätter talen bi. Detta gör att vi nu kan identifiera det komplexa talet a+bi med punkten med koordinaterna (a, b) alternativt med vektorn från origo till denna punkt. Se figur 2.1.


2012-02-24 – sida 40 – # 50

40

KAPITEL 2 LITE AV VARJE

Imaginära axeln

4 + 4i

1 + 2i i · (1 + 2i)

3 + 2i

i 1

Reella axeln

Figur 2.1. Komplexa talplanet, med illustration

av addition samt av multiplikation med i.

I det komplexa talplanet svarar addition av komplexa tal mot vanlig vektoraddition. Tolkningen av multiplikation är något mer komplicerad, men multiplikation med i svarar mot 90 graders vridning kring origo. p Längden av vektorn från origo till punkten med koordinaterna (a, b) är lika med a2 + b2 ; denna längd kallas för beloppet av det komplexa talet a + bi och betecknas |a + bi|. Genom införandet av komplexa tal blir varje ekvation x2 = c lösbar; för negativa √ reella tal c får ekvationen rötterna ± −c i. Formeln för en allmän andragradsekvations rötter fungerar därför också i de fall då talet under rottecknet är negativt. Varje andragradsekvation har således två rötter (förutsatt att vi räknar eventuella dubbelrötter två gånger). EXEMPEL 2.5

Ekvationen x2 + 4x + 7 = 0 har rötterna p p p x = −2 ± 22 − 7 = −2 ± −3 = −2 ± 3 i. Att varje andragradsekvation blir lösbar är en direkt följd av definitionen i2 = −1 och sättet att definiera de komplexa talen. Mirakulöst nog får också alla algebraiska ekvationer av högre grad lösningar. Beviset för att så är fallet är emellertid långt ifrån trivialt och faller utanför ramen för den här framställningen. Övningar

2.20 Beräkna

a) (3 + 4i)(5 − 2i),

2.21 Lös ekvationen x2 − 6x + 25 = 0.

b) (4 − 3i)2 ,

c)

1+i , 1−i

d) |3 + 4i|.


2012-02-24 – sida 41 – # 51

2.7 RÄTA LINJENS EKVATION

2.7

41

Räta linjens ekvation

Den enklast tänkbara kurvan är den räta linjen och förvånansvärt många biologiska samband kan beskrivas med just räta linjer, ibland efter det att man först gjort en enkel transformation av data. Det är därför förstås viktigt att kunna beskriva räta linjer analytiskt och i det här avsnittet ska vi repetera hur det går till. Vi förutsätter att vi har ett givet plant koordinatsystem och betraktar linjer som ligger i koordinatplanet. Vi måste till att börja med särskilja två fall; linjer som är parallella med y-axeln och linjer som inte är det. En linje som är parallell med y-axeln karakteriseras av att dess punkter har samma x-koordinat. Linjer som är parallella med y-axeln består därför av alla punkter vars koordinater (x, y) satisfierar en ekvation av typen x = a,

(2.3)

vilket vi kallar den aktuella linjens ekvation. Varje linje som inte är parallell med y-axeln skär denna i en punkt A och linjen x = 1 i en punkt B. Låt oss kalla y-koordinaterna för dessa båda punkter för m respektive m + k. Se figur 2.2. Talet k är ett mått på linjens lutning; om k > 0 lutar linjen snett uppåt höger och ju större k, desto brantare lutning, om k = 0 är linjen parallell med x-axeln, och om k < 0 lutar linjen snett nedåt höger. Talet k kallas därför för linjens lutningskoefficient eller riktningskoefficient.

P

y

(x, y)

B

m+k m A

B0

P0

1

x

Figur 2.2. Härledning av räta linjens ekvation.

Betrakta nu en godtycklig punkt P med koordinaterna (x, y). Punkten P ligger på linjen om och endast om trianglarna ABB 0 och AP P 0 i figur 2.2 är likformiga, och i så fall är motsvarande sidor proportionella, vilket innebär att y−m k = . x 1 Detta är i sin tur förstås detsamma som att y − m = kx, vilket ger oss sambandet y = kx + m.

(2.4)

Detta är det villkor som koordinaterna för en punkt ska uppfylla för att ligga på den aktuella linjen. Vi kallar därför ekvation (2.4) för linjens ekvation.


2012-02-24 – sida 42 – # 52

42

KAPITEL 2 LITE AV VARJE

Vi kan beskriva våra två fall med en enda ekvation, nämligen ekvationen Ax + By + C = 0,

(2.5)

där minst en av koefficienterna A och B ska vara skild från noll. Ekvation (2.3) är det specialfall av ekvation (2.5) som fås genom att välja A = 1, B = 0 och C = −a, medan (2.4) fås för A = k, B = −1 och C = m. Omvänt kan vi alltid övergå från ekvation (2.5) till endera av de båda ekvationerna (2.3) och (2.4). Ifall B = 0 får vi en ekvation av typen (2.3) genom att dividera ekvation (2.5) med A, och om B 6= 0 får vi istället en ekvation av typen (2.4) genom att först dividera med B och sedan flytta över termer till högerledet. Parallella linjer har samma lutningskoefficient. Om vi känner en linjes lutningskoefficient k och koordinaterna (x1 , y1 ) för en punkt på linjen, men inte y-koordinaten m för linjens skärningspunkt med y-axeln, så är ändå talet m bestämt av kravet att koordinaterna (x1 , y1 ) ska satisfiera ekvationen y = kx + m. Detta ger oss villkoret y1 = kx1 + m, och genom att subtrahera den sistnämnda ekvationen från ekvationen ovanför eliminerar vi m och erhåller efter förenkling ekvationen y − y1 = k(x − x1 ),

(2.6)

som således är den givna linjens ekvation. Ofta är en linje given på så sätt att vi känner koordinaterna (x1 , y1 ) och (x2 , y2 ) för två punkter P1 resp. P2 på linjen. Se figur 2.3. y

P2 (x2 , y2 ) B k

A

y2 − y1

B0 x

1 P1 (x1 , y1 )

x2 − x1

P20

(x2 , y1 )

Figur 2.3. Härledningen av räta linjens ekvation

då två punkter på linjen är kända.

Eftersom triangeln P1 P2 P20 är likformig med triangeln ABB 0 , som per definition bestämmer lutningen k, får vi k=

y2 − y1 . x2 − x1


2012-02-24 – sida 43 – # 53

2.7 RÄTA LINJENS EKVATION

43

Vi kan nu använda oss av att vi känner lutningskoefficienten k och en punkt (x1 , y1 ) på linjen för att med hjälp av ekvation (2.6) dra slutsatsen att linjens ekvation är y − y1 =

y2 − y1 (x − x1 ). x2 − x1

Nästa sats sammanfattar de olika varianterna av räta linjens ekvation. SATS 2.3 (RÄTA LINJENS EKVATION)

Den allmänna formen för en rät linjes ekvation är Ax + By + C = 0, där minst en av koefficienterna A och B är skild från noll. Om linjen skär y-axeln i punkten (0, m) och har lutningskoefficient k, så kan linjens ekvation skrivas y = kx + m. Ekvationen för den räta linjen med lutningskoefficient k genom punkten (x1 , y1 ) är y − y1 = k(x − x1 ). Linjen genom punkterna (x1 , y1 ) och (x2 , y2 ) har ekvationen y − y1 =

y2 − y1 (x − x1 ). x2 − x1

Övningar

2.22 Bestäm riktningskoefficienten för linjen 3x + 5y − 6 = 0. 2.23 Bestäm ekvationen för linjen genom punkterna (1, 5) och (−2, − 1). 2.24 Bestäm skärningspunkten mellan linjerna y = 2x − 1 och y = 7x + 9. 2.25 Bestäm ekvationen för den linje genom punkten (1, 2) som är parallell med linjen y = −x + 4. 2.26 a) Bestäm ekvationen för den linje som är parallell med linjen y = x − 1 och går genom punkten (2, 5). b) Var skär den i a) erhållna linjen x- respektive y-axeln? 2.27 I vilka punkter skär linjen y = 2x + 3 kurvan y = x2 ?


2012-02-24 – sida 44 – # 54

44

KAPITEL 2 LITE AV VARJE

2.8

Grafer

Grafer är visuella hjälpmedel för att organisera, presentera, tolka och analysera data. Att skapa en graf av ett givet datamaterial är inte enbart en ren översättningsuppgift utan kräver att data arrangeras på lämpligt sätt och att viktiga faktorer sorteras från mindre viktiga sådana. För att tolka grafer letar vi efter samband mellan datapunkter i grafen eller mellan datapunkter och en markerad axel. Genom extrapolering och interpolering, som kan anses vara utvidgning av tolkning, kan vi upptäcka trender och dra slutsatser av datamaterialet. En väldokumenterad komponent i förståelsen är användning av frågestrategier, och man kan identifiera tre förståelsenivåer: en elementär nivå som fokuserar på att extrahera data från en graf, en mellannivå som karakteriseras av interpolering och att hitta samband i datauppsättningen som visas i grafen, och en avancerad nivå som kräver extrapolering från data och analys av implicita samband i grafen. Dessa tre nivåer kan också beskrivas som att läsa data, att läsa mellan data och att läsa bortom data. Den tredje nivån är den som ställer störst krav på läsaren. Förståelse av en graf kan således definieras som läsarens förmåga att hämta mening från grafer som skapats av andra eller av läsaren själv. Tre faktorer som påverkar förståelsen av grafer är skälet att använda grafer, uppgiftens egenskaper och läsarens egenskaper. Den första av dessa faktorer, skälet att använda grafer, delas vanligtvis i två klasser: analys och kommunikation. Grafer som används för dataanalys fungerar som upptäckarverktyg i de tidiga stadierna av dataanalys när användaren förväntas göra något vettigt av data. Den andra faktorn, uppgiftens egenskaper, har att göra med spridning och variation inom en datauppsättning, slaget av data och det sätt en representation ger struktur i data. Dessa egenskaper kan påverka förståelsen av grafer liksom graden av abstraktion. Den slutliga faktorn, läsarens egenskaper, får naturligtvis olika stor betydelse beroende på vanan och kunskapen i att läsa grafer. Det finns dock inget som säger att mått på allmän intelligens kan förklara skillnader i tolkning av information presenterad i grafer. I det här avsnittet ska vi beskriva några olika sätt att presentera data grafiskt. En viktig faktor för valet av typ av graf är om datamängden är diskret eller kontinuerlig. En diskret datamängd består av ett antal ”spridda” värden, vilket inte nödvändigtvis innebär att mängden är ändlig, men om den är oändlig ska varje datapunkt ha ett ”avstånd” till övriga datapunkter, och en diskret variabel är en variabel som antar sina värden i en diskret mängd. Exempel på diskreta datamängder är mängden ”blodgrupper”, mängden ”svenska län” och mängden av alla heltal. Som exempel på kontinuerliga datamängder kan vi välja ”temperaturen under ett dygn”, alla tal i ett intervall och alla punkter i en rektangel.


2012-02-24 – sida 45 – # 55

2.8 GRAFER

45

Stolp- och stapeldiagram

Data i frekvenstabeller med relativt få kolumner visualiseras lämpligen med stolpdiagram. Anta att vi har undersökt 100 individer med avseende på deras blodgrupp och räknat hur många som har respektive blodgrupp. Efter gruppering fick vi följande resultat. Blodgrupp

A

B

AB

0

Antal

42

14

6

38

Frekvens

På en x-axel avsätter vi blodgrupperna och låter sedan varje blodgrupps frekvens representeras av en stapel vars höjd är proportionell mot frekvensen. På y-axeln anges frekvensen eller alternativt den relativa frekvensen, som är frekvensen dividerad med totala antalet observationer i materialet. I det aktuella fallet får vi stolpdiagrammet i figur 2.4. 50 40 30 20 10 0 A

B

AB

0

Blodgrupp Figur 2.4. Frekvenser av blodgrupper

bland 100 undersökta individer.

Om man gör staplarna i stolpdiagrammet bredare brukar diagrammet kallas ett stapeldiagram. Vi får tänka på att inte låta staplarna vara dikt an vid varandra eftersom stapeldiagrammet då skulle kunna missförstås som ett histogram (se nedan). Ett stapeldiagram kan ha staplar som består av flera delstaplar. Stapelns höjd är då summan av de mindre delstaplarna. En viss försiktighet är dock på sin plats eftersom sådana diagram kan vara svåra att läsa. Delstaplarna måste ges färg eller tydlig skraffering för att man ska kunna läsa av delstaplarnas bidrag till hela stapeln. Ett stapeldiagram kan också ha grupperingar av staplar, exempelvis om vi ville illustrera frekvensen av blodgrupper på olika platser i världen. Då kan varje plats få en grupp av fyra staplar, gärna med olika färger eller skrafferingar. Ett stapeldiagram kan visas både stående och liggande. En fördel med ett liggande diagram är att det är lättare att få plats för text intill staplarna. Det kan exempelvis vara en förklarande text som skulle vara svårt att få med på axlar eller i figurtexten.


2012-02-24 – sida 46 – # 56

46

KAPITEL 2 LITE AV VARJE

Anta nu att hälften av de 100 undersökta individerna i vår blodgruppsundersökning var kvinnor och att blodgrupperna fördelade sig på kvinnor och män enligt följande tabell. Blodgrupp

A

B

AB

0

Antal kvinnor Antal män

20 22

8 6

4 2

18 20

Resultatet av undersökningen skulle då kunna illustreras av det liggande stapeldiagrammet i figur 2.5.

Blodgrupp

0 AB

Kvinnor

B

Män

A 0

10

20

30

40

50

Frekvens Figur 2.5. Frekvenser av blodgrupper bland 50 undersökta

kvinnor och 50 undersökta män.

Linjediagram

Anta att vi har mätt temperaturen vid en viss tid på dagen under en vecka och fått följande observationer: Veckodag Temp

(◦ C)

Mån

Tis

Ons

Tors

Fre

Lör

Sön

15

15

16

14

10

15

20

I det här fallet har vi en principiellt kontinuerlig variabel, temperaturen, men med diskreta observationer. Om temperaturen hade registrerats kontinuerligt under veckan skulle resultatet blivit en kontinuerlig temperaturkurva i ett koordinatsystem med tiden som x-axel. Våra diskreta observationer kan förstås fortfarande prickas in i ett sådant koordinatsystem och för att göra diagrammet lättare att avläsa förbinder vi sedan punkterna med räta linjer. Resultatet blir ett linjediagram (se figur 2.6). Observera dock att man inte kan läsa av temperaturen mellan två punkter i diagrammet; linjerna mellan punkterna är bara hjälplinjer. Om vi ska ha vertikala och horisontella stödlinjer är en smaksak. Gör de diagrammet lättare att läsa är de förstås bra.


2012-02-24 – sida 47 – # 57

Temperatur (◦ C)

2.8 GRAFER

47

20 18 16 14 12 10 8 6 4 2 0 Mån Tis Ons Tors Fre Lör Sön

Veckodag Figur 2.6. Temperatur under en vecka, där

observationerna är diskreta men variabeln kontinuerlig.

Histogram

En lämplig presentationsform för datamaterial som innehåller många och olika värden är histogrammet. Det bygger på att man först klassindelar materialet och beräknar frekvensen för varje klass, och sedan på en tallinje för varje klass ritar en rektangel vars area är proportionell mot frekvensen i klassen. Antalet klasser bör vara någonstans mellan fem och tjugo, och klassbredden bör, om möjligt, vara densamma för alla klasser. Då blir rektangelarean proportionell mot höjden, vilket underlättar tolkningen av diagrammet. Observationer som hamnar på en klassgräns måste på ett systematiskt sätt föras till en av de båda angränsande klasserna, antingen den till vänster eller den till höger. Vi kan undvika detta dilemma genom att välja våra klassgränser så att de inte sammanfaller med någon av observationerna. Det gör vi genom att lägga dem mitt emellan tänkbara observationsvärden. Om exempelvis observationerna erhållits genom mätningar i hela centimeter och klassbredden är 10 cm, är det fördelaktigt att lägga klassgränserna i 99,5, 109,5, 119,5 osv. En jämn tiotalsobservation, t.ex. 110, som erhållits genom avrundning och därför kan vara vilket tal x som helst i intervallet 109,5 < x < 110,5, hamnar då automatiskt i rätt klass. Figur 2.7 visar ett histogram över en mätning av det systoliska blodtrycket i mmHg hos 320 patienter. Eftersom blodtrycket i undersökningen varierade mellan 100 och 240 och har mätts i hela mmHg vore det här olämpligt att redovisa resultatet i form av ett stolpdiagram, som då skulle kunna bestå av 141 stolpar. Med en klassbredd om 20 mmHg får vi sju klasser, vilket är idealiskt. Skalan på y-axeln visar hur många patienter som ingår i varje klass. Om vi bara har tillgång till histogrammet men inte till det ursprungliga datamaterialet så kan vi förstås inte beräkna medelvärde och standardavvikelse exakt, men vi



Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.