Korrelation och regressionsanalys

I det här avsnittet ska vi titta närmare på de båda besläktade begreppen korrelation och regressionsanalys. Med hjälp av dessa begrepp kan vi finna samband i serier av observationsvärden, som vi i sin tur kan använda för att få en bättre förståelse för de fenomen som vi undersöker i olika sammanhang.

Korrelation

Vi bestämmer oss för att göra en undersökning där vi den första måndagen i varje månad under ett helt års tid räknar antalet personer på en tågperrong mellan klockan 9 och 10. När året är slut så sammanställer vi resultaten i en tabell enligt nedan.

Månad jan feb mar apr maj jun jul aug sep okt nov dec
Antal människor 20 100 105 97 205 158 79 122 180 116 99 86

I ett spridningsdiagram låter man den ena variabeln, kallad den förklarande variabeln, finnas längs x-axeln, och den andra variabeln, responsvariabeln, finnas längs y-axeln. I vårt exempel är vilken månad det är den förklarande variabeln och antalet räknade personer på perrongen responsvariabeln. För varje tillgängligt värde på den förklarande variabeln markerar vi in dess motsvarande värde för responsvariabeln (i vårt fall är till exempel ett av värdena på den förklarande variabeln "mars" och motsvarande värde på responsvariabeln 105 personer).Utifrån denna serie observationsvärden kan vi sedan undersöka om det finns något samband mellan vilken månad det är och antalet personer som befunnit sig på perrongen. Detta gör vi inledningsvis genom att rita in våra observationsvärden i ett spridningsdiagram.

Markerar vi på detta sätt varje par av värden på den förklarande variabeln och responsvariabeln i ett spridningsdiagram, så ser det i vårt exempel ut på följande sätt:

Korrelation 01

Utifrån ett spridningsdiagram kan man sedan få en uppfattning om huruvida det finns något samband, eller korrelation, mellan den förklarande variabeln och responsvariabeln.

Om observationsvärdena som man har markerat i spridningsdiagrammet ligger samlade runt en tänkt linje med positiv lutning, så säger man att det finns en positiv korrelation mellan den förklarande variabeln och responsvariabeln. Detta är fallet för serien som markerats i diagrammet nedan.

Korrelation 02

Om de observationsvärden som man markerat däremot ligger samlade runt en tänkt linje med en negativ lutning, så kallar man detta en negativ korrelation mellan den förklarande variabeln och responsvariabeln, vilket vi ser ett exempel på i diagramet nedan.

Korrelation 03

I ett fall som vårt exempel i början av avsnittet, där det varken verkar finnas en positiv eller negativ korrelation mellan variablerna, säger man att korrelation saknas och vi kan då dra slutsatsen att det utifrån våra observationsvärden inte tycks finnas något samband mellan vilken månad det är och hur många personer som befinner sig på perrongen.

Något som är viktigt att komma ihåg när vi gör korrelationsundersökningar, är att bara för att det finns en korrelation mellan de variabler vi tittar på, så behöver det inte finnas ett orsakssamband. Med detta menar vi att även om det finns en korrelation mellan variablerna, så kan det finnas någon annan variabel som inte finns med i vår analys, som förklarar varför våra variabler samvarierar.

Om vi till exempel gör en undersökning där vi jämför ålder med förekomst av en viss sjukdom, så kan det vara så att det finns en stark positiv korrelation mellan hur gammal en person är och hur vanligt förekommande sjukdomen är. Dock kan vi inte utan vidare dra slutsatsen att det är hög ålder som orsakat sjukdomen, då det kan finnas andra faktorer som spelar in, till exempel levnadsvanor, förekomst av andra sjukdomar, kostvanor tidigare i livet, etc. Därför bör man vara försiktig med att dra slutsatser om att man funnit ett orsakssamband, när man egentligen bara kan ha funnit en korrelation mellan de studerade variablerna.

Regressionsanalys

Vi kan utifrån ett spridningsdiagram där vi ser ett linjärt samband (antingen positiv eller negativ korrelation) beskriva sambandet med en linjär modell eller med andra ord beskriva sambandet med hjälp av räta linjens ekvation på formen

$$y = kx + m$$

När vi söker efter en linjär modell som beskriver sambandet mellan våra variabler, kallar man detta linjär regression eller regressionsanalys. Vad vi söker är alltså en linje som våra markerade punkter avviker så lite från som möjligt. Har vi ett spridningsdiagram så kan vi för hand rita in en sådan ungefärlig linje och sedan ta reda på linjens k-värde och m-värde, på samma sätt som vi gjort tidigare utifrån kända punkter. Den räta linjens ekvation som vi försöker att komma fram till kallas den mest anpassade ekvationen och är den linje där avvikelsen från de markerade punkterna/mätvärdena i diagrammet är så liten som möjligt.

För att få fram en så exakt linjär anpassning som möjligt, använder man sig till exempel av sådana inbyggda funktioner för att göra linjär regression som finns på många grafritande miniräknare.

När man genom regressionsanalys väl har funnit en ekvation som så gott det går beskriver det statistiska underlag som man har, kan man sedan använda denna linjära modell till att förutse vad man kommer att få för värden vid andra mätpunkter.


Medellängden på svenska barn

I spridningsdiagrammet nedan har vi markerat in medellängden (responsvariabel; längs y-axeln) på svenska barn i åldrarna 1-16 år (den förklarande variabeln; längs x-axeln).

La ̈ngdkurva 01

Som vi kan se så verkar det finnas en positiv linjär korrelation mellan åldern och den genomsnittliga längden. Därför kan vi försöka att hitta en linjär modell för sambandet med hjälp av en linjär regressionsanalys.

Vi börjar med att dra en rät linje som ligger på ett sådant sätt att avvikelsen mellan linjen och punkterna blir så liten som möjligt.

La ̈ngdkurva 02

När vi nu har en rät linje markerad i vårt spridningsdiagram, kan vi, som för vilken annan rät linje som helst, läsa av koordinaterna för två godtyckliga punkter längs linjen. Dessa punkter behöver inte vara någon av de punkter som vi markerat i diagrammet; punkterna längs linjen som vi läser av får även gärna ligga en bra bit ifrån varandra längs linjen, så att eventuella avläsningsfel blir mindre betydelsefulla.

La ̈ngdkurva 03

I spridningsdiagrammet ovan har vi markerat de båda punkterna (4; 102,5) och (15; 172).

När vi väl har funnit koordinaterna för två punkter längs linjen, använder vi dessa för att beräkna lutningen på vår linje:

$$k=\frac{172-102,5}{15-4}=\frac{69,5}{11}\approx6,3$$

I nästa steg beräknar vi räta linjens ekvation i dess helhet, med hjälp av antingen k-formen eller enpunktsformen.

Vi använder oss här av k-formen, sätter in de kända koordinaterna för en av punkterna längs linjen och får ut konstanttermen m:

$$y=kx+m$$

$$172=\frac{69,5}{11}\cdot 15+m$$

$$m=172-\frac{69,5\cdot 15}{11}\approx77$$

När vi nu känner till värdet på såväl riktningskoefficienten k som konstanttermen m, har vi vår sökta räta linjes ekvation:

$$y=6,3x+77$$

Detta är alltså det linjära samband som vi har funnit mellan ålder, x, och genomsnittlig längd, y, utifrån vårt statistiska material.

Som vi skrev tidigare så kan man använda en linjär regression för att förutse framtida värden, det vill säga i vårt exempel vilken längd barn i allmänhet kommer att ha vid olika åldrar. Vi kan utifrån det linjära sambandet förutse ungefär hur lång en 13-åring är:

$$y(13)=6,3\cdot 13+77=158,9\,cm$$

En linjär regression, om analysen har utförts rätt, stämmer väl i det intervall vi undersökt och ofta även en bit utanför detta, men ju längre bort från det intervall vi fått den linjära regressionen ifrån, desto sämre fungerar ofta modellen. Skulle vi använda vår linjära modell ovan för att ta reda på hur lång en 50-åring är, så får vi det till

$$y(50)=6,3\cdot 50+77=392\,cm$$

En 50-åring av normallängd skulle enligt den här modellen alltså vara ca 3,92 meter lång, vilket visar på att modellen inte är tillämpbar på vuxna människor (eftersom människor normalt slutar att växa på längden i 18-20årsåldern).

Det är även troligt att vår linjära modell är dålig på att förutse riktigt unga barns längd, till exempel då barnet är nyfött, det vill säga 0 år gammalt (vilket vi även kan ana oss till om vi tittar i spridningsdiagrammet för åldern 1 år). Enligt vår modell bör ett 0 år gammalt barn ha en längd på 77 cm, men i själva verket är genomsnittslängden för nyfödda barn ca 50 cm.


Videolektion

Regrissionsanalys samt genomgång av korrelation

Hjälpmedel

Här används grafräknaren Casio FX-CG20.
Se samma uppgift med grafräknaren Casio FX-9750GII.

Grafräknare av andra fabrikat har ungefär motsvarande funktionalitet.

Har du en fråga du vill ställa om Korrelation och regressionsanalys? Ställ den på Pluggakuten.se!
Har du kommentarer till materialet på den här sidan? Mejla feedback@matteboken.se!