Detta avsnitt ingår i matematik 2b och matematik
2c.
I det här avsnittet ska vi titta närmare på de båda besläktade
begreppen korrelation och
regressionsanalys. Med hjälp av dessa begrepp kan vi
finna samband i serier av observationsvärden, som vi i sin tur kan
använda för att få en bättre förståelse för de fenomen som vi
undersöker i olika sammanhang.
Korrelation
Vi bestämmer oss för att göra en undersökning där vi den första
måndagen i varje månad under ett helt års tid räknar antalet
personer på en tågperrong mellan klockan 9 och 10. När året är slut
så sammanställer vi resultaten i en tabell enligt nedan.

Utifrån denna serie observationsvärden kan vi sedan undersöka om
det finns något samband mellan vilken månad det är och antalet
personer som befunnit sig på perrongen. Detta gör vi inledningsvis
genom att rita in våra observationsvärden i ett
spridningsdiagram.
I ett spridningsdiagram låter man den ena variabeln, kallad den
förklarande variabeln, finnas längs
x-axeln, och den andra variabeln,
responsvariabeln, finnas längs y-axeln. I
vårt exempel är vilken månad det är den förklarande variabeln och
antalet räknade personer på perrongen responsvariabeln. För varje
tillgängligt värde på den förklarande variabeln markerar vi in dess
motsvarande värde för responsvariabeln (i vårt fall är till exempel
ett av värdena på den förklarande variabeln "mars" och motsvarande
värde på responsvariabeln 105 personer).
Markerar vi på detta sätt varje par av värden på den förklarande
variabeln och responsvariabeln i ett spridningsdiagram, så ser det
i vårt exempel ut på följande sätt:

Utifrån ett spridningsdiagram kan man sedan få en uppfattning om
huruvida det finns något samband, eller korrelation,
mellan den förklarande variabeln och responsvariabeln.
Om observationsvärdena som man har markerat i
spridningsdiagrammet ligger samlade runt en tänkt linje med
positiv lutning, så säger man att det finns en
positiv korrelation mellan den förklarande variabeln
och responsvariabeln. Detta är fallet för serien som markerats i
diagrammet nedan.

Om de observationsvärden som man markerat däremot ligger samlade
runt en tänkt linje med en negativ lutning, så kallar
man detta en negativ korrelation mellan den
förklarande variabeln och responsvariabeln, vilket vi ser ett
exempel på i diagramet nedan.

I ett fall som vårt exempel i början av avsnittet, där det
varken verkar finnas en positiv eller negativ korrelation mellan
variablerna, säger man att korrelation saknas och vi
kan då dra slutsatsen att det utifrån våra observationsvärden inte
tycks finnas något samband mellan vilken månad det är och hur många
personer som befinner sig på perrongen.
Något som är viktigt att komma ihåg när vi gör
korrelationsundersökningar, är att bara för att det finns en
korrelation mellan de variabler vi tittar på, så behöver det inte
finnas ett orsakssamband. Med detta menar vi att även
om det finns en korrelation mellan variablerna, så kan det finnas
någon annan variabel som inte finns med i vår analys, som förklarar
varför våra variabler samvarierar.
Om vi till exempel gör en undersökning där vi jämför ålder med
förekomst av en viss sjukdom, så kan det vara så att det finns en
stark positiv korrelation mellan hur gammal en person är och hur
vanligt förekommande sjukdomen är. Dock kan vi inte utan vidare dra
slutsatsen att det är hög ålder som orsakat sjukdomen, då det kan
finnas andra faktorer som spelar in, till exempel levnadsvanor,
förekomst av andra sjukdomar, kostvanor tidigare i livet, etc.
Därför bör man vara försiktig med att dra slutsatser om att man
funnit ett orsakssamband, när man egentligen bara kan ha funnit en
korrelation mellan de studerade variablerna.
Regressionsanalys
Vi kan utifrån ett spridningsdiagram där vi ser ett linjärt
samband (antingen positiv eller negativ korrelation) beskriva
sambandet med en linjär modell eller med andra ord beskriva
sambandet med hjälp av räta linjens ekvation på formen

När vi söker efter en linjär modell som beskriver sambandet
mellan våra variabler, kallar man detta linjär
regression eller regressionsanalys. Vad
vi söker är alltså en linje som våra markerade punkter avvikter så
lite från som möjligt. Har vi ett spridningsdiagram så kan vi för
hand rita in en sådan ungefärlig linje och sedan ta reda på linjens
k-värde och m-värde, på samma sätt som vi
gjort tidigare utifrån kända punkter. Den räta linjens ekvation som
vi försöker att komma fram till kallas den mest anpassade
ekvationen och är den linje där avvikelsen från de markerade
punkterna/mätvärdena i diagrammet är så liten som möjligt.
För att få fram en så exakt linjär anpassning som möjligt,
använder man sig till exempel av sådana inbyggda funktioner för att
göra linjär regression som finns på många grafritande
miniräknare.
När man genom regressionsanalys väl har funnit en ekvation som
så gott det går beskriver det statistiska underlag som man har, kan
man sedan använda denna linjära modell till att förutse vad man
kommer att få för värden vid andra mätpunkter.
Regressionsanalys - exempel
I spridningsdiagrammet nedan har vi markerat in medellängden
(responsvariabel; längs y-axeln) på svenska barn i
åldrarna 1-16 år (den förklarande variabeln; längs
x-axeln).

Som vi kan se så verkar det finnas en positiv linjär korrelation
mellan åldern och den genomsnittliga längden. Därför kan vi försöka
att hitta en linjär modell för sambandet med hjälp av en linjär
regressionsanalys.
Vi börjar med att dra en rät linje som ligger på ett sådant sätt
att avvikelsen mellan linjen och punkterna blir så liten som
möjligt.

När vi nu har en rät linje markerad i vårt spridningsdiagram,
kan vi, som för vilken annan rät linje som helst, läsa av
koordinaterna för två godtyckliga punkter längs linjen. Dessa
punkter behöver inte våra någon av de punkter som vi markerat i
diagrammet; punkterna längs linjen som vi läser av får även gärna
ligga en bra bit ifrån varandra längs linjen, så att eventuella
avläsningsfel blir mindre betydelsefulla.

I spridningsdiagrammet ovan har vi markerat de båda punkterna
(4; 102,5) och (15; 172).
När vi väl har funnit koordinaterna för två punkter längs
linjen, använder vi dessa för att beräkna lutningen på vår
linje:

I nästa steg beräknar vi räta linjens ekvation i dess helhet,
med hjälp av antingen k-formen eller
enpunktsformen.
Vi använder oss här av k-formen, sätter in de kända
koordinaterna för en av punkterna längs linjen och får ut
konstanttermen m:

När vi nu känner till värdet på såväl riktningskoefficienten
k som konstanttermen m, har vi vår sökta
räta linjes ekvation:

Detta är alltså det linjära samband som vi har funnit mellan
ålder, x, och genomsnittlig längd, y,
utifrån vårt statistiska material.
Som vi skrev tidigare så kan man använda en linjär regression
för att förutse framtida värden, det vill säga i vårt exempel
vilken längd barn i allmänhet kommer att ha vid olika åldrar. Vi
kan utifrån det linjära sambandet förutse ungefär hur lång en
13-åring är:

En linjär regression, om analysen har utförts rätt, stämmer väl
i det intervall vi undersökt och ofta även en bit utanför detta,
men ju längre bort från det intervall vi fått den linjära
regressionen ifrån, desto sämre fungerar ofta modellen. Skulle vi
använda vår linjära modell ovan för att ta reda på hur lång en
50-åring är, så får vi det till

En 50-åring av normallängd skulle enligt den här modellen alltså
vara ca 3,92 meter lång, vilket visar på att modellen inte är
tillämpbar på vuxna människor (eftersom människor normalt slutar
att växa på längden i 18-20årsåldern).
Det är även troligt att vår linjära modell är dålig på att
förutse riktigt unga barns längd, till exempel då barnet är nyfött,
det vill säga 0 år gammalt (vilket vi även kan ana oss till om vi
tittar i spridningsdiagrammet för åldern 1 år). Enligt vår modell
bör ett 0 år gammalt barn ha en längd på 77 cm, men i själva verket
är genomsnittslängden för nyfödda barn ca 50 cm.