Detta avsnitt ingår i matematik 2b och matematik
2c.
I det förra avsnittet om lägesmått använde vi oss av ett exempel med
en släktmiddag som familjen Mattecentrum anordnade. Åldrarna på de
närvarande personerna vid släktmiddagen var

En person som inte var med på släktmiddagen var Mattias, som
istället var på middag med ett antal vänner. Åldern på de 15
personer som var med vid Mattias middag var som följer:

Vi jämför lägesmåtten vad gäller åldern på personerna i dessa
båda grupper. Då ser vi att medelvärdet och medianen för släktmiddagen
är


För personerna som deltog vid kompismiddagen blir lägesmåtten
följande:

Tittar vi bara på dessa lägesmått så ser det inte ut som att det
var så stor skillnad mellan åldrarna vid de två tillställningarna,
utom möjligtvis att gruppen som närvarade vid kompismiddagen verkar
aningen äldre om man jämför medelvärdena. Vi som dock har sett
åldrarna som förekommer i de två grupperna vet att det är stor
skillnad på spridningen av åldrarna mellan de två
grupperna - vid släktmiddagen är spridningen stor, medan
spridningen vid kompismiddagen är mindre.
För att kunna jämföra två eller flera serier av
observationsvärden har man därför infört olika
spridningsmått. Genom dessa kan man få en mer
rättvisande bild av hur olika serier av värden ser ut och hur stor
spridningen är i de olika serierna. I det här avsnittet ska vi
därför gå igenom begreppen variationsbredd,
kvartiler och lådagram, för att i nästa
avsnitt titta närmare på standardavvikelse som ett mått på hur
mycket värden avviker från medelvärdet i en serie.
Variationsbredd
Ett enkelt mått på spridning i en serie observationsvärden är
variationsbredd, som definieras som skillnaden
(differensen) mellan det största och det minsta observationsvärdet
i serien.
I vårt exempel med släktmiddagen får vi variationsbredden vad
gäller ålder genom att subtrahera den högsta förekommande åldern
(72 år) och den lägsta (1 år), det vill säga:

På samma sätt beräknar vi variationsbredden vad gäller ålder vid
kompismiddagen, där den högsta åldern var 36 år och den lägsta 28
år. Vi får i detta fall variationsbredden

Som vi ser så får vi väldigt olika värden på variationsbredden i
de båda grupperna, vilket ju beror på att åldersspridningen är
mycket större vid släktmiddagen än vid kompismiddagen.
Variationsbredden är alltså mycket enkel att räkna ut, men detta
mått har nackdelen att det inte tar hänsyn till alla
observationsvärdena, utan enbart det största och det minsta värdet.
För att få en bättre bild av spridningen använder man därför även
andra spridningsmått.
Kvartiler
Ett bättre sätt att beskriva spridningen runt medianen är att
dela in observationsvärdena i kvartiler. Kvartil
betyder fjärdedel och dessa kvartiler kommer vi fram till genom att
dela in våra storlekssorterade observationsvärden i fyra lika stora
grupper.
Det finns fem viktiga värden att hålla koll på när vi ska dela
in våra observationsvärden i kvartiler:
Det högsta värdet och det lägsta
värdet, som är de mest extrema observationsvärdena vi har åt
vardera hållet i serien. Dessa motsvarar alltså det största och det
minsta värdet som vi använde då vi räknade ut variationsbredden
tidigare i avsnittet.
Vi behöver även känna till medianen, som ju delar våra
storlekssorterade observationsvärden i två lika stora delar.
De två sista värdena som vi måste ta reda på är den nedre
kvartilen, som delar de lägre 50 % av värdena i två lika
stora delar, och den övre kvartilen, som delar upp de
högre 50 % av värdena i två lika stora delar. Detta innebär att 25
% av våra observationsvärden kommer att vara mindre än den nedre
kvartilen och 75 % av observationsvärdena kommer att vara mindre än
den övre kvartilen.
Ofta betecknar man den nedre kvartilen som
Q1, medianen som
Q2 och den övre kvartilen som
Q3.
Vi visar hur dessa viktiga värden förhåller sig till
observationsvärdena i figuren nedan.

När vi nu har gått igenom definitionerna av dessa begrepp kan vi
beräkna dessa fem värden för våra två middagssällskap:

Skillnaden mellan den övre och den nedre kvartilen kallas för
kvartilavståndet. Detta motsvarar variationsbredden för de 50 % av
värdena som befinner sig i mitten av serien av observationsvärden.
Därigenom är kvartilavståndet ett mått på hur stor spridningen är i
närheten av medianen.
Kvartilavståndet för deltagarnas ålder vid släktmiddagen får vi
genom denna definition till

På motsvarande sätt beräknar vi kvartilavståndet för deltagarnas
ålder vid kompismiddagen till

Lådagram
Med hjälp av de begrepp rörande kvartiler som vi har
introducerat ovan kan vi åskådliggöra spridningen runt medianen med
hjälp av lådagram.
Ett lådagram ritas på en tallinje och består av en låda
(rektangel) vars vänstra respektive högra sida befinner sig vid den
nedre respektive den övre kvartilen. Observationsvärdenas
medianvärde är även markerat med en vertikal linje inuti
lådagrammet. Från lådans respektive sidor sträcker sig en vågrät
linje ut till det största respektive lägsta observationsvärdet i
serien.
Nedan har vi ritat ett lådagram för värden i intervallet 1
(lägsta värdet) till och med 21 (högsta värdet). I detta exempel är
medianen 11, nedre kvartilen 6 och övre kvartilen 16.

På motsvarande sätt kan vi presentera observationsvärdena från
vår undersökning av åldern på deltagarna vid släktmiddagen
respektive kompismiddagen med hjälp av följande två lådagram:

Nu kan vi tydligt se att även om deltagarna vid de båda
middagarna hade samma medianålder (33 år) så är det stor skillnad i
spridningen av åldrar.
Percentiler
På motsvarande sätt som man kan dela upp observationsvärden i
fjärdedelar (kvartiler) kan man även dela upp stora serier av
observationsvärden i hundradelar. Gör man en uppdelning i
hundradelar benämner man dessa hundradelar som
percentiler.
Specifika percentiler benämner man på ett liknande sätt som
kvartiler. Till exempel motsvarar den nedre kvartilen,
Q1, den 25:e percentilen, som vi
betecknar P25 (alltså att 25 % av
observationsvärdena ska vara mindre än detta värde). På motsvarande
sätt kan man beteckna medianen som P50
och övre kvartilen som P75.
Eftersom vårt observationsmaterial från de båda middagarna är så
pass litet (15 observationsvärden i vardera fallet) är det mer
lämpligt att använda sig av kvartiler än percentiler. Hade vi haft
en serie bestående av ett större antal observationsvärden, till
exempel om man gjorde en undersökning av åldern bland tusen
människor, då hade användning av percentiler kunnat vara mer
användbar.
I nästa avsnitt ska vi fortsätta att undersöka hur man kan ange
spridningen i serier av observationsvärden, genom användning av
måttet standardavvikelse.