Wat houdt een z-score in?
Een z-score of z-waarde geeft aan hoeveel standaardafwijkingen een specifieke waarde binnen een dataset van het gemiddelde af ligt. Het is een gestandaardiseerde maat die aangeeft hoe ver een observatie van het gemiddelde afwijkt, uitgedrukt in eenheden van de standaardafwijking. Z-scores zijn vooral bruikbaar bij gegevens die normaal verdeeld zijn.
Waar wordt een z-score voor gebruikt?
Een z-score is handig om de positie van een specifieke waarde binnen een dataset te bepalen ten opzichte van het gemiddelde. Z-scores worden veel gebruikt wanneer men data wil normaliseren of vergelijken, bijvoorbeeld bij het identificeren van uitschieters of bij het omzetten van scores naar percentielen. Door gegevens te standaardiseren met z-scores, kun je snel de relatieve positie en betekenis van data binnen een dataset begrijpen.
Berekening z-score
De formule voor de berekening van een z-score heeft de vorm:
X = de waarde waarover de z-score wordt berekend.
μ = het gemiddelde van alle waarden van X
σ = de standaardafwijking
Er zijn verschillende methoden om een standaardafwijking te berekenen, waarbij Swing twee varianten onderscheidt:
Steekproefstandaardafwijking
De steekproefstandaardafwijking wordt gebruikt bij een steekproef uit een grotere populatie om een schatting van de spreiding van de populatie te maken. Door te delen door n - 1 (de Bessel-correctie), wordt gecorrigeerd voor de bias die ontstaat bij een steekproef. Swing gebruikt deze berekeningsmethode bij numerieke onderwerpen en bij onderwerpen met datatype percentage (mean), percentage (sum) of mean waarbij geen aggregatieonderwerp is gedefinieerd.
De formule voor de steekproefstandaardafwijking wordt hieronder toegelicht.
De steekproefstandaardafwijking is de wortel √ van de som ∑ van de kwadraten van de verschillen tussen elke waarneming X en het gemiddelde van alle waarnemingen μ, gedeeld door het totaal aantal waarnemingen n - 1. In onderstaande tabel wordt de berekening van de z-score stap voor doorlopen.
A | B = X | C = μ | D = B-C | E = D*D | F = E / (n-1) | G = √ F | H = D/G |
gebied | waarde | gemiddelde | Xi - X̄ | (Xi - X̄)² | σ² | σ | z-score |
Noord | 10% | 25% | -15% | 225 | 75 | -1,16 | |
Oost | 20% | 25% | -5% | 25 | 8,33 | -0,39 | |
Zuid | 30% | 25% | 5% | 25 | 8,33 | 0,39 | |
West | 40% | 25% | 15% | 225 | 75 | 1,16 | |
Totaal/gemiddeld | 25% | 166,66 | 12,91 |
Gewogen steekproefstandaardafwijking
De gewogen steekproefstandaardafwijking wordt gebruikt om een gewicht te koppelen aan de waarden waarover de z-score wordt berekend. Met deze methode krijgt een gebied met bijvoorbeeld een grote populatie een groter aandeel in de berekening van de z-score dan een gebied met een kleine populatie. Swing Viewer gebruikt deze berekeningsmethode bij onderwerpen met datatype mean, percentage (sum) en percentage (mean). Het ingestelde aggregatieonderwerp in Studio (aggregation indicator) staat aan de basis van de berekening van de z-score.
Om een gewogen steekproefstandaardafwijking te berekenen is een gewogen gemiddelde (X̄) nodig die als volgt wordt berekend:
Het gewogen gemiddelde wordt berekend door de som van de gewogen waarden te delen door de som van de gewichten.
De formule om de gewogen standaardafwijking te berekenen ziet er als volgt uit en wordt samen met het gewogen gemiddelde in onderstaande tabel stap voor stap toegelicht om tot de z-score te komen.
De gewogen steekproefstandaardafwijking wordt berekend door eerst de gewogen variantie te bepalen en vervolgens de wortel hiervan te nemen. De gewogen variantie wordt verkregen door de kwadraten van de afwijkingen van elk datapunt ten opzichte van het gewogen gemiddelde te nemen, deze afwijkingen te vermenigvuldigen met hun respectieve gewichten, en daarna het totaal te delen door de som van de gewichten. Vervolgens is de gewogen steekproefstandaardafwijking de wortel van deze gewogen variantie.
A | B = Xi | C = wi | D = B*C | E = D/C | F = B-E | G = F*F | H = G*C | I = H/(C-1) | J = √ I | K = F/J |
gebied | waarde | weging | wi * Xi | X̄ | Xi - X̄ | (Xi - X̄)² | wi * (Xi - X̄)² | σ² | σ | z-score |
Noord | 10% | 200 | 2.000 | -18,57% | 345 | 68.980 | -1,75 | |||
Oost | 20% | 300 | 6.000 | -8,57% | 73 | 22.041 | -0,81 | |||
Zuid | 30% | 400 | 12.000 | -1,43% | 2 | 816 | 0,13 | |||
West | 40% | 500 | 20.000 | -11,43% | 131 | 65.306 | 1,08 | |||
Totaal | 1.400 | 40.000 | 28,57 | 157.143 | 112,33 | 10,60 |
N.B. voor de leesbaarheid van deze tabel zijn absolute waarden afgerond op hele getallen en percentages en scores op twee decimalen. Swing rekent altijd met de onafgeronde waarden.
Andere basisperiode
In Swing Viewer kan ook voor een andere basisperiode worden gekozen om de z-score te berekenen. In onderstaande tabel wordt de berekening voor de steekproefstandaardafwijking die Swing in deze situatie maakt stap voor stap nagebootst.
A | B = 2023 | C = 2024 | D = 2023 | E = D-B | F = E*E | G = F / (n-1) | H = √ G | I = C-D | J = I/H |
gebied | waarde | waarde | gemiddeld | Xi - X̄ | (Xi - X̄)² | σ² | σ | z-score | |
Noord | 5% | 10% | 12,5% | 7,5 | 56,25 | 18,75 | -2,5 | -0,39 | |
Oost | 10% | 20% | 12,5% | 2,5 | 6,25 | 2,08 | -7,5 | 1,16 | |
Zuid | 15% | 30% | 12,5% | -2,5 | 6,25 | 2,08 | 17,5 | 2,71 | |
West | 20% | 40% | 12,5% | -7,5 | 56,25 | 18,75 | 27,5 | 4,26 | |
Totaal | 41,67 | 6,45 |
Bij een andere basisperiode is het verschil (kolom E) en de standaardafwijking (kolom H) gebaseerd op de basisperiode (kolom B) om de z-score voor de geselecteerde periode (kolom C) te berekenen.
Voorbeeldbestand
In de Excel bijlage zijn bovenstaande voorbeelden op aparte tabbladen uitgewerkt om eenvoudig de berekening zelf te maken.
Was dit artikel nuttig?
Dat is fantastisch!
Hartelijk dank voor uw beoordeling
Sorry dat we u niet konden helpen
Hartelijk dank voor uw beoordeling
Feedback verzonden
We stellen uw moeite op prijs en zullen proberen het artikel te verbeteren