Hoe worden z-scores in Swing berekend?

Gewijzigd op Wo, 4 Jun, 2025 om 5:56 PM

Wat houdt een z-score in?

Een z-score of z-waarde geeft aan hoeveel standaardafwijkingen een specifieke waarde binnen een dataset van het gemiddelde af ligt. Het is een gestandaardiseerde maat die aangeeft hoe ver een observatie van het gemiddelde afwijkt, uitgedrukt in eenheden van de standaardafwijking. Z-scores zijn vooral bruikbaar bij gegevens die normaal verdeeld zijn.

Welke waarden worden meegenomen in de berekening?

Bij het berekenen van een z-score worden uitsluitend bekende waarden in de dataset gebruikt. Onbekende, lege of niet-gespecificeerde waarden worden genegeerd en tellen niet mee in het bepalen van het gemiddelde of de standaardafwijking. Dit betekent dat de z-score altijd gebaseerd is op de beschikbare gegevens, waardoor de berekening robuust blijft in het geval van onvolledige datasets. Dit geldt zowel voor ongewogen als gewogen berekeningen.

Waar wordt een z-score voor gebruikt?

Een z-score is handig om de positie van een specifieke waarde binnen een dataset te bepalen ten opzichte van het gemiddelde. Z-scores worden veel gebruikt wanneer men data wil normaliseren of vergelijken, bijvoorbeeld bij het identificeren van uitschieters of bij het omzetten van scores naar percentielen. Door gegevens te standaardiseren met z-scores, kun je snel de relatieve positie en betekenis van data binnen een dataset begrijpen.

Berekening z-score

De formule voor de berekening van een z-score heeft de vorm:

Formule z-score

X = de waarde waarover de z-score wordt berekend.

μ = het gemiddelde van alle waarden van X

σ = de standaardafwijking

Er zijn verschillende methoden om een standaardafwijking te berekenen, waarbij Swing twee varianten onderscheidt:

Steekproefstandaardafwijking

De steekproefstandaardafwijking wordt gebruikt bij een steekproef uit een grotere populatie om een schatting van de spreiding van de populatie te maken. Door te delen door n - 1 (de Bessel-correctie), wordt gecorrigeerd voor de bias die ontstaat bij een steekproef. Swing gebruikt deze berekeningsmethode bij numerieke onderwerpen en bij onderwerpen met datatype percentage (mean), percentage (sum) of mean waarbij geen aggregatieonderwerp is gedefinieerd

De formule voor de steekproefstandaardafwijking wordt hieronder toegelicht.

Formule steekproefstandaardafwijking

De steekproefstandaardafwijking is de wortel √ van de som ∑ van de kwadraten van de verschillen tussen elke waarneming X en het gemiddelde van alle waarnemingen μ gedeeld door het totaal aantal waarnemingen n - 1. In onderstaande tabel wordt de berekening van de z-score stap voor doorlopen.

A	B = X	C = μ	D = B-C	E = D*D	F = E / (n-1)	G = √ F	H = D/G
gebied	waarde	gemiddelde	Xi - X̄	(Xi - X̄)²	σ²	σ	z-score
Noord	10%	25%	-15%	225	75		-1,16
Oost	20%	25%	-5%	25	8,33		-0,39
Zuid	30%	25%	5%	25	8,33		0,39
West	40%	25%	15%	225	75		1,16
Totaal/gemiddeld	25%				166,66	12,91

Gewogen steekproefstandaardafwijking

De gewogen steekproefstandaardafwijking wordt gebruikt om een gewicht te koppelen aan de waarden waarover de z-score wordt berekend. Met deze methode krijgt een gebied met bijvoorbeeld een grote populatie een groter aandeel in de berekening van de z-score dan een gebied met een kleine populatie. Swing Viewer gebruikt deze berekeningsmethode bij onderwerpen met datatype mean, percentage (sum) en percentage (mean). Het ingestelde aggregatieonderwerp in Studio (aggregation indicator) staat aan de basis van de berekening van de z-score.

Om een gewogen steekproefstandaardafwijking te berekenen is een gewogen gemiddelde (X̄) nodig die als volgt wordt berekend:

Formule gewogen gemiddelde

Het gewogen gemiddelde wordt berekend door de som van de gewogen waarden te delen door de som van de gewichten.

De formule om de gewogen standaardafwijking te berekenen ziet er als volgt uit en wordt samen met het gewogen gemiddelde in onderstaande tabel stap voor stap toegelicht om tot de z-score te komen.

De gewogen steekproefstandaardafwijking wordt berekend door eerst de gewogen variantie te bepalen en vervolgens de wortel hiervan te nemen. De gewogen variantie wordt verkregen door de kwadraten van de afwijkingen van elk datapunt ten opzichte van het gewogen gemiddelde te nemen, deze afwijkingen te vermenigvuldigen met hun respectieve gewichten, en daarna het totaal te delen door de som van de gewichten. Vervolgens is de gewogen steekproefstandaardafwijking de wortel van deze gewogen variantie.

Oost

A	B = Xi	C = wi	D = B*C	E = D/C	F = B-E	G = F*F	H = G*C	I = H/(C-1)	J = √ I	K = F/J
gebied	waarde	weging	wi * Xi	X̄	Xi - X̄	(Xi - X̄)²	wi *Xi - X̄)²	σ²	σ	z-score
Noord	10%	200	2.000		-18,57%	345	68.980			-1,75
Oost	20%	300	6.000		-8,57%	73	22.041			-0,81
Zuid	30%	400	12.000		-1,43%	2	816			0,13
West	40%	500	20.000		-11,43%	131	65.306			1,08
Totaal		1.400	40.000	28,57			157.143	112,33	10,60

N.B. voor de leesbaarheid van deze tabel zijn absolute waarden afgerond op hele getallen en percentages en scores op twee decimalen. Swing rekent altijd met de onafgeronde waarden.

Andere basisperiode

In Swing Viewer kan ook voor een andere basisperiode worden gekozen om de z-score te berekenen. In onderstaande tabel wordt de berekening voor de steekproefstandaardafwijking die Swing in deze situatie maakt stap voor stap nagebootst.

A	B = 2023	C = 2024	D = 2023	E = D-B	F = E*E	G = F / (n-1)	H = √ G	I = C-D	J = I/H
gebied	waarde	waarde	gemiddeld	Xi - X̄	(Xi - X̄)²	σ²	σ		z-score
Noord	5%	10%	12,5%	7,5	56,25	18,75		-2,5	-0,39
Oost	10%	20%	12,5%	2,5	6,25	2,08		-7,5	1,16
Zuid	15%	30%	12,5%	-2,5	6,25	2,08		17,5	2,71
West	20%	40%	12,5%	-7,5	56,25	18,75		27,5	4,26
Totaal						41,67	6,45

Bij een andere basisperiode is het verschil (kolom E) en de standaardafwijking (kolom H) gebaseerd op de basisperiode (kolom B) om de z-score voor de geselecteerde periode (kolom C) te berekenen.

Voorbeeldbestand

In de Excel bijlage zijn bovenstaande voorbeelden op aparte tabbladen uitgewerkt om eenvoudig de berekening zelf te maken.

Bijlagen (1)

xlsx

Berekening z-scores.xlsx
14.6 KB