4 veel gebruikte dispersiemaatregelen

Er zijn vier veelgebruikte maatregelen om de variabiliteit (of spreiding) aan te geven binnen een reeks maatregelen. Dit zijn: 1. Bereik 2. Kwartielafwijking 3. Gemiddelde afwijking 4. Standaardafwijking.

Maatregel # 1. Bereik:

Bereik is het interval tussen de hoogste en de laagste score. Bereik is een maat voor de variabiliteit of verstrooiing van de variaties of waarnemingen onderling en geeft geen idee over de spreiding van de waarnemingen rond een bepaalde centrale waarde.

Symbolisch R = Hs - Ls. Waar R = bereik;

Hs is de 'Hoogste score' en Ls is de laagste score.

Berekening van bereik (niet-gegroepeerde gegevens):

Voorbeeld 1:

De scores van tien jongens in een test zijn:

17, 23, 30, 36, 45, 51, 58, 66, 72, 77.

Voorbeeld 2:

De scores van tien meisjes in een test zijn:

48, 49, 51, 52, 55, 57, 50, 59, 61, 62.

In voorbeeld I is de hoogste score 77 en de laagste score 17.

Dus het bereik is het verschil tussen deze twee scores:

. . . Bereik = 77 - 17 = 60

Op een vergelijkbare manier, in voorbeeld II

Bereik = 62 - 48 = 14

Hier zien we dat de scores van jongens wijdverspreid zijn. Dus de scores van jongens variëren veel, maar de scores van meisjes variëren niet veel (natuurlijk variëren ze minder). De variabiliteit van de scores van jongens is dus groter dan de variabiliteit van de scores van meisjes.

Berekening van bereik (gegroepeerde gegevens):

Voorbeeld 3:

Zoek het gegevensbereik in de volgende distributie:

Oplossing:

In dit geval is de bovenste echte limiet van de hoogste klasse 70-79 Hs = 79, 5 en de onderste echte limiet van de laagste klasse 20-29 is Ls = 19, 5

Daarom is bereik R = Hs - Ls

= 79.5 - 19.5 = 60.00

Bereik is een index van variabiliteit. Als het bereik groter is, is de groep meer variabel. Hoe kleiner het bereik, des te homogener is de groep. Bereik is de meest algemene maat voor 'spread' of 'scatter' van scores (of meetwaarden). Wanneer we de variabiliteit van twee of meer groepen ruw willen vergelijken, kunnen we het bereik berekenen.

Bereik zoals hierboven vergeleken is in een ruwe vorm of is een absolute maat voor dispersie en is ongeschikt ten behoeve van vergelijking, vooral wanneer de reeks in twee verschillende eenheden is. Ter vergelijking wordt de coëfficiënt van het bereik berekend door het bereik te delen door de som van de grootste en de kleinste items.

voordelen:

1. Het bereik kan vrij gemakkelijk worden berekend.

2. Het is een eenvoudigste spreidingsmaatstaf.

3. Het wordt berekend wanneer we een ruwe vergelijking van twee of meer variabiliteitsgrafieken willen maken.

beperkingen:

1. Bereik is niet gebaseerd op alle observaties van de serie. Het houdt alleen rekening met de meest extreme gevallen.

2. Het helpt ons om slechts een ruwe vergelijking te maken tussen twee of meer groepen variabiliteit.

3. Het bereik houdt rekening met de twee extreme scores in een reeks.

Dus wanneer N klein is of wanneer er grote gaten in de frequentieverdeling zijn, is bereik als een maat voor variabiliteit vrij onbetrouwbaar.

Voorbeeld 4:

Scores van groep A - 3, 5, 8, 11, 20, 22, 27, 33

Hier bereik = 33 - 3 = 30

Scores van groep B - 3, 5, 8, 11, 20, 22, 27, 93

Hier bereik = 93 - 3 = 90.

Vergelijk de reeks scores in groep A en groep B. In groep A als een enkele score 33 (de laatste score) is gewijzigd in 93, is het bereik sterk veranderd. Dus een enkele hoge score kan het bereik van laag naar hoog vergroten. Daarom is bereik geen betrouwbare maatstaf voor variabiliteit.

4. Het wordt zeer sterk beïnvloed door fluctuaties in bemonstering. De waarde is nooit stabiel. In een klas waar normaal gesproken de hoogte van de studenten varieert van 150 cm tot 180 cm, als een dwerg, waarvan de hoogte 90 cm is, wordt toegelaten, schiet het bereik omhoog van 90 cm naar 180 cm.

5. Bereik biedt de serie en dispersie niet echt. Asymmetrische en symmetrische verdeling kunnen hetzelfde bereik hebben, maar niet dezelfde spreiding. Het is van beperkte nauwkeurigheid en moet met de nodige voorzichtigheid worden gebruikt.

We mogen echter niet voorbijgaan aan het feit dat bereik een ruwe maatstaf voor verspreiding is en volstrekt ongeschikt voor nauwkeurige en nauwkeurige onderzoeken.

Maatregel # 2. Kwartielafwijking:

Bereik is het interval of de afstand op de meetschaal die 100 procent van de gevallen omvat. De beperkingen van het bereik zijn alleen te wijten aan de afhankelijkheid van de twee uiterste waarden.

Er zijn enkele maten van spreiding die onafhankelijk zijn van deze twee extreme waarden. De meest voorkomende hiervan is de kwartielafwijking die is gebaseerd op het interval dat de middelste 50 procent van de gevallen in een gegeven verdeling bevat.

Kwartielafwijking is de helft van de schaalafstand tussen het derde kwartiel en het eerste kwartiel. Het is het semi-interkwartielbereik van een distributie:

Voordat we de kwartielafwijking opnemen, moeten we de betekenis van kwartalen en kwartielen kennen.

Bijvoorbeeld een testresultaten 20 scores en deze scores zijn gerangschikt in een aflopende volgorde. Laten we de verdeling van scores verdelen in vier gelijke delen. Elk onderdeel presenteert een 'kwartaal'. In elk kwartaal zal er 25% (of 1/4 van N) gevallen zijn.

Omdat de scores in aflopende volgorde zijn gerangschikt,

De top 5 scores zullen in het 1e kwartaal zijn,

De volgende 5 scores zullen in het 2e kwartaal zijn,

De volgende 5 scores zullen in het 3e kwartaal zijn, en

En de laagste 5 scores zullen in het 4e kwartaal zijn.

Met het oog op een betere studie van de samenstelling van een serie, kan het nodig zijn om het te verdelen in drie, vier, zes, zeven, acht, negen, tien of honderd delen.

Gewoonlijk is een reeks verdeeld in vier, tien of honderd delen. Eén artikel verdeelt de reeks in twee delen, drie items in vier delen (kwartielen), negen items in tien delen (decielen) en negenennegentig items in honderd delen (percentielen).

Er zijn dus drie kwartielen, negen decielen en negenennegentig percentielen in een reeks. Het tweede kwartiel of vijfde deciel of het 50e percentiel is de mediaan (zie figuur).

De waarde van het artikel dat de eerste helft van een serie verdeelt (met waarden kleiner dan de mediaan) in twee gelijke delen wordt het eerste kwartiel (Q 1 ) of het onderste kwartiel genoemd. Met andere woorden, Q 1 is een punt waaronder 25% van de gevallen ligt. Vraag 1 is het 25e percentiel.

Het Tweede Kwartiel (Mdn) of het Midden-kwartiel is de mediaan. Met andere woorden, het is een punt waaronder 50% van de scores liggen. Een mediaan is het 50e percentiel.

De waarde van het artikel dat de tweede helft van de reeks (met waarden groter dan de mediaan) verdeelt in twee gelijke delen wordt het derde kwartiel (Q 3 ) of het bovenste kwartiel genoemd. Met andere woorden, Q 3 is een punt waaronder 75% van de scores liggen. Vraag 3 is het 75ste percentiel.

Notitie:

Een student moet een duidelijk onderscheid maken tussen een kwart en een kwartiel. Kwartaal is een bereik; maar kwartiel is een punt op de schaal. Kwartalen zijn genummerd van boven naar beneden (of van de hoogste score tot de laagste score), maar de kwartielen zijn genummerd van onder naar boven.

De kwartielafwijking (Q) is de helft van de schaalafstand tussen het derde kwartiel (Q 3 ) en het eerste kwartiel (Q 1 ):

L = Onderste limiet van de ci waar Q 3 ligt,

3N / 4 = 3/4 of No 75% van N.

F = totaal van alle frequenties onder "L",

fq = Frequentie van de ci waarop Q 3 ligt en i = grootte of lengte van de ci

L = Ondergrens van de ci waar Q 1 ligt,

N / 4 = een vierde (of 25%) van N,

F = totaal van alle frequenties onder "L",

fq = frequentie van de ci waarop Q 1 ligt,

en i = grootte of lengte van ci

Interkwartielbereik:

Het bereik tussen het derde kwartiel en het eerste kwartiel staat bekend als het interkwartielbereik. Symbolisch inter-kwartielafstand = Q 3 - Q 1 .

Semi-interkwartielbereik:

Het is de helft van de afstand tussen het derde kwartiel en het eerste kwartiel.

Dus SI R. = Q 3 - Q 1/4

Q of kwartielafwijking is ook bekend als semi-interkwartielafstand (of SIR)

Dus Q = Q 3 - Q 1/2

Als we de formule van Q 3 en Q 1 vergelijken met de formule van mediaan, zijn de volgende observaties duidelijk:

ik. In het geval van mediaan gebruiken we N / 2, terwijl we voor Q 1 N / 4 gebruiken en voor Q 3 gebruiken we 3N / 4.

ii. In het geval van mediaan gebruiken we fm om de frequentie van ci aan te duiden, waarop de mediaan ligt; maar in het geval van Q 1 en Q 3 gebruiken we fq om de frequentie aan te geven van de ci waarop Q 1 of Q 3 ligt.

Berekening van Q (niet-gegroepeerde gegevens):

Om Q te berekenen, moeten we eerst Q 3 en Q 1 berekenen. Vraag 1 en Q 3 worden op dezelfde manier berekend als we de mediaan berekenden.

De enige verschillen zijn:

(i) in het geval van mediaan we 50% gevallen (N / 2) vanaf de bodem tellen, maar

(ii) in het geval van Q 1 moeten we 25% van de gevallen (of N / 4) van de bodem tellen en

(iii) in het geval van Q3 moeten we 75% van de gevallen (of 3N / 4) van de bodem tellen.

Voorbeeld 5:

Ontdek Q van de volgende scores 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39.

Er zijn 20 scores.

25% van N = 20/4 = 5

Vraag 1 is een punt waaronder 25% van de gevallen ligt. In dit voorbeeld is Q 1 een punt waaronder 5 gevallen liggen. Uit de loutere inspectie van geordende gegevens blijkt dat er onder 24.5 5 gevallen zijn. Dus Qi = 24, 5

Evenzo is Q 3 een punt waaronder 75% van de eases liggen.

75% van N = 3/4 x 20 = 15

We vinden dat hieronder 34, 5, 15 gevallen liggen

Dus Q3 = 34, 5.

In een symmetrische verdeling ligt de mediaan halverwege op de schaal van Q 1 en Q 3 . Daarom geeft de waarde Q 1 + Q of Q 3 - Q de mediaanwaarde. Maar over het algemeen zijn distributies niet symmetrisch en dus zou Q 1 + Q of Q 3 - Q de waarde van de mediaan niet geven.

Berekening van Q (gegroepeerde gegevens):

Voorbeeld 6:

De scores behaald door 36 studenten in een test worden weergegeven in de tabel. Zoek de kwartielafwijking van de scores.

In kolom 1 hebben we het klasseninterval genomen, in kolom 2 hebben we de frequentie genomen en in kolom 3 zijn cumulatieve frequenties vanaf de bodem geschreven.

Hier is N = 36, dus voor Q 1 moeten we N / 4 = 36/4 = 9 gevallen nemen en voor Q 3 nemen we 3N / 4 = 3 x 36/4 = 27 gevallen. Als u kolom 3 bekijkt, wordt cf = 9 opgenomen in ci 55 - 59, waarvan de feitelijke limiet 54, 5 - 59, 5 is. Q1 zou liggen in het interval 54.5 - 59.5.

De waarde van Q 1 moet als volgt worden berekend:

Voor het berekenen van Q 3 wordt cf = 27 opgenomen in ci 65 - 69, waarvan de werkelijke limieten 64 zijn. 5 - 69, 5. Dus Q 3 zou in het interval 64.5 - 69.5 liggen en de waarde ervan moet als volgt worden berekend:

Interpretatie van kwartielafwijking:

Bij het interpreteren van de waarde van de kwartielafwijking is het beter om de waarden van Mediaan, Q 1 en Q 3, samen met Q te hebben. Als de waarde van Q groter is, dan zal de spreiding meer zijn, maar opnieuw hangt de waarde af van de schaal van meting. Twee waarden van Q moeten alleen worden vergeleken als de gebruikte schaal hetzelfde is. Q gemeten voor scores van 20 kan niet direct met Q worden vergeleken voor scores van 50.

Als mediaan en Q bekend zijn, kunnen we zeggen dat 50% van de gevallen tussen 'Median - Q' en 'Median + Q' ligt. Dit zijn de middelste 50% van de gevallen. Hier komen we meer te weten over het bereik van slechts de middelste 50% van de gevallen. Hoe de onderste 25% van de gevallen en de bovenste 25% van de gevallen worden verdeeld, is niet bekend door deze maatregel.

Soms zijn de extreme gevallen of waarden niet bekend, in welk geval het enige alternatief dat beschikbaar is voor ons is om mediaan en kwartielafwijking te berekenen als de maat voor centraal, tendens en spreiding. Via mediaan en kwartielen kunnen we de symmetrie of scheefheid van de verdeling afleiden. Laten we daarom een ​​idee krijgen van symmetrische en scheve verdelingen.

Symmetrische en scheve distributies:

Een verdeling is naar verluidt symmetrisch wanneer de frequenties symmetrisch zijn verdeeld rond de maat van centrale neiging. Met andere woorden, we kunnen zeggen dat de verdeling symmetrisch is als de waarden op gelijke afstand aan de twee zijden van de maat van de centrale neiging gelijke frequenties hebben.

Voorbeeld 7:

Ga na of de gegeven verdeling symmetrisch is of niet.

Hier is de maat voor centrale neiging, zowel als mediaan, 5. Als we beginnen met het vergelijken van de frequenties van de waarden aan de twee zijden van 5, dan vinden we dat de waarden 4 en 6, 3 en 7, 2 en 8, 1 en 9, 0 en 10 hebben hetzelfde aantal frequenties. Dus de verdeling is perfect symmetrisch.

In een symmetrische verdeling zijn het gemiddelde en de mediaan gelijk en liggen mediaan op gelijke afstand van de twee kwartielen, dwz Q 3 - Mediaan = Mediaan - Q 1 .

Als een verdeling niet symmetrisch is, verwijst het afwijken van de symmetrie naar de scheefheid ervan. Skewness geeft aan dat de curve meer naar de ene kant is gedraaid dan de andere. Dus de curve heeft aan één kant een langere staart.

De scheefheid wordt positief genoemd als de langere staart aan de rechterkant zit en er wordt gezegd dat het negatief is als de langere staart zich aan de linkerkant bevindt.

De volgende afbeeldingen tonen het uiterlijk van een positief scheef en negatief scheef curve:

Q 3 - Mdn> Mdn - Q 1 geeft + ve skewness aan

Q 3 - Mdn <Mdn - Q 1 geeft - scheefheid aan

Q 3 - Mdn = Mdn - Q 1 geeft een nulverschuiving aan

Verdiensten van Q:

1. Het is een meer representatieve en betrouwbare maatstaf voor variabiliteit dan het totale bereik.

2. Het is een goede index van de scorendichtheid in het midden van de verdeling.

3. Quartiles zijn handig om de scheefheid van een verdeling aan te geven.

4. Net als de mediaan is Q van toepassing op open-end distributies.

5. Waar mediaan de voorkeur heeft als maat voor de centrale tendens, heeft een kwartielafwijking de voorkeur als maat voor de dispersie.

Beperkingen van Q:

1. Evenals mediane, is de kwartielafwijking echter niet vatbaar voor algebraïsche behandeling, omdat niet alle waarden van de verdeling in aanmerking worden genomen.

2. Het berekent alleen het derde en het eerste kwartiel en spreekt ons over het bereik. Vanaf Q 'kunnen we geen getrouw beeld krijgen van hoe de scores zich van de centrale waarde verspreiden. Dat is 'Q' geeft ons geen idee over de samenstelling van scores. 'Q' van twee reeksen kan gelijk zijn, maar reeksen kunnen qua samenstelling nogal verschillen.

3. Het geeft ruwweg een idee van verspreiding.

4. Het negeert de scores boven het derde kwartiel en de scores onder het eerste kwartiel. Het spreekt ons gewoon over de middelste 50% van de verdeling.

Gebruik van Q:

1. Wanneer de mediaan een maat is voor een centrale neiging;

2. Wanneer de verdeling aan beide uiteinden onvolledig is;

3. Wanneer er een scattered of extreme score is die de SD onevenredig zou beïnvloeden;

4. Wanneer de concentratie rond de mediaan - de middelste 50% van de gevallen is van primair belang.

Coëfficiënt van kwartielafwijking:

De kwartielafwijking is een absolute maat voor dispersie en om deze relatief te maken, berekenen we de 'coëfficiënt van kwartielafwijking'. De coëfficiënt wordt berekend door de kwartielafwijking te delen door het gemiddelde van de kwartielen.

Het wordt gegeven door:

Coëfficiënt van kwartielafwijking = Q 3 - Q 1 / Q 3 + Q 1

Waar Q 3 en Q 1 naar respectievelijk bovenste en onderste kwartielen verwijzen.

Maatregel # 3. Gemiddelde afwijking (AD) of gemiddelde afwijking (MD):

Omdat we het bereik al hebben besproken en de 'Q' geeft ons ongeveer een idee van variabiliteit. Het bereik van twee reeksen kan hetzelfde zijn of de kwartielafwijking van twee reeksen kan hetzelfde zijn, maar de twee reeksen kunnen ongelijk zijn. Noch het bereik, noch de 'Q' spreekt van de samenstelling van de serie. Deze twee maten houden geen rekening met de individuele scores.

De methode van gemiddelde afwijking of 'de gemiddelde afwijking', zoals deze soms wordt genoemd, heeft de neiging om een ​​ernstige tekortkoming van beide methoden (Bereik en 'Q') te verwijderen. De gemiddelde afwijking wordt ook wel het eerste dispersiemoment genoemd en is gebaseerd op alle items in een reeks.

Gemiddelde afwijking is het rekenkundig gemiddelde van de afwijkingen van een reeks berekend op basis van een bepaalde maat voor de centrale tendens (gemiddelde, mediaan of modus), waarbij alle afwijkingen als positief worden beschouwd. Met andere woorden, het gemiddelde van de afwijkingen van alle waarden van het rekenkundig gemiddelde staat bekend als gemiddelde afwijking of gemiddelde afwijking. (Meestal wordt de afwijking afgeleid van het gemiddelde van de verdeling.)

Waarbij Σ totaal is van;

X is de score; M is het gemiddelde; N is het totale aantal scores.

En 'd' betekent de afwijking van individuele scores van het gemiddelde.

Berekening van de gemiddelde afwijking (niet-gegroepeerde gegevens):

Voorbeeld 8:

Vind gemiddelde afwijking voor de volgende reeks variaties:

X = 55, 45, 39, 41, 40, 48, 42, 53, 41, 56

Oplossing:

Om gemiddelde afwijking te vinden, berekenen we eerst het gemiddelde voor de gegeven reeks waarnemingen.

De afwijkingen en de absolute afwijkingen zijn weergegeven in tabel 4.2:

Voorbeeld 9:

Zoek de gemiddelde afwijking voor de onderstaande scores:

25, 36, 18, 29, 30, 41, 49, 26, 16, 27

Het gemiddelde van de bovenstaande scores bleek 29, 7 te zijn.

Voor het berekenen van de gemiddelde afwijking:

Notitie:

Als je wat algebra toepast, kun je zien dat Σ (X - M) nul is

Berekening van de gemiddelde afwijking (gegroepeerde gegevens):

Voorbeeld 10:

Zoek de gemiddelde afwijking voor de volgende frequentieverdeling:

Hier, in kolom 1, schrijven we de ci's, in kolom 2 schrijven we de corresponderende frequenties, in kolom 3 schrijven we de mid-punten van de ci's die wordt aangeduid met 'X', in kolom 4, we schrijven het product van frequenties en mid-punten van de ci's aangeduid met X, in kolom 5 schrijven we de absolute afwijkingen van de middelpunten van ci van het gemiddelde dat wordt aangeduid met | d | en in kolom 6 schrijven we het product van absolute afwijkingen en frequenties, aangeduid met | fd |.

Verdiensten van gemiddelde afwijking:

1. Gemiddelde afwijking is de eenvoudigste spreidingsmaatstaf die rekening houdt met alle waarden in een gegeven verdeling.

2. Het is gemakkelijk te begrijpen, zelfs door iemand die niet goed thuis is in statistieken.

3. Het is niet erg beïnvloed door de waarde van extreme items.

4. Het is het gemiddelde van de afwijkingen van individuele scores van het gemiddelde.

beperkingen:

1. Gemiddelde afwijking negeert de algebraïsche tekenen van de afwijkingen en is als zodanig niet in staat tot verdere wiskundige behandeling. Het wordt dus alleen gebruikt als een beschrijvende maat voor variabiliteit.

2. In feite is MD niet algemeen bekend. Het wordt zelden gebruikt in moderne statistieken en in het algemeen wordt dispersie bestudeerd met standaarddeviatie.

Gebruik van MD:

1. Wanneer het gewenst is om alle afwijkingen volgens hun grootte te wegen.

2. Wanneer moet worden vastgesteld in hoeverre de maatregelen aan weerszijden van het gemiddelde worden uitgesmeerd.

3. Wanneer extreme afwijkingen de standaardafwijking onnodig beïnvloeden.

Interpretatie van de gemiddelde afwijking:

Voor het interpreteren van de gemiddelde afwijking, is het altijd beter om ernaar te kijken samen met het gemiddelde en het aantal gevallen. Gemiddelde is vereist omdat het gemiddelde en de gemiddelde afwijking respectievelijk het punt en de afstand op dezelfde meetschaal zijn.

Zonder gemiddeld kan de gemiddelde afwijking niet worden geïnterpreteerd, omdat er geen aanwijzing is voor de schaal van de meting of de maateenheid. Het aantal gevallen is belangrijk omdat de mate van verspreiding ervan afhankelijk is. Voor minder gevallen is de maatregel waarschijnlijk meer.

In de twee voorbeelden hebben we:

In het eerste geval is de gemiddelde afwijking bijna 25% van het gemiddelde, terwijl dit in het tweede geval minder is. Maar de gemiddelde afwijking kan in het eerste geval meer zijn vanwege het minder aantal gevallen. Dus de twee gemiddelde afwijkingen die hierboven zijn berekend, duiden op bijna dezelfde dispersie.

Maatregel # 4. Standaarddeviatie of SD en variantie:

Uit de verschillende maten van dispersie is de meest gebruikte maat 'standaardafwijking'. Het is ook het belangrijkste omdat het de enige maat is voor dispersie die vatbaar is voor algebraïsche behandeling.

Ook hier worden de afwijkingen van alle waarden van het gemiddelde van de verdeling beschouwd. Deze maatregel heeft de minste nadelen en biedt nauwkeurige resultaten.

Het verwijdert het nadeel van het negeren van de algebraïsche tekens bij het berekenen van afwijkingen van de items van het gemiddelde. In plaats van de tekens te verwaarlozen, verdisconteren we de afwijkingen en maken ze allemaal positief.

Het verschilt in verschillende opzichten van de AD:

ik. Bij het berekenen van AD of MD negeren we tekens, terwijl we bij het vinden van SD de moeilijkheid van tekens vermijden door de afzonderlijke afwijkingen te kwadrateren;

ii. De gekwadrateerde afwijkingen die worden gebruikt bij het berekenen van SD worden altijd van het gemiddelde genomen, nooit van de mediaan of modus.

"Standaardafwijking of SD is de vierkantswortel van het gemiddelde van de gekwadrateerde afwijkingen van de individuele scores van het gemiddelde van de verdeling."

Voor alle duidelijkheid, we moeten hier opmerken dat we bij het berekenen van de SD alle afwijkingen apart verdelen. Zoek hun som, deel de som op basis van het totale aantal scores en zoek de vierkantswortel van het gemiddelde van de gekwadrateerde afwijkingen.

Dus SD wordt ook wel de 'wortelgemiddelde vierkante afwijking van het gemiddelde' genoemd en wordt over het algemeen aangeduid met de kleine Griekse letter σ (sigma).

Symbolisch wordt de standaarddeviatie voor niet-gegroepeerde gegevens gedefinieerd als:

Waarbij d = afwijking van individuele scores van het gemiddelde;

(Sommige auteurs gebruiken 'x' als de afwijking van individuele scores van het gemiddelde)

Σ = somtotaal van; N = totaal aantal gevallen.

De gemiddelde vierkante afwijkingen worden variantie genoemd. Of in simpele woorden: vierkant met standaard van afwijking wordt het tweede moment van dispersie of afwijking genoemd.

Berekening van SD (niet-gegroepeerde gegevens):

Er zijn twee manieren om SD te berekenen voor niet-gegroepeerde gegevens:

(a) Directe methode.

(b) Kortere weg-methode.

(a) directe methode:

Zoek de standaardafwijking voor de onderstaande scores:

X = 12, 15, 10, 8, 11, 13, 18, 10, 14, 9

Deze methode gebruikt formule (18) voor het vinden van SD, die de volgende stappen omvat:

Stap 1:

Bereken het rekenkundig gemiddelde van de gegeven gegevens:

Stap 2:

Noteer de waarde van de afwijking d ie X - M tegen elke score in kolom 2. Hier moeten de afwijkingen van de scores vanaf 12 worden genomen. Nu zult u zien dat Σd of Σ (X - M) gelijk is aan nul. Denk, waarom is het zo? Controleer het. Als dit niet het geval is, ontdek dan de fout in de berekening en verhelp deze.

Stap 3:

Vier de afwijkingen en schrijf de waarde van d 2 tegen elke score in kolom 3. Zoek de som van gekwadrateerde afwijkingen. Σd 2 = 84.

Tabel 4.5 Berekening van SD:

De vereiste standaardafwijking is 2, 9.

Stap 4:

Bereken het gemiddelde van de gekwadrateerde afwijkingen en zoek vervolgens uit de positieve vierkantswortel voor het verkrijgen van de waarde van standaardafwijking, dwz σ.

Met behulp van formule (19) is de variantie σ 2 = Σd 2 / N = 84/10 = 8, 4

(b) Kortere weg Methode:

In de meeste gevallen is het rekenkundig gemiddelde van de gegeven gegevens een fractionele waarde en wordt het proces van het nemen van afwijkingen en kwadreren ervan vervelend en kalkverbruik bij het berekenen van SD

Om de berekening in dergelijke situaties te vergemakkelijken, kunnen de afwijkingen worden afgeleid van een verondersteld gemiddelde. De aangepaste short-cut formule voor het berekenen van SD zal dan,

waar,

d = Afwijking van de score van een verondersteld gemiddelde, zeg AM; dat wil zeggen d = (X - AM).

d 2 = Het kwadraat van de afwijking.

Σd = De som van de afwijkingen.

Σd 2 = De som van de gekwadrateerde afwijkingen.

N = nummer van de scores of variates.

De berekeningsprocedure wordt verduidelijkt in het volgende voorbeeld:

Voorbeeld 11:

Zoek naar SD voor de scores gegeven in tabel 4.5 van X = 12, 15, 10, 8, 11, 13, 18, 10, 14, 9. Gebruik de snelwerkmethode.

Oplossing:

Laten we veronderstelde gemiddelde AM = 11 nemen.

De afwijkingen en vierkanten van afwijkingen die in de formule nodig zijn, worden weergegeven in de volgende tabel:

De waarden uit tabel in formule, de SD zetten

De snelkoppelingsmethode geeft hetzelfde resultaat als verkregen met behulp van de directe methode in het vorige voorbeeld. Maar de kortere wegmethode heeft de neiging om het rekenwerk te verminderen in situaties waarin het rekenkundig gemiddelde geen geheel getal is.

Berekening van SD (gegroepeerde gegevens):

(a) Lange methode / directe methode:

Voorbeeld 12:

Zoek de SD voor de volgende distributie:

Ook hier is de eerste stap om de gemiddelde M te vinden, waarvoor we de middelpunten van de c.i's moeten nemen die worden aangegeven door X 'en het product f X vinden.'. Het gemiddelde wordt gegeven door Σ f x '/ N. De tweede stap is het vinden van de afwijkingen van de middelpunten van klasse-intervallen X 'van het gemiddelde dwz X'- M aangeduid met d.

De derde stap bestaat uit het afronden van de afwijkingen en het vinden van het product van de gekwadrateerde afwijkingen en de bijbehorende frequentie.

Om het bovenstaande probleem op te lossen, worden ci's geschreven in kolom 1, worden frequenties geschreven in kolom 2, worden de middelpunten van c.i's, dwz X 'geschreven in kolom 3, het product van f X' geschreven in kolom 4, de afwijking van X 'van het gemiddelde is geschreven in kolom 5, de gekwadrateerde afwijking d2 is geschreven in kolom 6, en het product fd 2 is geschreven in kolom 7,

Zoals hieronder getoond:

Dus de afwijkingen van de middelpunten moeten worden genomen vanaf 11.1.

De vereiste standaarddeviatie is dus 4, 74.

(b) Kortere weg Methode:

Soms wordt in directe methode waargenomen dat de afwijkingen van het werkelijke gemiddelde resulteren in decimalen en de waarden van d 2 en fd 2 moeilijk te berekenen zijn. Om dit probleem te voorkomen, volgen we een korte cut-methode voor het berekenen van standaarddeviatie.

In deze methode nemen we, in plaats van de afwijkingen van het werkelijke gemiddelde te nemen, afwijkingen van een passend gekozen verondersteld gemiddelde, zeggen AM

De volgende formule wordt vervolgens gebruikt voor het berekenen van SD:

waar d is afwijking van aangenomen gemiddelde.

De volgende stappen zijn vervolgens betrokken bij de berekening van standaarddeviatie:

(i) Verkrijgen van variaties van de aangenomen gemiddelde AM als d = (X - AM)

(ii) Vermenigvuldig deze afwijkingen met overeenkomstige frequenties om de kolom fd te krijgen. De som van deze kolom geeft Σ fd.

fd met bijbehorende afwijking (d)

(iii) Vermenigvuldig de kolom fd 2 . De som van deze kolom is Σ fd 2 .

(iv) Gebruik formule (22) om SD te vinden

Voorbeeld 13:

Zoek met behulp van de snelkoppelingsmethode SD van de gegevens in tabel 4.7.

Oplossing:

Laten we de veronderstelde gemiddelde AM = 10 nemen. Andere berekeningen die nodig zijn voor het berekenen van SD worden gegeven in tabel 4.8.

Waarden uit tabel zetten

Met behulp van de formule (19), de variantie

(c) Step-Deviation-methode:

In deze methode schrijven we in kolom 1 ci's; in kolom 2 schrijven we de frequenties; in kolom 3 schrijven we de waarden van d, waarbij d = X'-AM / i; in kolom 4 schrijven we het product van fd, en in kolom 5 schrijven we de waarden van fd 2, zoals hieronder getoond:

Hier, Aangenomen gemiddelde is het middelpunt van de ci 9-11 dwz 10, dus de afwijkingen d zijn genomen uit 10 en gedeeld door 3, de lengte van ci De formule voor SD in de stapafwijkingsmethode is

waarbij i = lengte van de c.i's,

f = frequentie;

d = afwijkingen van de middelpunten van ci's ten opzichte van het aangenomen gemiddelde (AM) in klasse-interval (i) -eenheden, wat kan worden vermeld:

Waarden uit de tabel zetten

De berekeningsprocedures kunnen ook op de volgende manier worden vermeld:

Gecombineerde standaarddeviatie ( σ com b ):

Wanneer twee sets scores in een enkele partij zijn gecombineerd, is het mogelijk om de σ van de totale verdeling uit de σ 's van de twee componentverdelingen te berekenen.

De formule is:

waarbij σ 1, = SD van verdeling 1

σ 2 = SD van verdeling 2

d 1 = (M 1 - M- kam )

d 2 = (M 2 - M- kam )

N 1 = Aantal gevallen in distributie 1.

N 2 = Aantal gevallen in distributie 2.

Een voorbeeld illustreert het gebruik van de formule.

Voorbeeld 14:

Stel dat we de middelen en SD's krijgen voor een Prestatietest voor twee klassen die verschillen in grootte, en worden gevraagd om de o van de gecombineerde groep te vinden.

Gegevens zijn als volgt:

Eerst vinden we dat

De formule (24) kan worden uitgebreid tot een willekeurig aantal distributies. Bijvoorbeeld, in het geval van drie distributies, zal het zijn

Eigenschappen van SD:

1. Als elke variabele waarde wordt verhoogd met dezelfde constante waarde, blijft de waarde van SD van de verdeling ongewijzigd:

We zullen dit effect bespreken op SD door een illustratie te beschouwen. De tabel (4.10) toont originele scores van 5 studenten in een test met een rekenkundig gemiddelde van 20.

Nieuwe scores (X ') worden ook gegeven in dezelfde tabel die we verkrijgen door een constante 5 toe te voegen aan elke originele score. Met behulp van de formule voor niet-gegroepeerde gegevens, zien we dat SD van de scores in beide situaties hetzelfde blijft.

De waarde van SD in beide situaties blijft dus hetzelfde.

2. Wanneer een constante waarde wordt afgetrokken van elke variabele, blijft de waarde van SD van de nieuwe distributie ongewijzigd:

De studenten kunnen ook onderzoeken dat wanneer we een constante van elke score aftrekken, het gemiddelde wordt verlaagd met de constante, maar SD hetzelfde is. Het is vanwege de reden dat ' d ' ongewijzigd blijft.

3. Als elke waargenomen waarde wordt vermenigvuldigd met een constante waarde, wordt de SD van de nieuwe waarnemingen ook vermenigvuldigd met dezelfde constante:

Laten we elke score van de oorspronkelijke verdeling (tabel 4.10) met 5 vermenigvuldigen.

De SD van de nieuwe verdeling zal dus worden vermenigvuldigd met dezelfde constante (hier is het 5).

4. Als elke waargenomen waarde wordt gedeeld door een constante waarde, wordt de SD van de nieuwe waarnemingen ook gedeeld door dezelfde constante. De studenten kunnen met een voorbeeld bekijken:

Dus, om te concluderen, SD is onafhankelijk van verandering van oorsprong (optellen, aftrekken) maar afhankelijk van schaalverandering (vermenigvuldiging, deling).

Metingen van relatieve dispersie (variatiecoëfficiënt):

De dispersiemetingen geven ons een idee over de mate waarin scores zich rond hun centrale waarde bevinden. Daarom kunnen twee frequentieverdelingen met dezelfde centrale waarden direct worden vergeleken met behulp van verschillende maten van dispersie.

Als, bijvoorbeeld, bij een test in een klas, jongens gemiddelde score M 1 = 60 hebben met SD σ 1 = 15 en meisjes gemiddelde score is M 2 = 60 met SD σ 2 = 10. Het is duidelijk dat meisjes met een lagere SD, zijn consistenter in scoren rond hun gemiddelde score dan jongens.

We hebben situaties waarin twee of meer distributies met ongelijke gemiddelden of verschillende eenheden van metingen moeten worden vergeleken met betrekking tot hun verstrooiing of variabiliteit. Voor het maken van dergelijke vergelijkingen gebruiken we coëfficiënten van relatieve spreiding of variatiecoëfficiënt (CV).

De formule is:

(Variatiecoëfficiënt of coëfficiënt van relatieve variabiliteit)

V geeft het percentage dat σ is van het testgemiddelde. Het is dus een verhouding die onafhankelijk is van de meeteenheden.

V is beperkt in zijn gebruik vanwege bepaalde dubbelzinnigheden in zijn interpretatie. Het is verdedigbaar bij gebruik met verhoudingsschalen - schalen waarin de eenheden gelijk zijn en er een echt nul- of referentiepunt is.

V kan bijvoorbeeld zonder aarzeling worden gebruikt met fysieke schalen - die betrekking hebben op lineaire grootheden, gewicht en tijd.

Er doen zich twee gevallen voor bij het gebruik van V met verhoudingsschalen:

(1) Wanneer eenheden verschillend zijn, en

(2) wanneer M's ongelijk zijn, zijn de eenheden van de schaal hetzelfde.

1. Wanneer eenheden anders zijn dan:

Voorbeeld 15:

Een groep van 10 jaar oude jongens heeft een gemiddelde lengte van 137 cm. met een o van 6, 2 cm. Dezelfde groep jongens heeft een gemiddeld gewicht van 30 kg. met een gewicht van 3, 5 kg. In welke eigenschap is de groep variabeler?

Oplossing:

Het is duidelijk dat we de centimeters en kilogrammen niet rechtstreeks kunnen vergelijken, maar we kunnen de relatieve variabiliteit van de twee distributies vergelijken in termen van V.

In het onderhavige voorbeeld verschillen twee groepen niet alleen wat betreft gemiddelde, maar ook in meeteenheden die cm is. in het eerste geval en kg. in de seconde. Variatiecoëfficiënt kan worden gebruikt om de variabiliteit van de groepen in een dergelijke situatie te vergelijken.

Wij berekenen dus:

Uit de bovenstaande berekening blijkt dus dat deze jongens ongeveer twee keer zo variabel zijn (11, 67 / 4, 53 = 2, 58) in gewicht als in lengte.

2. Wanneer middelen ongelijk zijn, maar schaaleenheden hetzelfde zijn :

Stel dat we de volgende gegevens hebben over een test voor een groep jongens en een groep mannen:

Vergelijk dan:

(i) De prestaties van de twee groepen op de test.

(ii) De variabiliteit van scores in de twee groepen.

Oplossing:

(i) Aangezien de gemiddelde score van een groep jongens groter is dan die van mannen, heeft de jongensgroep een betere uitvoering van de test gegeven.

(ii) Voor het vergelijken van twee groepen met betrekking tot variabiliteit tussen scores, wordt de variatiecoëfficiënt berekend V van jongens = 26, 67 en V van mannen = 38, 46.

Daarom is de variabiliteit van scores groter in een groep mannen. De studenten in de jongensgroep, met een mindere CV, scoren meer consistent rond hun gemiddelde score in vergelijking met de mannengroep.

SD en de spreiding van waarnemingen:

In een symmetrische (normale) verdeling,

(i) Gemiddelde ± 1 SD dekt 68, 26% van de scores.

Het gemiddelde ± 2 SD dekt 95, 44% van de scores.

Het gemiddelde ± 3 SD dekt 99, 73% van de scores.

(ii) In grote monsters (N = 500) is het bereik ongeveer 6 keer de SD-waarde.

Als N ongeveer 100 is, is het bereik ongeveer 5 keer de SD.

Als N ongeveer 50 is, is het bereik ongeveer 4, 5 keer de SD.

Als N ongeveer 20 is, is het bereik ongeveer 3, 7 keer de SD

Interpretatie van standaarddeviatie:

De standaarddeviatie kenmerkt de aard van de verdeling van scores. Wanneer de scores breder verspreid zijn, is SD meer en wanneer scores minder verspreid zijn, is SD minder. Voor het interpreteren van de waarde van de spreidingsmaatstaf moeten we begrijpen dat hoe groter de waarde van ' σ ' hoe meer verspreid de scores van het gemiddelde zijn.

Evenals in het geval van gemiddelde afwijking, vereist de interpretatie van standaarddeviatie de waarde van M en N ter overweging.

In de volgende voorbeelden worden de vereiste waarden voor σ, gemiddelde en N gegeven als:

Hier is de dispersie meer in voorbeeld 2 vergeleken met voorbeeld 1. Dit betekent dat de waarden meer verspreid zijn in voorbeeld 2, vergeleken met de waarden van voorbeeld 1.

Verdiensten van SD:

1. SD is rigide gedefinieerd en de waarde ervan is altijd duidelijk.

2. Het is de meest gebruikte en belangrijke maatstaf voor dispersie. Het neemt een centrale positie in statistieken in.

3. Zoals gemiddelde afwijking, het is gebaseerd op alle waarden van de verdeling.

4. Hier worden de tekenen van afwijkingen niet genegeerd, in plaats daarvan worden ze geëlimineerd door elk van de afwijkingen te kwadrateren.

5. Het is de hoofdmaatstaf voor variabiliteit omdat het vatbaar is voor algebraïsche behandeling en wordt gebruikt in correlationeel werk en in verdere statistische analyse.

6. Het wordt minder beïnvloed door fluctuaties van bemonstering.

7. Het is de betrouwbare en meest nauwkeurige maatstaf voor variabiliteit. SD gaat altijd met het gemiddelde dat de meest betrouwbare maatstaf voor centrale tendentie is.

8. Het biedt een standaardmaateenheid die een vergelijkbare betekenis heeft van de ene test naar de andere. Bovendien is de normale curve direct gerelateerd aan SD

beperkingen:

1. Het is niet eenvoudig om te berekenen en het is niet gemakkelijk te begrijpen.

2. Het geeft meer gewicht aan extreme items en minder aan die die bijna in de buurt zijn. Wanneer de afwijking van een extreme score in het kwadraat staat, ontstaat er een grotere waarde.

Gebruik van SD:

Standaarddeviatie wordt gebruikt:

(i) Wanneer de meest nauwkeurige, betrouwbare en stabiele mate van variabiliteit gewenst is.

(ii) Wanneer meer gewicht moet worden toegekend aan extreme afwijkingen van het gemiddelde.

(iii) Wanneer de correlatiecoëfficiënt en andere statistieken vervolgens worden berekend.

(iv) Wanneer betrouwbaarheidsmetingen worden berekend.

(v) Wanneer scores op de juiste manier moeten worden geïnterpreteerd met verwijzing naar de normale curve.

(vi) Wanneer standaardscores moeten worden berekend.

(vii) Wanneer we het belang van het verschil tussen twee statistieken willen testen.

(viii) Wanneer de variatiecoëfficiënt, variantie, enz. worden berekend.