Correlatie: betekenis, typen en de berekeningen

Na het lezen van dit artikel zul je leren over: - 1. Definities van correlatie 2. Betekenis van correlatie 3. Noodzaak 4. Typen 5. Methoden van computergebruik.

Definities van Correlation:

Als de wijziging in een variabele gepaard lijkt te gaan met een verandering in de andere variabele, worden de twee variabelen gecorreleerd en deze onderlinge afhankelijkheid wordt correlatie of covariatie genoemd.

Kortom, de tendens van gelijktijdige variatie tussen twee variabelen wordt correlatie of covariatie genoemd. Er kan bijvoorbeeld een relatie bestaan ​​tussen hoogtes en gewichten van een groep studenten, van de scores van studenten in twee verschillende vakken wordt verwacht dat ze een onderlinge afhankelijkheid of relatie tussen hen hebben.

Het meten van de mate van relatie of covariatie tussen twee variabelen is het onderwerp van correlatieanalyse. Correlatie betekent dus de relatie of "samenhorigheid" of overeenkomst tussen twee variabelen.

In de statistiek is correlatie een methode om de overeenstemming of evenredigheid tussen twee reeksen metingen (of scores) te bepalen. Om het eenvoudig te stellen, correlatie geeft de relatie van de ene variabele met de andere aan.

Betekenis van Correlatie:

Om de mate van associatie of relatie tussen twee variabelen kwantitatief te meten, wordt een index van de relatie gebruikt en deze wordt co-efficiënt van correlatie genoemd.

Coëfficiënt van correlatie is een numerieke index die ons vertelt in welke mate de twee variabelen gerelateerd zijn en in hoeverre de variaties in de ene variabele veranderen met de variaties in de andere. De coëfficiënt van correlatie wordt altijd gesymboliseerd door r of ρ (Rho).

Het begrip 'r' staat bekend als correlatiecoëfficiënt van productmoment of Karl Pearson's Coëfficiënt van correlatie. Het symbool 'ρ' (Rho) staat bekend als Rank Difference Correlation coefficient of spearman's Rank Correlation Coefficient.

De grootte van ' r ' geeft de hoeveelheid (of graad of mate) aan van correlatie tussen twee variabelen. Als de correlatie positief is, is de waarde van ' r ' + ve en als de correlatie negatief is, is de waarde van V negatief. De tekens van de coëfficiënt geven dus de soort relatie aan. De waarde van V varieert van +1 tot -1.

Correlatie kan variëren tussen perfecte positieve correlatie en perfecte negatieve correlatie. De bovenkant van de schaal geeft een perfecte positieve correlatie aan en begint met +1 en gaat vervolgens door nul, wat aangeeft dat er helemaal geen correlatie is.

De onderkant van de schaal eindigt op -1 en geeft een perfecte negatieve correlatie aan. Aldus wordt de numerieke meting van de correlatie verschaft door de schaal die loopt van +1 tot -1.

[NB: de correlatiecoëfficiënt is een getal en geen percentage. Het is meestal afgerond tot op twee decimalen].

Noodzaak van correlatie:

Correlatie geeft betekenis aan een constructie. Correlatieanalyse is essentieel voor fundamenteel psycho-educatief onderzoek. Inderdaad is het grootste deel van het fundamenteel en toegepast psychologisch onderzoek correlationeel van aard.

Correlatieanalyse is vereist voor:

(i) Het vinden van kenmerken van psychologische en educatieve tests (betrouwbaarheid, validiteit, itemanalyse, enz.).

(ii) Testen of bepaalde gegevens consistent zijn met de hypothese.

(iii) Het voorspellen van één variabele op basis van de kennis van de ander (en).

(iv) Bouw van psychologische en educatieve modellen en theorieën.

(v) Groeperen van variabelen / maten voor een zuinige interpretatie van gegevens.

(vi) Het uitvoeren van multivariate statistische tests (T2 van Hoteling; MANOVA, MANCOVA, discriminerende analyse, factoranalyse).

(vii) Isoleren van invloed van variabelen.

Typen correlaties:

In een bivariate verdeling kan de correlatie zijn:

1. Positieve, negatieve en nulcorrelatie; en

2. Lineair of kromlijnig (niet-lineair).

1. Positieve, negatieve of nulcorrelatie:

Wanneer de toename in één variabele (X) wordt gevolgd door een overeenkomstige toename in de andere variabele (Y); de correlatie is naar verluidt een positieve correlatie. De positieve correlaties variëren van 0 tot +1; de bovengrens dwz +1 is de perfecte positieve correlatiecoëfficiënt.

De perfecte positieve correlatie specificeert dat, voor elke eenheidsverhoging in een variabele, er een evenredige toename is in de andere. "Heat" en "Temperature" hebben bijvoorbeeld een perfecte positieve correlatie.

Als aan de andere kant de toename in één variabele (X) resulteert in een overeenkomstige afname van de andere variabele (Y), wordt de correlatie als negatieve correlatie beschouwd.

De negatieve correlatie varieert van 0 tot - 1; de ondergrens geeft de perfecte negatieve correlatie. De perfecte negatieve correlatie geeft aan dat voor elke eenheidsverhoging in een variabele, er een evenredige eenheidsafname is in de andere.

Nul correlatie betekent geen relatie tussen de twee variabelen X en Y; dat wil zeggen de verandering in een variabele (X) is niet geassocieerd met de verandering in de andere variabele (Y). Bijvoorbeeld lichaamsgewicht en intelligentie, schoenmaat en maandsalaris; enz. De nulcorrelatie is het middelpunt van het bereik - 1 tot + 1.

2. Lineaire of kromlijnige correlatie:

Lineaire correlatie is de veranderingsverhouding tussen de twee variabelen in dezelfde of in tegengestelde richting en de grafische weergave van de ene variabele ten opzichte van de andere variabele is een rechte lijn.

Overweeg een andere situatie. Ten eerste, met een toename van één variabele, neemt de tweede variabele verhoudingsgewijs toe tot een bepaald punt; daarna neemt met een toename van de eerste variabele de tweede variabele af.

De grafische weergave van de twee variabelen zal een gebogen lijn zijn. Een dergelijke relatie tussen de twee variabelen wordt de curvilineaire correlatie genoemd.

Methoden voor computergebruik die co-efficiënt zijn voor correlatie:

In het gemak van niet-gegroepeerde gegevens van bivariate verdeling, worden de volgende drie methoden gebruikt om de waarde van correlatiecoëfficiënt te berekenen:

1. Verspreidingsdiagrammethode.

2. Pearson's Product Moment Co-efficient van correlatie.

3. Spearman's Rangorde Co-efficiënt van Correlatie.

1. Scatter Diagram-methode:

Spreidingsdiagram of puntdiagram is een grafisch apparaat om bepaalde conclusies te trekken over de correlatie tussen twee variabelen.

Bij het opstellen van een spreidingsdiagram worden de waargenomen observatieparen geplot met punten op een grafiekpapier in een tweedimensionale ruimte door de metingen op variabele X langs de horizontale as en die op variabele Y langs de verticale as te nemen.

De plaatsing van deze punten in de grafiek onthult de verandering in de variabele met betrekking tot de vraag of ze in dezelfde of in tegenovergestelde richtingen veranderen. Het is een zeer eenvoudige, eenvoudige maar ruwe methode om correlatie te berekenen.

De frequenties of punten worden in een grafiek uitgezet door geschikte schalen voor de twee reeksen te nemen. De geplotte punten zullen de neiging hebben om zich te concentreren in een band van grotere of kleinere breedte volgens de mate. 'De lijn van de beste pasvorm' wordt getekend met een vrije hand en de richting geeft de aard van de correlatie aan. Verstrooiingsdiagrammen, die als voorbeeld verschillende graden van correlatie tonen, worden getoond in Fig. 5.1 en Fig. 5.2.

Als de lijn omhoog gaat en deze opwaartse beweging van links naar rechts is, vertoont deze een positieve correlatie. Evenzo, als de lijnen naar beneden bewegen en de richting van links naar rechts is, zal het een negatieve correlatie vertonen.

De mate van helling geeft de mate van correlatie aan. Als de geplotte punten wijd verspreid zijn, zal het gebrek aan correlatie vertonen. Deze methode beschrijft eenvoudig het 'feit' dat correlatie positief of negatief is.

2. Pearson's Product Moment Co-efficiënt van Correlatie:

De correlatiecoëfficiënt, r, wordt vaak de "Pearson r" genoemd na professor Karl Pearson, die de productmoment-methode ontwikkelde, naar aanleiding van het eerdere werk van Gallon en Bravais.

Coëfficiënt van correlatie als ratio:

De product-moment correlatiecoëfficiënt kan in wezen worden beschouwd als die verhouding die de mate uitdrukt waarin veranderingen in één variabele gepaard gaan met - of afhankelijk zijn van - veranderingen in een tweede variabele.

Als illustratie, overweeg dan het volgende eenvoudige voorbeeld dat de gepaarde hoogten en gewichten van vijf studenten geeft:

De gemiddelde hoogte is 69 inch, het gemiddelde gewicht 170 pond, en de o is 2, 24 inch en o is 13, 69 pond, respectievelijk. In de kolom (4) wordt de afwijking (x) van de hoogte van elke student van de gemiddelde hoogte en in kolom (5) de afwijking (y) van het gewicht van elke student van het gemiddelde gewicht gegeven. Het product van deze gepaarde afwijkingen (xy) in kolom (6) is een maat voor de overeenstemming tussen individuele hoogten en gewichten. Hoe groter de som van de xy-kolom, hoe hoger de mate van overeenstemming. In het bovenstaande voorbeeld is de waarde van Σxy / N 55/5 of 11. Wanneer een perfecte overeenstemming, dwz r = ± 1, 00, de waarde van Σ xy / N de maximale limiet overschrijdt.

Σ xy / N zou dus geen geschikte maat voor de relatie tussen x en y opleveren. De reden is dat een dergelijk gemiddelde geen stabiele maat is, omdat het niet onafhankelijk is van de eenheden waarin lengte en gewicht zijn uitgedrukt.

Bijgevolg zal deze verhouding variëren als centimeters en kilogrammen worden gebruikt in plaats van inches en pounds. Een manier om het probleem te voorkomen - enige kwestie van verschillen in eenheden is om elke afwijking uit te drukken als een σ-score of standaardscore of Z-score, dwz om elke x en y te delen door zijn eigen σ.

Elke x- en y-afwijking wordt vervolgens uitgedrukt als een verhouding en is een zuiver getal, onafhankelijk van de testeenheden. De som van de producten van de a-scores kolom (9) gedeeld door N levert een verhouding op die een stabiele uitdrukking van relatie is. Deze verhouding is de correlatiecoëfficiënt "productmoment". In ons voorbeeld geeft de waarde van .36 een redelijk hoge positieve correlatie aan tussen hoogte en gewicht in dit kleine sample.

De student moet opmerken dat onze ratio of coëfficiënt eenvoudigweg het gemiddelde product is van de σ scores van de corresponderende X- en Y-maten, dwz

Aard van r xy :

(i) r xy is een productmoment r

(ii) r xy is een ratio, = r xy .

(iii) r xy kan + ve zijn of - gebonden zijn aan limieten - van 1, 00 tot + 1, 00.

(iv) r xy kan worden beschouwd als een rekenkundig gemiddelde (r xy is het gemiddelde van standaard scoreproducten).

(v) r xy wordt niet beïnvloed door enige lineaire transformatie van scores op X of Y of op beide.

(vi) Als variabelen in de standaardscore-vorm zijn, geeft r een maat voor de gemiddelde hoeveelheid verandering in een variabele die geassocieerd is met de verandering van één eenheid de andere variabele.

(vii) r xy = √b yx b xy waarbij b yx = regressiecoëfficiënt van Y op X, b xy = regressiecoëfficiënt van X op Y. r xy = vierkantswortel van de hellingen van de regressielijnen.

(Viii) r xy wordt niet beïnvloed door de omvang van gemiddelden (scores zijn altijd relatief).

(Ix) r xy kan niet worden berekend als een van de variabelen geen variantie heeft S 2 x of S 2 Y = 0

(x) r xy van 60 impliceert dezelfde grootte van relatie als r xy = - .60. Het teken vertelt over de richting van de relatie en de grootte van de relatie.

(xi) df voor r xy is N - 2, dat wordt gebruikt voor het testen van de significantie van r xy . Het testen van de significantie van r is het testen van de significantie van regressie. Regressielijn omvat helling en snijpunt, dus 2 df is verloren. Dus wanneer N = 2, is r xy ofwel + 1, 00 of - 1, 00 omdat er geen vrijheid is voor bemonsteringsvariatie in de numerieke waarde van r.

A. Berekening van r xy (niet-gegroepeerde gegevens) :

Hier hangt het gebruik van de formule voor de berekening van r af van "waar van de afwijkingen worden genomen". In verschillende situaties kunnen afwijkingen worden afgeleid van het werkelijke gemiddelde of van nul of van het AM-type formule die handig wordt toegepast voor de berekening van de coëfficiëntcorrelatie, afhankelijk van de gemiddelde waarde (hetzij in fractie of geheel).

(i) De formule van r wanneer afwijkingen worden overgenomen van gemiddelden van de twee verdelingen X en Y.

waar r xy = Correlatie tussen X en Y

x = afwijking van elke X-score van het gemiddelde in de test X

y = afwijking van de overeenkomstige Y-score van het gemiddelde in test Y.

Σxy = Som van alle producten van afwijkingen (X en Y)

σ x en σ y = Standaardafwijkingen van de verdeling van X- en Y-score.

waarin x en y afwijkingen zijn van de werkelijke gemiddelden en Σx 2 en Σy 2 de som van de kwadratische afwijkingen in x en y van de twee gemiddelden.

Deze formule heeft de voorkeur:

ik. Wanneer de gemiddelde waarden van beide variabelen niet in fractie zijn.

ii. Wanneer moet je de correlatie vinden tussen korte, niet-gegroepeerde reeksen (ongeveer vijfentwintig cases of zo).

iii. Wanneer afwijkingen moeten worden genomen van de feitelijke middelen van de twee distributies.

De benodigde stappen worden geïllustreerd in Tabel 5.1. Ze worden hier opgesomd:

Stap 1:

Geef in parallelle kolommen de gepaarde X- en Y-scores weer en zorg ervoor dat de bijbehorende scores bij elkaar horen.

Stap 2:

Bepaal de twee middelen M x en M y . In tabel 5.1 zijn dit respectievelijk 7, 5 en 8, 0.

Stap 3:

Bepaal voor elk paar scores de twee afwijkingen x en y. Controleer ze door algebraïsche bedragen te vinden, die nul zouden moeten zijn.

Stap 4:

Vier alle afwijkingen en vermeld ze in twee kolommen. Dit is met het doel om σ x en σ y te berekenen.

Stap 5:

Tel de vierkanten van de afwijkingen op om Σx 2 en Σy 2 te vinden Vind xy-product en som deze op voor Σxy.

Stap 6:

Bereken uit deze waarden σ x en σ y .

Een alternatieve en kortere oplossing:

Er is een alternatieve en kortere route die de berekening van σ x en σ y weglaat, mochten deze voor geen enkel ander doel nodig zijn.

Formule toepassen (28):

(ii) De berekening van r xy uit originele scores of onbewerkte scores:

Het is een andere procedure met niet-gegroepeerde gegevens, waarvoor geen afwijkingen nodig zijn. Het behandelt volledig originele scores. De formule kan verbieden, maar is heel eenvoudig toe te passen.

Deze formule heeft de voorkeur:

ik. Wanneer r moet worden berekend uit directe onbewerkte scores.

ii. Oorspronkelijke scores ft. Wanneer gegevens klein niet gegroepeerd zijn.

iii. Wanneer gemiddelde waarden in breuken zijn.

iv. Wanneer een goede rekenmachine beschikbaar is.

X en Y zijn oorspronkelijke scores in variabelen X en Y. Andere symbolen geven aan wat er met ze is gedaan.

We volgen de stappen die worden geïllustreerd in Tabel 5.2:

Stap 1:

Vier alle X- en Y-afmetingen vierkant.

Stap 2:

Zoek het XY-product voor elk paar scores.

Stap 3:

Som de X's, de Y's, de X 2, de Y 2 en de XY.

Stap 4:

Formule (29) toepassen:

(ii) Berekening van r xy bij afwijkingen van aangenomen gemiddelde:

Formule (28) is handig bij het rechtstreeks berekenen van r uit twee niet-gegroepeerde reeksen scores, maar het heeft de nadelen omdat het een "lange methode" van berekeningsmiddelen en σ 's vereist. De afwijkingen x en y wanneer ze van de werkelijke gemiddelden worden genomen, zijn meestal decimalen en het vermenigvuldigen en kwadrateren van deze waarden is vaak een vervelende taak.

Om deze reden - zelfs als u met korte niet-gegroepeerde reeksen werkt - is het vaak gemakkelijker om middelen aan te nemen, berekent u afwijkingen van deze AM's en past u de formule toe (30).

Deze formule heeft de voorkeur:

ik. Wanneer werkelijke middelen meestal decimalen zijn en het vermenigvuldigen en kwadrateren van deze waarden vaak een vervelende taak is.

ii. Wanneer afwijkingen van AM's worden genomen.

iii. Wanneer we breuken moeten voorkomen.

De stappen in het berekenen van r kunnen als volgt worden geschetst:

Stap 1:

Zoek het gemiddelde van Test 1 (X) en het gemiddelde van Test 2 (Y). Het middel zoals weergegeven in Tabel 5.3 M X = 62.5 en M Y = 30.4 respectievelijk.

Stap 2:

Kies AM's van zowel X als Y, dwz AM X als 60.0 en AM Y als 30.0.

Stap 3:

Zoek de afwijking van elke score op Test 1 van de AM, 60.0, en voer deze in kolom x 'in. Zoek vervolgens de afwijking van elke score in Test 2 uit de AM, 30.0, en voer deze in kolom y 'in.

Stap 4:

Zet alle x 'en alle' vierkant en voer deze vierkanten in respectievelijk kolom x ' 2 en y' 2 in. Totaal van deze kolommen om Σx ' 2 en Σy' 2 te verkrijgen .

Stap 5:

Vermenigvuldig x 'en y' en voer deze producten in (met inachtneming van het teken) in de kolom x'y '. Totale x'y kolom, rekening houdend met tekens, om Σx'y 'te krijgen.

Stap 6:

De correcties, C x en C y, worden gevonden door AM X af te trekken van M x en AM y van M y . Vervolgens werd Cx gevonden als 2, 5 (62, 5 - 60, 0) en C y als 0, 4 (30, 4 - 30, 0).

Stap 7:

Substituut voor Σx'y ', 334, voor Σx' 2, 670 en voor Σy ' 2, 285 in formule (30), zoals weergegeven in tabel 5.3, en los rxy op .

Eigenschappen van r :

1. De waarde van de correlatiecoëfficiënt r blijft ongewijzigd als een constante aan een of beide variabelen wordt toegevoegd:

Om het effect op de coëfficiëntcorrelatie r waar te nemen wanneer een constante wordt toegevoegd aan een of beide variabelen, beschouwen we een voorbeeld.

Nu voegen we een score van 10 toe aan elke score in X en 20 aan elke score van Y en vertegenwoordigen deze scores respectievelijk door X 'en Y'.

De berekeningen voor het berekenen van r voor originele en nieuwe paren waarnemingen zijn weergegeven in tabel 5.4:

Door formule (29) te gebruiken, zal de correlatiecoëfficiënt van de originele score zijn:

Dezelfde formule voor nieuwe scores kan worden geschreven als:

We zien dus dat de waarde van de coëfficiënt van correlatie r onveranderd blijft wanneer een constante aan een of beide variabelen wordt toegevoegd.

2. De waarde van de coëfficiënt van correlatie r blijft ongewijzigd als een constante wordt afgetrokken van een of beide variabelen:

Studenten kunnen dit onderzoeken door een voorbeeld te nemen. Wanneer elke score van een of beide variabelen wordt afgetrokken door een constante, blijft de waarde van de coëfficiënt van de correlatie r ook ongewijzigd.

3. De waarde van de coëfficiënt van correlatie r blijft ongewijzigd wanneer een of beide sets variate waarden worden vermenigvuldigd met een constante:

Om het effect te observeren van het vermenigvuldigen van de variabelen met een constante op de waarde van r, vermenigvuldigen we willekeurig die oorspronkelijke scores van eerste en tweede sets in het vorige voorbeeld met respectievelijk 10 en 20.

De r tussen X 'en Y' kan dan worden berekend als onder:

De correlatie van de coëfficiënt tussen X 'en Y' is:

We zien dus dat de waarde van de coëfficiënt van correlatie r onveranderd blijft wanneer een constante wordt vermenigvuldigd met een of beide sets variate waarden.

4. De waarde van r blijft ongewijzigd, ook als een of beide sets variate waarden worden gedeeld door een constante:

Studenten kunnen dit onderzoeken door een voorbeeld te nemen.

B. Coëfficiënt van correlatie in gegroepeerde gegevens :

Wanneer het aantal paren van metingen (N) op twee variabelen X en Y groot zijn, zelfs matig in omvang, en wanneer er geen rekenmachine beschikbaar is, is de gebruikelijke procedure om gegevens in zowel X als Y te groeperen en een spreidingsdiagram te vormen of correlatiediagram dat ook tweerichtingsfrequentieverdeling of bivariate frequentieverdeling wordt genoemd.

De keuze van de grootte van klasse-interval en limiet van intervallen volgt grotendeels dezelfde regels als eerder werden gegeven. Om dit idee te verduidelijken, beschouwen we een bivariate gegevens die betrekking hebben op de scores behaald door een klas van 20 studenten in het natuur- en wiskunde-examen.

Een spreidingsdiagram voorbereiden:

Bij het instellen van een dubbele groep gegevens wordt een tabel opgesteld met kolommen en rijen. Hier classificeren we elk paar variaties tegelijkertijd in de twee klassen, waarvan één de score weergeeft in Natuurkunde (X) en de andere in Wiskunde (Y) zoals weergegeven in Tabel 5.6.

De scores van 20 studenten in zowel Fysica (X) als Wiskunde (Y) worden weergegeven in de onderstaande tabel:

We kunnen gemakkelijk een bivariate frequentie distributietabel voorbereiden door voor elk paar scores een vergelijking te maken. De constructie van een spreidingsdiagram is vrij eenvoudig. We moeten een tafel klaarmaken zoals weergegeven in het bovenstaande schema.

Langs de linkerkant worden de klassenintervallen van de X-verdeling van beneden naar boven (in stijgende volgorde) ontgrendeld. Langs de bovenkant van het diagram worden de c.i's van de Y-verdeling van links naar rechts ontgrendeld (in oplopende volgorde).

Elk paar scores (beide in X en Y) wordt weergegeven door een telling in de respectieve cel. Nr. 1 student heeft 32 behaald in Physics (X) en 25 in Mathematics (Y). Zijn score van 32 in (X) plaatst hem in de laatste rij en 25 in (Y) plaatst hem in de tweede kolom. Dus voor het paar scores (32, 25) wordt een telling gemarkeerd in de tweede kolom van de 5e rij.

Op een vergelijkbare manier, in geval van Nr. 2 student, voor scores (34, 41), zullen we een telling plaatsen in de 4e kolom van de 5e rij. Op dezelfde manier worden 20 overeenkomsten in de respectieve rijen en kolommen geplaatst. (De rijen vertegenwoordigen de X-scores en de kolommen vertegenwoordigen de Y-scores).

Langs de rechtermarge is de f x kolom, het aantal gevallen in elke ci, van de X-verdeling getabelleerd en langs de onderkant van het diagram in de rij, het aantal gevallen in elke ci, van de Y-verdeling zijn tabelvorm.

Het totaal van de f x kolom is 20 en het totaal van de fy rij is ook 20. Het is in feite een bi-variabele verdeling omdat het de gezamenlijke verdeling van twee variabelen weergeeft. Het spreidingsdiagram is dan een 'correlatietabel'.

Berekening van r uit een correlatietabel:

De volgende schets van de stappen die moeten worden gevolgd bij het berekenen van r zal het best worden begrepen als de student voortdurend naar Tabel 5.7 verwijst wanneer hij elke stap leest:

Stap 1:

Construeer een spreidingsdiagram voor de twee te correleren variabelen en maak daaruit een correlatietabel.

Stap 2:

Tel de frequenties van elke ci van distributie - X en noteer deze in de f x kolom. Tel de frequenties voor elke ci van verdeling - Y en vul de rij fy op.

Stap 3:

Neem een ​​gemiddelde voor de X-verdeling en markeer de ci in dubbele lijnen. Laten we in de gegeven correlatietabel het gemiddelde op de ci, 40 - 49 aannemen en dubbele lijnen plaatsen zoals in de tabel wordt getoond. De afwijkingen boven de lijn van AM zijn (+ ve) en de afwijkingen eronder zijn (- ve).

De afwijking tegen de lijn van AM, dat wil zeggen tegen de ci waarbij we veronderstelden dat het gemiddelde is gemarkeerd met 0 (nul) en daarboven zijn de d' s genoteerd als +1, +2. 13 en eronder is d genoteerd als - 1. Nu is dx kolom opgevuld. Vermenigvuldig vervolgens f x . en dx van elke rij om fdx te krijgen. Vermenigvuldig dx en fdx van elke rij om fdx 2 te krijgen.

[Opmerking: tijdens het berekenen van de SD in de veronderstelde gemiddelde methode namen we een gemiddelde aan, markeerden de d's en berekenden fd en fd 2 . Hier wordt ook dezelfde procedure gevolgd.]

Stap 4:

Gebruik dezelfde procedure als in stap 3 en bereken dy, fdy en fdy 2 . Laten we voor de verdeling-Y het gemiddelde nemen in de ci 20-29 en dubbele lijnen plaatsen om de kolom te markeren, zoals in de tabel wordt getoond. De afwijkingen links van deze kolom zijn negatief en juist positief.

Dus d voor de kolom waarbij het gemiddelde wordt aangenomen, is gemarkeerd met 0 (nul) en de d links daarvan is gemarkeerd - 1 en d ' s rechts zijn gemarkeerd met +1, +2 en +3. Nu is de kolom dy gevuld. Vermenigvuldig de waarden van fy en dy van elke kolom om fdy te krijgen. Vermenigvuldig de waarden van dy en fdy met elke kolom om fdy 2 te krijgen.

Stap 5:

Aangezien deze fase een belangrijke fase is, moeten we zorgvuldig de berekening van dy voor verschillende CI's van distributie X en dx voor verschillende CI's van distributie -Y markeren.

dy voor verschillende ci's van distributie-X: In de eerste rij staat 1 f onder de kolom, 20-29 waarvan dy 0 is (kijk naar de onderkant.) De dy- invoer van deze rij is 0). Wederom is 1 f onder de kolom, 40-49 waarvan het dy + 2 is. Dus dy voor de eerste rij = (1 x 0) + (1 x 2) = + 2.

In de tweede rij vinden we dat:

1 f is onder de kolom, 40-49 waarvan dy + 2 is en

2 f s staan ​​onder de kolom, 50-59 waarvan de dy 's elk + 3 zijn.

Dus dy voor 2e rij = (1 x 2) + (2 X 3) = 8.

In de derde rij,

2 f s staan ​​onder de kolom, 20-29 waarvan de dy 's elk 0 zijn,

2 f s staan ​​onder de kolom, 40-49 waarvan de dy 's elk +2 zijn, en 1 f onder de kolom 50-59, waarvan dy +3 is.

Dus dy voor de 3e rij = (2 x 0) + (2 x 2) + (1 X 3) = 7.

In de 4e rij,

3 f s staan ​​onder de kolom, 20-29 waarvan de dy 's elk 0 zijn,

2 f s zijn onder de kolom, 30-39 waarvan de dy 's elk +1 zijn, en 1 f onder de kolom 50-59 is, waarvan dy + 3 is,

Dus dy voor de 4e rij = (3 X 0) + (2 X 1) + (1 x 3) = 5.

Evenzo in de 5e rij

dy voor de vijfde rij = (2 x - 1) + (1 x 0) + (1 x 2) = 0

dx voor verschillende ci, 'v van distributie - Y:

In de eerste kolom,

2 f s staan ​​tegen de rij, 30-39 waarvan dx - 1 is.

Dus dx van de 1e kolom = (2 x - 1) = - 2

In de tweede kolom,

1 f is tegen de ci, 70-79 waarvan dx +3 is,

2 f s zijn tegen de ci, 50-59 wiens dx 's elk +1 zijn,

3 f s zijn tegen de ci, 40-49 waarvan de dx 's elk 0 zijn,

1 f is tegen de ci, 30-39 waarvan dx - 1 is.

Dus dx voor de 2e kolom = (1 x 3) + (2 X 1) + (3 X 0) + (1 x - 1) = 4. In de derde kolom,

dx voor de derde kolom = 2 × 0 = 0

In de vierde kolom,

dx voor de 4de kolom = (1 x 3) + (1 x 2) + (2 x 1) + (1 x - 1) = 6.

In de vijfde kolom,

dx voor de 5de kolom = (2 x 2) + (1 x 1) + (1 X 0) = 5.

Stap 6:

Bereken nu dx.dy elke verdelingsrij - X door de dx- invoeren van elke rij te vermenigvuldigen met dy- waarden van elke rij. Bereken vervolgens dx.dy voor elke distributiekolom - Y door de dy- entries van elke kolom te vermenigvuldigen met de dx- vermeldingen van elke kolom.

Stap 7:

Neem nu de algebraïsche som van de waarden van de kolommen fdx, fdx 2, dy en dx.dy (voor distributie - X). Neem de algebraïsche som van de waarden van de rijen fdy, fdy 2, dx en dx.dy (voor distributie - Y)

Stap 8:

Σ. dx.dy van X-verdeling = Σ dx.dy van Y-verdeling

Σ fdx = totaal van dx rij (ie Σ dx )

Σ fdy = totaal van dy kolom (ie Σ dy )

Stap 9:

De waarden van de symbolen zoals gevonden

Σ fdx = 13, Σ fd 2 x = 39

Σ fdy = 22, Σ fd 2 y = 60

Σ dx.dy = 29 en N = 20.

Voor het berekenen van de correlatiecoëfficiënt in een correlatietabel kan de volgende formule worden toegepast:

We kunnen markeren dat we in de noemer van formule (31) de formule toepassen voor een x en een y met uitzondering van geen i's. We kunnen hier opmerken dat C x, C y, σ x, σ v allemaal worden uitgedrukt in eenheden van klasse-intervallen (dat wil zeggen, in eenheid van i). Dus, tijdens het berekenen van σ x en σ y, worden geen i's gebruikt. Dit is wenselijk omdat alle productafwijkingen, dwz Σ dx.dy ' s zich in intervaleenheden bevinden.

We berekenen dus:

Interpretatie van de coëfficiënt van correlatie:

Alleen de berekening van de correlatie heeft geen betekenis tot en tenzij we bepalen hoe groot de coëfficiënt moet zijn om significant te zijn, en wat vertelt correlatie ons over de gegevens? Wat bedoelen we met de verkregen waarde van de correlatiecoëfficiënt?

Verkeerde interpretatie van de Coëfficiënt van Correlatie:

Soms interpreteren we de waarde van de correlatiecoëfficiënt verkeerd en stellen we de oorzaak en gevolgrelatie vast, dwz één variabele veroorzaakt de variatie in de andere variabele. Eigenlijk kunnen we niet op deze manier interpreteren tenzij we een logische basis hebben.

Correlatiecoëfficiënt geeft ons een kwantitatieve bepaling van de mate van relatie tussen twee variabelen X en Y, en geen informatie over de aard van de associatie tussen de twee variabelen. Oorzaak impliceert een onveranderlijke reeks: A leidt altijd naar B, terwijl correlatie eenvoudig een maat is voor de onderlinge associatie tussen twee variabelen.

Er kan bijvoorbeeld een hoge correlatie zijn tussen onaangepast gedrag en angst:

Maar op basis van een hoge correlatie kunnen we niet zeggen dat onaangepastheid angst veroorzaakt. Het kan zijn dat een hoge angst de oorzaak is van onaangepast gedrag. Dit toont aan dat onaangepast gedrag en faalangst onderling geassocieerde variabelen zijn. Overweeg een ander voorbeeld.

Er is een hoge correlatie tussen geschiktheid in een vak op school en de prestatie in het onderwerp. Aan het einde van de schoolexamens zal dit een oorzakelijk verband weerspiegelen? Het kan wel of niet.

De onverschilligheid in de studie van het onderwerp veroorzaakt zeker variatie in de prestatie van het onderwerp, maar de hoge prestatie van de student in het onderwerp is niet alleen het gevolg van de hoge aanleg; het kan ook te wijten zijn aan de andere variabelen.

Dus, bij het interpreteren van de grootte van de correlatiecoëfficiënt in termen van oorzaak en gevolg, is het passend, als en alleen als de onderzochte variabelen een logische basis vormen voor een dergelijke interpretatie.

Factoren die van invloed zijn op de grootte van de correlatiecoëfficiënt:

We moeten ons ook bewust zijn van de volgende factoren die de grootte van de correlatiecoëfficiënt beïnvloeden en tot verkeerde interpretatie kunnen leiden:

1. De grootte van "r" is in grote mate afhankelijk van de variabiliteit van gemeten waarden in het gecorreleerde monster. Hoe groter de variabiliteit, des te hoger zal de correlatie zijn, terwijl al het andere gelijk is.

2. De grootte van 'r' wordt gewijzigd wanneer een onderzoeker een extreme groep onderwerpen selecteert om deze groepen te vergelijken met betrekking tot bepaald gedrag. "R" verkregen uit de gecombineerde gegevens van extreme groepen zou groter zijn dan de "r" verkregen uit een willekeurig monster van dezelfde groep.

3. Toevoeging of het laten vallen van de extreme gevallen uit de groep kan leiden tot verandering van de grootte van "r". Toevoeging van het extreme geval kan de grootte van de correlatie vergroten, terwijl het laten vallen van de extreme gevallen de waarde van "r" zal verlagen.

Gebruik van Productmoment r:

Correlatie is een van de meest gebruikte analytische procedures op het gebied van educatieve en psychologische metingen en evaluaties. Het is nuttig in:

ik. Beschrijven van de mate van overeenkomst (of relatie) tussen twee variabelen.

ii. Voorspelling van één variabele - de afhankelijke variabele op basis van onafhankelijke variabele.

iii. Een test valideren; bijvoorbeeld een groepsintelligentietest.

iv. Bepaling van de mate van objectiviteit van een test.

v. Educatieve en beroepskeuzebegeleiding en bij besluitvorming.

vi. Bepaling van de betrouwbaarheid en validiteit van de test.

vii. Bepaling van de rol van verschillende correlaten met een bepaald vermogen.

viii. Factoranalysetechniek voor het bepalen van de factorbelasting van de onderliggende variabelen in menselijke vaardigheden.

Aannames van Productmoment r :

1. Normale verdeling:

De variabelen waarvan we de correlatie willen berekenen, moeten normaal verdeeld zijn. De aanname kan worden gelegd door middel van willekeurige steekproeven.

2. Lineariteit:

De product-momentcorrelatie kan in een rechte lijn worden weergegeven, die bekend staat als lineaire correlatie.

3. Continue serie:

Meting van variabelen op continue series.

4. Homoscedasticiteit:

Het moet voldoen aan de voorwaarde van homoscedasticiteit (gelijke variabiliteit).

3. Spearman's Rank Correlation Coefficient:

Er zijn een aantal situaties in het onderwijs en de psychologie waar de objecten of individuen gerangschikt en gerangschikt kunnen worden in volgorde van verdienste of vaardigheid op twee variabelen en wanneer deze 2 reeksen van covary of een overeenkomst daartussen hebben, meten we de mate van relatie per rangcorrelatie .

Ook hier zijn er problemen waarbij de relatie tussen de gemaakte metingen niet-lineair is en niet kan worden beschreven door het productmoment r.

Bijvoorbeeld, de evaluatie van een groep studenten op basis van leiderschapskwaliteiten, de volgorde van vrouwen in een schoonheidswedstrijd, studenten gerangschikt in volgorde van voorkeur of de foto's kunnen worden gerangschikt volgens hun esthetische waarden. Medewerkers kunnen door toezichthouders worden gerangschikt op werkprestaties.

Schoolkinderen kunnen door leerkrachten worden gerangschikt op sociale aanpassing. In dergelijke gevallen kunnen objecten of individuen gerangschikt en gerangschikt worden in volgorde van verdienste of vaardigheid op twee variabelen. Spearman heeft een formule ontwikkeld met de naam Rangcorrelatiecoëfficiënt om de mate of mate van correlatie tussen twee sets van rangen te meten.

Deze correlatiecoëfficiënt wordt aangegeven met de Griekse letter ρ (Rho genaamd) en wordt gegeven als:

waar, ρ = rho = Spearman's Rank Correlation Coefficient

D = Verschil tussen gepaarde rangen (in elk geval)

N = Totaal aantal gerangschikte items / individuen.

Kenmerken van Rho (ρ):

1. In de Rank Correlation Coefficient zijn de waarnemingen of metingen van de bivariate variabele gebaseerd op de ordinale schaal in de vorm van rangen.

2. De grootte van de coëfficiënt wordt rechtstreeks beïnvloed door de grootte van de rangverschillen.

(een) Als de rangen voor beide tests hetzelfde zijn, is elk rangverschil nul en zal uiteindelijk D 2 nul zijn. This means that the correlation is perfect; ie 1.00.

(B) If the rank differences are very large, and the fraction is greater than one, then the correlation will be negative.

Assumptions of Rho (ρ):

ik. N is small or the data are badly skewed.

ii. They are free, or independent, of some characteristics of the population distribution.

iii. In many situations Ranking methods are used, where quantitative measurements are not available.

iv. Though quantitative measurements are available, ranks are substituted to reduce arithmetical labour.

v. Such tests are described as non-parametric.

vi. In such cases the data are comprised of sets of ordinal numbers, 1st, 2nd, 3rd….Nth. These are replaced by the cardinal numbers 1, 2, 3, ………, N for purposes of calculation. The substitution of cardinal numbers for ordinal numbers always assumes equality of intervals.

I. Calculating ρ from Test Scores:

Voorbeeld 1:

The following data give the scores of 5 students in Mathematics and General Science respectively:

Compute the correlation between the two series of test scores by Rank Difference Method.

The value of coefficient of correlation between scores in Mathematics and General Science is positive and moderate.

Steps of Calculation of Spearman's Co-efficient of Correlation:

Stap 1:

List the students, names or their serial numbers in column 1.

Stap 2:

In column 2 and 3 write scores of each student or individual in test I and II.

Stap 3:

Take one set of score of column 2 and assign a rank of 1 to the highest score, which is 9, a rank of 2 to the next highest score which is 8 and so on, till the lowest score get a rank equal to N; which is 5.

Stap 4:

Take the II set of scores of column 3, and assign the rank 1 to highest score. In the second set the highest score is 10; hence obtain rank 1. The next highest score of B student is 8; hence his rank is 2. The rank of student C is 3, the rank of E is 4, and the rank of D is 5.

Stap 5:

Calculate the difference of ranks of each student (column 6).

Stap 6:

Check the sum of the differences recorded in column 6. It is always zero.

Stap 7:

Each difference of ranks of column 6 is squared and recorded in column 7. Get the sum ∑D 2 .

Stap 8:

Put the value of N and 2D 2 in the formula of Spearman's co-efficient of correlation.

2. Calculating from Ranked Data:

Voorbeeld 2:

In a speech contest Prof. Mehrotra and Prof. Shukla, judged 10 pupils. Their judgements were in ranks, which are presented below. Determine the extent to which their judgements were in agreement.

The value of co-efficient of correlation is + .83. This shows a high degree of agreement between the two judges.

3. Calculating ρ (Rho) for tied Ranks:

Voorbeeld 3:

The following data give the scores of 10 students on two trials of test with a gap of 2 weeks in Trial I and Trial II.

Compute the correlation between the scores of two trials by rank difference method:

The correlation between Trial I and II is positive and very high. Look carefully at the scores obtained by the 10 students on Trial I and II of the test.

Do you find any special feature in the scores obtained by the 10 students? Probably, your answer will be “yes”.

In the above table in column 2 and 3 you will find that more than one students are getting the same scores. In column 2 students A and G are getting the same score viz. 10. In column 3, the students A and B, C and F and G and J are also getting the same scores, which are 16, 24 and 14 respectively.

Definitely these pairs will have the same ranks; known as Tied Ranks. The procedure of assigning the ranks to the repeated scores is somewhat different from the non-repeated scores.

Look at column 4. Student A and G have similar scores of 10 each and they possess 6th and 7th rank in the group. Instead of assigning the 6th and 7th rank, the average of the two rank ie 6.5 (6 + 7/2 = 13/2) has been assigned to each of them.

The same procedure has been followed in respect of scores on Trial II. In this case, ties occur at three places. Students C and F have the same score and hence obtain the average rank of (1 + 2/2 = 1.5). Student A and B have rank position 5 and 6; hence are assigned 5.5 (5 + 6/2) rank each. Similarly student G and J have been assigned 7.5 (7 + 8/2) rank each.

If the values are repeated more than twice, the same procedure can be followed to assign the ranks:

Bijvoorbeeld:

if three students get a score of 10, at 5th, 6th and 7th ranks, each one of them will be assigned a rank of 5 + 6 + 7/3= 6.

The rest of the steps of procedure followed for calculation of ρ (rho) are the same as explained earlier.

Interpretation:

The value of ρ can also be interpreted in the same way as Karl Pearson's Coefficient of Correlation. It varies between -1 and + 1. The value + 1 stands for a perfect positive agreement or relationship between two sets of ranks while ρ = – 1 implies a perfect negative relationship. In case of no relationship or agreement between ranks, the value of ρ = 0.

Advantages of Rank Difference Method:

1. The Spearman's Rank Order Coefficient of Correlation computation is quicker and easier than (r) computed by the Pearson's Product Moment Method.

2. It is an acceptable method if data are available only in ordinal form or number of paired variable is more than 5 and not greater than 30 with minimum or a few ties in ranks.

3. It is quite easy to interpret p.

beperkingen:

1. When the interval data are converted into rank-ordered data the information about the size of the score differences is lost; eg in the Table 5.10, if D in Trial II gets scores from 18 up to 21, his rank remains only 4.

2. If the number of cases are more, giving ranks to them becomes a tedious job.