Korrelasjon: Betydning, Typer og Beregning

Etter å ha lest denne artikkelen vil du lære om: - 1. Definisjoner av korrelasjon 2. Betydning av korrelasjon 3. Trenger 4. Typer 5. Metoder for databehandling.

Definisjoner av korrelasjon:

Hvis endringen i en variabel ser ut til å være ledsaget av en endring i den andre variabelen, sies de to variablene å være korrelerte, og denne interdependensen kalles korrelasjon eller kovariasjon.

Kort sagt kalles tendensen til samtidig variasjon mellom to variabler korrelasjon eller kovariasjon. For eksempel kan det forekomme et forhold mellom høyder og vekter av en gruppe studenter, antall studenter i to forskjellige fag forventes å ha en gjensidig avhengighet eller forhold mellom dem.

For å måle graden av forhold eller kovariasjon mellom to variabler er gjenstand for korrelasjonsanalyse. Korrelasjon betyr altså forholdet eller "sammenheng" eller korrespondanse mellom to variabler.

I statistikk er korrelasjon en metode for å bestemme korrespondansen eller forholdsmessigheten mellom to serier av tiltak (eller score). For å si det enkelt, indikerer korrelasjonen forholdet mellom en variabel med den andre.

Betydning av korrelasjon:

For å måle graden av forening eller forhold mellom to variabler kvantitativt, brukes en relasjonsindeks og kalles som koeffektiv av korrelasjon.

Koeffektiv av korrelasjon er en numerisk indeks som forteller oss i hvilken grad de to variablene er relaterte og i hvilken grad variasjonene i en variabel endres med variasjonene i den andre. Koeffektiviteten er alltid symbolisert enten ved r eller p (Rho).

Begrepet 'r' er kjent som korrelasjonskoeffektivitet for produktmoment eller Karl Pearsons korrelasjonskoeffisient. Symbolet 'ρ' (Rho) er kjent som Rank Difference Correlation Coefficient eller Spearman's Rank Correlation Coefficient.

Størrelsen på ' r ' indikerer mengden (eller graden eller omfanget) av korrelasjonsskipet mellom to variabler. Hvis korrelasjonen er positiv er verdien av ' r ' + ve og hvis korrelasjonen er negativ, er verdien av V negativ. Dermed angir tegnene på koeffisienten det slags forhold. Verdien av V varierer fra +1 til -1.

Korrelasjonen kan variere mellom perfekt positiv korrelasjon og perfekt negativ korrelasjon. Den øverste delen av skalaen indikerer perfekt positiv korrelasjon, og den vil begynne fra +1, og da vil den passere gjennom null, noe som indikerer hele fraværet av korrelasjon.

Bunnen av skalaen avsluttes ved -1, og den vil indikere perfekt negativ korrelasjon. Dermed er numerisk måling av korrelasjonen tilveiebrakt av skalaen som går fra +1 til -1.

[NB-Korrelasjonskoeffisienten er et tall og ikke en prosentandel. Den er vanligvis avrundet med to desimaler].

Behov for korrelasjon:

Korrelasjon gir mening til en konstruksjon. Korrelasjonsanalyse er viktig for grunnleggende psyko-pedagogisk forskning. Faktisk er det meste av grunnleggende og anvendt psykologisk forskning korrelasjonsmessig.

Korrelasjonsanalyse kreves for:

(i) Finne egenskaper av psykologiske og pedagogiske tester (pålitelighet, validitet, elementanalyse, etc.).

(ii) Teste om visse data stemmer overens med hypotesen.

(iii) Forutsi en variabel på grunnlag av kjennskap til de andre (e).

(iv) Å bygge psykologiske og pedagogiske modeller og teorier.

(v) Gruppering av variabler / tiltak for parsimonisk tolkning av data.

(vi) Gjennomføre multivariate statistiske tester (Hoteling's T 2 ; MANOVA, MANCOVA, Diskriminantanalyse, Factor Analysis).

(vii) Isolerende påvirkning av variabler.

Typer av korrelasjon:

I en bivariatfordeling kan korrelasjonen være:

1. Positiv, negativ og null korrelasjon; og

2. Lineær eller krøllete (ikke-lineær).

1. Positiv, negativ eller null korrelasjon:

Når økningen i en variabel (X) følges av en tilsvarende økning i den andre variabelen (Y); Korrelasjonen sies å være positiv korrelasjon. De positive korrelasjonene varierer fra 0 til +1; den øvre grensen, dvs. +1 er den perfekte positive korrelasjonskoeffisienten.

Den perfekte positive korrelasjonen spesifiserer at for hver enhet økning i en variabel, er det proporsjonal økning i den andre. For eksempel "Varme" og "Temperatur" har en perfekt positiv korrelasjon.

Hvis derimot, økningen i en variabel (X) resulterer i en tilsvarende reduksjon i den andre variabelen (Y), er korrelasjonen sies å være negativ korrelasjon.

Den negative korrelasjonen varierer fra 0 til -1; den nedre grensen gir den perfekte negative korrelasjonen. Den perfekte negative korrelasjonen indikerer at for hver enhet økning i en variabel, er det proporsjonal enhet reduksjon i den andre.

Null korrelasjon betyr ingen sammenheng mellom de to variablene X og Y; dvs. endringen i en variabel (X) er ikke knyttet til endringen i den andre variabelen (Y). For eksempel kroppsvekt og intelligens, sko størrelse og månedslønn; etc. nullkorrelasjonen er midtpunktet av området - 1 til + 1.

2. Lineær eller krøllete korrelasjon:

Linjær korrelasjon er forholdet mellom forandring mellom de to variablene, enten i samme retning eller motsatt retning, og den grafiske representasjonen av den ene variabelen med hensyn til annen variabel er rettlinje.

Tenk på en annen situasjon. Først, med økning av en variabel, øker den andre variabelen proporsjonalt opp til noe punkt; etter det med en økning i den første variabelen begynner den andre variabelen å avta.

Den grafiske representasjonen av de to variablene vil være en buet linje. Et slikt forhold mellom de to variablene er betegnet som den krøllete korrelasjonen.

Metoder for Computing Co-Effective of Correlation:

I lette ugrupperte data om bivariatfordeling brukes følgende tre metoder til å beregne verdien av koeffektivitet av korrelasjon:

1. Scatter diagrammetode.

2. Pearson produkt øyeblikk Co-effektiv av korrelasjon.

3. Spearman's Rank Order Co-effektiv of Correlation.

1. Scatter Diagram Metode:

Scatterdiagram eller punktdiagram er en grafisk enhet for å tegne bestemte konklusjoner om korrelasjonen mellom to variabler.

Ved utarbeidelse av et scatterdiagram plottes de observerte observasjonsparene av prikker på et grafpapir i et todimensjonalt rom ved å ta målingene på variabel X langs den horisontale aksen og den på variabel Y langs den vertikale akse.

Plasseringen av disse punktene i grafen viser endringen i variabelen om de endrer seg i samme eller i motsatt retning. Det er en veldig enkel, enkel men grov metode for å beregne korrelasjon.

Frekvensene eller punktene er plottet på en graf ved å ta passende skalaer for de to seriene. De plottede punktene vil ha en tendens til å konsentrere seg i et bånd av større eller mindre bredde i henhold til sin grad. 'Linjen med best passform' er tegnet med en frihånd og retningen indikerer arten av korrelasjonen. Scatterdiagrammer, som et eksempel, viser ulike grader av korrelasjon, er vist i figur 5.1 og figur 5.2.

Hvis linjen går oppover og denne oppadgående bevegelsen er fra venstre til høyre, vil den vise positiv korrelasjon. På samme måte, hvis linjene beveger seg nedover og retningen er fra venstre til høyre, vil den vise negativ korrelasjon.

Graden av skråning vil indikere graden av korrelasjon. Hvis de plottede punktene er spredt vidt, vil det vise mangel på korrelasjon. Denne metoden beskriver bare "faktumet" at korrelasjonen er positiv eller negativ.

2. Pearson produkt øyeblikk Co-effektiv av korrelasjon:

Korrelasjonskoeffisienten, r, kalles ofte "Pearson r" etter professor Karl Pearson som utviklet produkt-moment-metoden, etter det tidligere arbeidet i Gallon og Bravais.

Korrelasjonsfaktor som forhold:

Korrelasjonsprodukt-momentskoeffisienten kan betraktes som i det vesentlige som det forhold som uttrykker i hvilken grad endringer i en variabel er ledsaget av eller avhengig av endringer i en andre variabel.

Som en illustrasjon, se følgende enkle eksempel som gir de parrede høyder og vekter av fem studenter:

Den gjennomsnittlige høyden er 69 tommer, den gjennomsnittlige vekten 170 pounds, og o er 2, 24 tommer og o er henholdsvis 13, 69 pounds. I kolonnen (4) er avviket (x) av hver elevs høyde fra gjennomsnittlig høyde, og i kolonne (5) avviket (y) av hver elevs vekt fra middelvekten gitt. Produktet av disse parrede avvikene (xy) i kolonne (6) er et mål for avtalen mellom individuelle høyder og vekter. Jo større summen av xy-kolonnen jo høyere grad av korrespondanse. I eksempelet ovenfor er verdien av Σxy / N 55/5 eller 11. Når perfekt avtale, dvs. r = ± 1, 00, overstiger verdien av Σ xy / N maksimumsgrensen.

Således ville Σ xy / N ikke gi et passende forhold til forholdet mellom x og y. Årsaken er at et slikt gjennomsnitt ikke er et stabilt mål, da det ikke er uavhengig av enhetene hvor høyde og vekt er uttrykt.

Som følge av dette vil dette forholdet variere hvis sentimeter og kilo er ansatt i stedet for tommer og pund. En måte å unngå trøbbel på - noen ting om forskjeller i enheter er å uttrykke hvert avvik som en σ-score eller standard score eller Z-poengsum, dvs. å dele hver x og y med egen σ.

Hver x- og y-avvik uttrykkes da som et forhold, og er et rent tall uavhengig av testenhetene. Summen av produktene i σ-resultatkolonnen (9) divisjonert med N gir et forhold som er et stabilt uttrykk for forholdet. Dette forholdet er korrelasjonskoeffisienten "produkt-moment". I vårt eksempel viser dens verdi på .36 en forholdsvis høy positiv korrelasjon mellom høyde og vekt i denne lille prøven.

Studenten skal merke seg at vårt forhold eller koeffisient er bare det gjennomsnittlige produktet av σ-resultatene av tilsvarende X- og Y-målinger, dvs.

Naturen til r xy :

(i) r xy er et produkt øyeblikk r

(ii) r xy er et forhold, = r xy .

(iii) r xy kan være + ve eller - ve bundet av grenser - 1, 00 til + 1, 00.

(iv) r xy kan betraktes som et aritmetisk middel (r xy er gjennomsnittet av standard score produkter).

(v) r xy påvirkes ikke av noen lineær transformasjon av score på enten X eller Y eller begge deler.

(vi) Når variabler er i standard score skjemaet, gir r et mål på gjennomsnittlig mengde endring i en variabel assosiert med endringen av en enhet den andre variabelen.

(vii) r xy = √b yx b xy hvor b yx = regresjonskoeffisienten Y på X, b xy = regresjonskoeffisienten for X på Y. r xy = kvadratroten av regresjonslinjens bakker.

(Viii) r xy er ikke påvirket av størrelsen på midler (score er alltid relativ).

(Ix) r xy kan ikke beregnes hvis en av variablene ikke har noen varians S 2 x eller S 2 Y = 0

(x) r xy av 60 betyr samme størrelsesforhold som r xy = - .60. Tegnet forteller om retningen for forholdet, og størrelsen på styrken av forholdet.

(xi) df for r xy er N - 2, som brukes til å teste betydningen av r xy . Testing signifikansen av r er testing av signifikans av regresjon. Regresjonslinjen innebærer skråning og avskjæring, dermed blir 2 df tapt. Så når N = 2, r xy er enten + 1, 00 eller - 1, 00 da det ikke er frihet for sampling variasjon i den numeriske verdien av r.

A. Beregning av r xy (ugyldig data) :

Her, ved hjelp av formelen for beregning av r, avhenger av "hvor fra avvikene er tatt". I forskjellige situasjoner kan avvikene tas fra enten det virkelige gjennomsnittet eller fra null eller fra AM Type Formel som er praktisk anvendt for beregning av koeffisientkorrelasjon, avhenger av middelverdien (enten i brøkdel eller hele).

(i) Formelen av r når avvik er tatt fra middel til de to fordelingene X og Y.

hvor r xy = Korrelasjon mellom X og Y

x = avvik av noen X-poengsum fra gjennomsnittet i testen X

y = avvik av tilsvarende Y-poengsum fra gjennomsnittet i test Y.

Σxy = Summen av alle produktene av avvik (X og Y)

σ x og σ y = Standardavvik for fordelingen av X og Y score.

der x og y er avvik fra de faktiske midlene, og Σx 2 og Σy 2 er summene av kvadratiske avvik i x og y tatt fra de to midlene.

Denne formelen er foretrukket:

Jeg. Når middelverdiene til begge variablene ikke er i brøkdel.

ii. Når skal du finne ut korrelasjonen mellom korte, ugrupperte serier (si fem eller fem saker eller så).

iii. Når avvik skal tas fra virkelige midler til de to fordelingene.

Trinnene som er nødvendige er illustrert i tabell 5.1. De er oppført her:

Trinn 1:

Liste i parallelle kolonner de parrede X- og Y-poengene, sørg for at de tilsvarende resultatene er sammen.

Steg 2:

Bestem de to midlene M x og M y . I tabell 5.1 er disse henholdsvis 7, 5 og 8, 0.

Trinn 3:

Bestem for hvert par poeng de to avvikene x og y. Sjekk dem ved å finne algebraiske summer, som skal være null.

Trinn 4:

Firkant alle avvikene, og list i to kolonner. Dette er for å beregne σ x og σ y .

Trinn 5:

Sum firkantene av avvikene for å oppnå Σx 2 og Σy 2 Finn xy produkt og sum disse for Σxy.

Trinn 6:

Fra disse verdiene beregner σ x og σ y .

En alternativ og kortere løsning:

Det er en alternativ og kortere rute som utelater beregningen av σ x og σ y, dersom de ikke trengs for noe annet formål.

Bruk av formel (28):

(ii) Beregning av r xy fra originale poeng eller råpoeng:

Det er en annen prosedyre med ugrupperte data, som ikke krever bruk av avvik. Det handler helt med originale poeng. Formelen kan se forby, men er veldig enkel å søke på.

Denne formelen er foretrukket:

Jeg. Når skal du beregne r fra direkte rå score.

ii. Original score ft. Når data er små ugruppert.

iii. Når gjennomsnittlige verdier er i brøkdeler.

iv. Når god beregningsmaskin er tilgjengelig.

X og Y er originale poeng i variabler X og Y. Andre symboler forteller hva som er gjort med dem.

Vi følger trinnene som er illustrert i tabell 5.2:

Trinn 1:

Firkant alle X og Y målinger.

Steg 2:

Finn XY-produktet for hvert par score.

Trinn 3:

Summen av X, Y, X 2, Y 2 og XY.

Trinn 4:

Bruk formel (29):

(ii) Beregning av r xy når avvik er tatt fra antatt middel:

Formelen (28) er nyttig i beregning av r direkte fra to ugrupperte serier av poeng, men den har ulemper som den krever "lang metode" av beregningsmidler og a . Avvikene x og y når de tas fra faktiske midler, er vanligvis desimaler, og multiplikasjonen og kvadrering av disse verdiene er ofte en kjedelig oppgave.

Av denne grunn, selv når du arbeider med korte ugrupperte serier, er det ofte lettere å anta midler, beregne avvik fra disse AM-ene og bruke formelen (30).

Denne formelen er foretrukket:

Jeg. Når egentlige midler vanligvis er desimaler, og multiplikasjonen og kvadrering av disse verdiene ofte er en kjedelig oppgave.

ii. Når avvik er tatt fra AM.

iii. Når vi skal unngå fraksjoner.

Trinnene i databehandling r kan beskrives som følger:

Trinn 1:

Finn gjennomsnittet av Test 1 (X) og gjennomsnittet av Test 2 (Y). Midlene som vist i Tabell 5.3 M X = 62, 5 og M Y = 30, 4 henholdsvis.

Steg 2:

Velg AM av både X og Y, dvs AM X som 60, 0 og AM Y som 30, 0.

Trinn 3:

Finn avviket fra hver poengsum på Test 1 fra sin AM, 60, 0, og skriv det inn i kolonne x '. Deretter finner du avviket for hver poengsum i Test 2 fra sin AM, 30, 0, og skriv den inn i kolonne y '.

Trinn 4:

Plasser alle x 'og alle de' og skriv inn disse rutene i henholdsvis kolonne x ' 2 og y' 2 . Sum disse kolonnene for å oppnå Σx ' 2 og Σy' 2 .

Trinn 5:

Multipliser x 'og y', og skriv inn disse produktene (med behørig hensyn til tegn) i x'y-kolonnen. Total x'y 'kolonne, med hensyn til tegn, for å få Σx'y'.

Trinn 6:

Korrigeringer, C x og C y, finnes ved å subtrahere AM X fra M x og AM y fra M y . Deretter ble C x funnet som 2, 5 (62, 5 - 60, 0) og C y som .4 (30, 4 - 30, 0).

Trinn 7:

Erstatt for Σx'y ', 334, for Σx' 2, 670 og for Σy ' 2, 285 i formel (30), som vist i tabell 5.3, og løse for r xy.

Egenskaper av r :

1. Verdien av korrelasjonskoeffisienten r forblir uendret når en konstant legges til en eller begge variablene:

For å observere effekten på koeffisientkorrelasjonen r når en konstant legges til en eller begge variablene, vurderer vi et eksempel.

Nå legger vi en poengsum på 10 til hver poengsum i X og 20 til hver poengsum på Y og representerer disse poengene henholdsvis X 'og Y'.

Beregningene for beregning r for originale og nye observasjonsparametere er gitt i Tabell 5.4:

Ved å bruke formel (29), vil koeffisienten for korrelasjon av original score være:

Samme formel for nye poeng kan skrives som:

Dermed observerer vi at verdien av korrelasjonskoeffisienten r forblir uendret når en konstant legges til en eller begge variabler.

2. Verdien av korrelasjonskoeffisienten r forblir uendret når en konstant trekkes fra en eller begge variablene:

Studentene kan undersøke dette ved å ta et eksempel. Når hver poengsum av en eller begge variabler trekkes av en konstant, forblir verdien av korrelasjonskoeffisient r også uendret.

3. Verdien av korrelasjonskoeffisienten r forblir uendret når ett eller begge sett med variasjonsverdier blir multiplisert med noe konstant:

For å observere effekten av å multiplisere variablene med noen konstant på verdien av r, multipliserer vi vilkårlig de opprinnelige resultatene av første og andre sett i det forrige eksempelet med henholdsvis 10 og 20.

R mellom X 'og Y' kan da beregnes som under:

Korrelasjonen mellom koeffisienten mellom X 'og Y' vil være:

Dermed observerer vi at verdien av korrelasjonskoeffisienten r forblir uendret når en konstant multipliseres med ett eller begge sett med variasjonsverdier.

4. Verdien av r vil forbli uendret selv når ett eller begge sett med variasjonsverdier er delt med noen konstant:

Studentene kan undersøke dette ved å ta et eksempel.

B. Korrelasjonskoeffisient i grupperte data :

Når antall måleparametre (N) på to variabler X og Y er store, til og med moderate i størrelse, og når ingen beregningsmaskin er tilgjengelig, er den vanlige fremgangsmåten å gruppere data i både X og Y og for å danne et scatterdiagram eller korrelasjonsdiagram som også kalles toveis frekvensfordeling eller bivariate frekvensfordeling.

Valget av størrelsen på klasseintervall og grenser for intervaller følger mye de samme reglene som tidligere ble gitt. For å klargjøre ideen, vurderer vi en bivariate data som er berørt av poengene tjent med en klasse på 20 studenter i fysikk og matematikk eksamen.

Forbereder et scatterdiagram:

Ved å sette opp en dobbel gruppe av data, utarbeides et bord med kolonner og rader. Her klassifiserer vi hvert par variabler samtidig i de to klassene, en som representerer poengsum i fysikk (X) og den andre i matematikk (Y) som vist i tabell 5.6.

Resultatene på 20 studenter i både fysikk (X) og matematikk (Y) er vist i tabellen nedenfor:

Vi kan enkelt lage et bivariat frekvensfordelingsbord ved å sette tall for hvert par score. Byggingen av et scattergram er ganske enkelt. Vi må lage et bord som vist i diagrammet ovenfor.

Langs venstre margin er klasseintervallene for X-fordelingen lagt av fra bunn til topp (i stigende rekkefølge). Langs toppen av diagrammet legges c.i's av Y-fordelingen av fra venstre til høyre (i stigende rekkefølge).

Hvert par poeng (både i X og Y) er representert gjennom en telle i respektive celle. Nr. 1 student har sikret 32 ​​i fysikk (X) og 25 i matematikk (Y). Hans poengsum på 32 i (X) plasserer ham i siste rad og 25 i (Y) plasserer ham i den andre kolonnen. Så, for paret av poeng (32, 25) vil en tally bli merket i den andre kolonnen av 5. rad.

På lignende måte, i tilfelle nr. 2 student, for score (34, 41), skal vi sette en tally i den fjerde kolonnen i 5. rad. På samme måte blir 20 tall i de respektive radene og kolonnene. (Rammene representerer X-scoreene og kolonnene representerer Y-scoreene).

Langs den høyre marginen er fx- kolonnen, antallet tilfeller i hver ci, av X-fordelingen tabulert og langs bunnen av diagrammet i f raden er antall tilfeller i hver ci, med Y-fordeling, ordnet.

Summen av f x kolonnen er 20, og summen av f y rad er også 20. Det er faktisk en bi-variantfordeling fordi den representerer fellesfordeling av to variabler. Scattergrammet er da et "korrelasjonstabell".

Beregning av r fra et korrelasjonstabell:

Følgende oversikt over trinnene som skal følges ved beregning av r vil bli best forstått dersom studenten kontinuerlig vil henvise til tabell 5.7 som han leser gjennom hvert trinn:

Trinn 1:

Konstruer et scattergram for de to variablene som skal korreleres, og utarbeide et korrelasjonstabell.

Steg 2:

Telle frekvensene for hver ci for distribusjon - X og skriv den i f x kolonnen. Telle frekvensene for hver ci for distribusjon - Y og fyll opp f y- raden.

Trinn 3:

Anta et middel for X-fordelingen og merk av ci i dobbel linjer. I det angitte korrelasjonstabell, la oss anta gjennomsnittet på ci, 40-49 og sette dobbelt linjer som vist i tabellen. Avvikene over AM-linjen vil være (+ ve) og avvikene under det blir (- ve).

Avviket mot AM-linjen, dvs. mot ci hvor vi antok gjennomsnittet, er merket 0 (null) og over det er d' ene notert som +1, +2. 13 og under det er d merket å være - 1. Nå er dx kolonnen fylt opp. Deretter multipliserer f x . og dx av hver rad for å få fdx . Multipliser dx og fdx av hver rad for å få fdx 2 .

[Merk: Ved beregning av SD i den antatte gjennomsnittlige metoden antok vi et middel, som markerer d's og computing fd og fd 2 . Her følger også samme fremgangsmåte.]

Trinn 4:

Vedta samme fremgangsmåte som i trinn 3 og beregne dy, fdy og fdy 2 . For fordelingen-Y, la oss anta gjennomsnittet i ci 20-29 og sett to linjer for å markere av kolonnen som vist i tabellen. Avviket til venstre for denne kolonnen vil være negativt og riktig være positivt.

D, for den kolonne hvor det antas, er merket 0 (null) og d til venstre er merket - 1 og d til høyre er merket +1, +2 og +3. Nå dy kolonne er fylt opp. Multipliser verdiene av fy og dy av hver kolonne for å få fdy . Multipliser verdiene av dy og fdy til hver kolonne for å få fdy 2 .

Trinn 5:

Da denne fasen er en viktig, skal vi merke nøye for beregning av dy for forskjellige ci for distribusjon X og dx for forskjellige ci for distribusjon -Y.

dy for forskjellige distribusjonsceller: X: I første rad er 1 f under kolonnen 20-29 hvis dy er 0 (Se til bunnen. Dy- inngangen i denne raden er 0). Igjen er 1 f under kolonnen 40-49 hvis dy er + 2. Så dy for første rad = (1 x 0) + (1 x 2) = + 2.

I den andre raden finner vi at:

1 f er under kolonnen 40-49 hvis dy er + 2 og

2 f s er under kolonnen, 50-59 hvis dy er + 3 hver.

dy for 2. rad = (1 x 2) + (2 X 3) = 8.

I tredje rad,

2 f s er under kolonnen, 20-29 hvis dy er 0 hver,

2 f s er under kolonnen 40-49 hvis dy er +2 hver og 1 f er under kolonnen 50-59 hvis dy er +3.

Så dy for tredje rad = (2 x 0) + (2 x 2) + (1 X 3) = 7.

I fjerde rad,

3 f s er under kolonnen, 20-29 hvis dy er 0 hver,

2 f s er under kolonnen, 30-39 hvis dy er +1 hver og 1 f er under kolonnen 50-59 hvis dy er + 3,

dy for den fjerde raden = (3 X 0) + (2 X 1) + (1 x 3) = 5.

På samme måte i 5. rad

dy for 5. rad = (2 x - 1) + (1 x 0) + (1 x 2) = 0

dx for forskjellig ci, 'v for distribusjon - Y:

I den første kolonnen,

2 f s er mot rad, 30-39 hvis dx er - 1.

dx av den første kolonnen = (2 x - 1) = - 2

I den andre kolonnen,

1 f er mot ci, 70-79 hvis dx er +3,

2 f s er mot ci, 50-59 hvis dx er +1 hver,

3 f s er mot ci, 40-49 hvis dx er 0 hver,

1 f er mot ci, 30-39 hvis dx er - 1.

dx for den andre kolonnen = (1 x 3) + (2 X 1) + (3 X 0) + (1 x - 1) = 4. I den tredje kolonnen,

dx for tredje kolonne = 2 × 0 = 0

I den fjerde kolonnen,

dx for fjerde kolonne = (1 x 3) + (1 x 2) + (2 x 1) + (1 x - 1) = 6.

I den femte kolonnen,

dx for 5. kolonne = (2 x 2) + (1 x 1) + (1 X 0) = 5.

Trinn 6:

Nå beregner du dx.dy hver distribusjonsrute - X ved å multiplisere dx- oppføringene i hver rad med dy- poster i hver rad. Deretter beregner du dx.dy for hver distribusjonskolonne - Y ved å multiplisere dypoppføringer av hver kolonne med dx- oppføringene i hver kolonne.

Trinn 7:

Ta nå den algebraiske summen av verdiene til kolonnene fdx, fdx 2, dy og dx.dy (for distribusjon - X). Ta den algebraiske summen av verdiene av radene fdy, fdy 2, dx og dx.dy (for distribusjon - Y)

Trinn 8:

Σ. dx.dy av X-distribusjon = Σ dx.dy av Y-distribusjon

Σ fdx = totalt dx rad (dvs. Σ dx )

Σ fdy = total dykkolonne (dvs. Σ dy )

Trinn 9:

Verdiene av symbolene som funnet

Σ fdx = 13, Σ fd 2 x = 39

Σ fdy = 22, Σ fd 2 y = 60

Σ dx.dy = 29 og N = 20.

For å beregne korrelasjonskoeffisienten i en korrelasjonstabel, kan følgende formel brukes:

Vi kan merke at det i nevneren av formel (31) vi bruker formelen for en x og en y med unntak av nei jeg er. Vi kan merke seg at C x, C y, σ x, o v er uttrykt i enheter av klasseintervaller (dvs. i enhet av i). Således, mens du beregner σ x og σ y, brukes ingen jeg. Dette er ønskelig fordi alle produktavvikene ie, Σ dx.dy er i intervall enheter.

Dermed beregner vi:

Tolkning av korrelasjonskoeffisienten:

Bare beregning av korrelasjon har ingen betydning før og med mindre vi bestemmer hvor stor må koeffisienten være for å være signifikant, og hva forteller korrelasjonen oss om dataene? Hva mener vi med den oppnådde verdien av korrelasjonskoeffisienten?

Feilfortolkning av korrelasjonskoeffisienten:

Noen ganger fortolker vi verdien av korrelasjonsfaktor og etablerer årsak og effekt forholdet, dvs. en variabel som forårsaker variasjonen i den andre variabelen. Faktisk kan vi ikke tolke på denne måten med mindre vi har en god logisk base.

Korrelasjonskoeffisienten gir oss en kvantitativ bestemmelse av graden av forholdet mellom to variabler X og Y, ikke informasjon om arten av tilknytning mellom de to variablene. Forårsakelse innebærer en uforanderlig sekvens - A fører alltid til B, mens korrelasjon bare er et mål for gjensidig tilknytning mellom to variabler.

For eksempel kan det være en høy korrelasjon mellom feiljustering og angst:

Men på grunnlag av høy korrelasjon kan vi ikke si at feiljustering forårsaker angst. Det kan være mulig at høy angst er årsaken til feiljustering. Dette viser at feiljustering og angst er gjensidig tilknyttede variabler. Tenk på et annet eksempel.

Det er en høy korrelasjon mellom kompetanse i et fag på skolen og prestasjonen i emnet. På slutten av skolen eksamener vil dette reflektere årsakssammenheng? Det kan eller ikke.

Aptitude i studiet av fag forårsaker definitivt variasjon i oppnåelsen av emnet, men høy oppnåelse av studenten i faget er ikke bare resultatet av den høye kvalifikasjon; det kan skyldes de andre variablene også.

Når det tolkes størrelsen på korrelasjonskoeffektiviteten med hensyn til årsak og virkning, er det derfor hensiktsmessig, hvis og bare hvis variablene som undersøkes, gir en logisk basis for en slik tolkning.

Faktorer som påvirker størrelsen på korrelasjonskoeffisienten:

Vi bør også være oppmerksomme på følgende faktorer som påvirker størrelsen på korrelasjonskoeffisienten og kan føre til feilfortolkning:

1. Størrelsen på "r" er svært avhengig av variabiliteten av målte verdier i den korrelerte prøven. Jo større variabilitet, desto høyere er korrelasjonen, alt annet er like.

2. Størrelsen på 'r' endres når en etterforsker velger en ekstrem gruppe fag for å sammenligne disse gruppene med hensyn til bestemt oppførsel. "R" oppnådd fra de kombinerte dataene i ekstreme grupper ville være større enn "r" oppnådd fra en tilfeldig prøve av samme gruppe.

3. Tillegg eller fall av ekstreme tilfeller fra gruppen kan føre til endring på størrelsen på "r". Tilføyelse av ekstreme tilfellet kan øke størrelsen på korrelasjonen, mens slippe ekstreme tilfeller vil senke verdien av "r".

Bruk av produkt øyeblikk r:

Korrelasjon er en av de mest brukte analytiske prosedyrene innen pedagogisk og psykologisk måling og evaluering. Det er nyttig i:

Jeg. Beskrive graden av korrespondanse (eller forhold) mellom to variabler.

ii. Forutsigelse av en variabel - den avhengige variabelen på grunnlag av uavhengig variabel.

iii. Validerer en test; for eksempel en gruppe etterretningstest.

iv. Bestemme objektiviteten til en test.

v. Opplærings- og yrkesveiledning og i beslutningsprosesser.

vi. Bestemme påliteligheten og gyldigheten av testen.

vii. Bestemme rollen som ulike korrelerer til en viss evne.

viii. Faktoranalyse teknikk for å bestemme faktorbelastningen av de underliggende variablene i menneskelige evner.

Forutsetninger for produkt øyeblikk r :

1. Normal fordeling:

Variablene som vi ønsker å beregne korrelasjonen til, skal normalt distribueres. Forutsetningen kan legges fra tilfeldig prøvetaking.

2. Linearitet:

Produkt-moment korrelasjonen kan vises i rett linje som er kjent som lineær korrelasjon.

3. Kontinuerlig serie:

Måling av variabler på kontinuerlige serier.

4. Homoscedasticity:

Det må tilfredsstille tilstanden av homoscedasticitet (like variabilitet).

3. Spearmans rangkorrelasjonskoeffisient:

Det er noen situasjoner i utdanning og psykologi hvor objektene eller individene kan bli rangert og ordnet i orden av fortjeneste eller ferdighet på to variabler, og når disse 2 settene av rangerer covary eller har enighet mellom dem, måler vi grader av forhold ved rangering av korrelasjon .

Igjen er det problemer der forholdet mellom målingene som gjøres er ikke-lineært, og ikke kan beskrives av produkt-øyeblikket r.

Eksempelvis er evalueringen av en gruppe studenter basert på ledelsesevne, bestilling av kvinner i en skjønnhetskonkurranse, studenter rangert i preferanse rekkefølge, eller bildene kan rangeres i henhold til deres estetiske verdier. Ansatte kan bli rangordnet av veiledere på jobbprestasjon.

Skolebarn kan bli rangert av lærere på sosial tilpasning. I slike tilfeller kan objekter eller enkeltpersoner bli rangert og ordnet i henhold til meriter eller ferdigheter i to variabler. Spearman har utviklet en formel kalt Rank Correlation Coefficient for å måle omfanget eller graden av korrelasjon mellom 2 sett med rekker.

Denne korrelasjonsfaktoren er betegnet av gresk bokstav ρ (kalt Rho) og er gitt som:

hvor, p = rho = Spearmans rangkorrelasjonskoeffisient

D = forskjell mellom parrede rekker (i hvert tilfelle)

N = Totalt antall elementer / enkeltpersoner rangert.

Kjennetegn ved Rho (ρ):

1. I rangkorrelasjonskoeffisienten er observasjonene eller målingene av den bivariate variabelen basert på ordinær skala i form av rekker.

2. Størrelsen på koeffisienten påvirkes direkte av størrelsen på rangeringsforskjellene.

(en) Hvis rekkene er de samme for begge tester, vil hver rang forskjell være null og til slutt vil D 2 være null. Dette betyr at korrelasjonen er perfekt; dvs. 1, 00.

(B) Hvis rangeringsforskjellene er svært store, og brøkdelen er større enn en, vil korrelasjonen være negativ.

Forutsetninger for Rho (ρ):

Jeg. N er liten eller dataene er dårlig skjevt.

ii. De er gratis eller uavhengige av noen kjennetegn ved befolkningsfordelingen.

iii. I mange situasjoner brukes rangeringsmetoder, der kvantitative målinger ikke er tilgjengelige.

iv. Selv om kvantitative målinger er tilgjengelige, er rekkene erstattet for å redusere aritmetisk arbeidskraft.

v. Slike tester er beskrevet som ikke parametriske.

vi. I slike tilfeller består dataene av sett med ordinære tall, 1., 2., 3. ... .nde. Disse erstattes av kardinaltallene 1, 2, 3, ........., N til beregning. Substitusjonen av kardinale tall for ordinære tall antar alltid likeverdige intervaller.

I. Beregning av p fra testpoeng:

Eksempel 1:

Følgende data gir henholdsvis 5 studenter i matematikk og generell vitenskap:

Beregn korrelasjonen mellom de to seriene av testpoengene etter Rank Difference Method.

Verdien av korrelasjonskoeffisient mellom score i matematikk og generell vitenskap er positiv og moderat.

Fremgangsmåte for beregning av Spearmans Co-Effective of Correlation:

Trinn 1:

Oppgi elevene, navnene eller serienumrene i kolonne 1.

Steg 2:

I kolonne 2 og 3 skriver du score for hver elev eller enkeltperson i prøve I og II.

Trinn 3:

Ta ett sett med poengsummen i kolonne 2 og tilordne en rangering av 1 til høyeste poengsum, som er 9, en rangering på 2 til neste høyeste poengsum som er 8 og så videre, til laveste poengsum får en rang lik N; som er 5.

Trinn 4:

Ta II-settet med partitur i kolonne 3, og tilordne rangen 1 til høyeste poengsum. I det andre settet er den høyeste poengsummen 10; hence obtain rank 1. The next highest score of B student is 8; hence his rank is 2. The rank of student C is 3, the rank of E is 4, and the rank of D is 5.

Trinn 5:

Calculate the difference of ranks of each student (column 6).

Trinn 6:

Check the sum of the differences recorded in column 6. It is always zero.

Trinn 7:

Each difference of ranks of column 6 is squared and recorded in column 7. Get the sum ∑D 2 .

Step 8:

Put the value of N and 2D 2 in the formula of Spearman's co-efficient of correlation.

2. Calculating from Ranked Data:

Eksempel 2:

In a speech contest Prof. Mehrotra and Prof. Shukla, judged 10 pupils. Their judgements were in ranks, which are presented below. Determine the extent to which their judgements were in agreement.

The value of co-efficient of correlation is + .83. This shows a high degree of agreement between the two judges.

3. Calculating ρ (Rho) for tied Ranks:

Eksempel 3:

The following data give the scores of 10 students on two trials of test with a gap of 2 weeks in Trial I and Trial II.

Compute the correlation between the scores of two trials by rank difference method:

The correlation between Trial I and II is positive and very high. Look carefully at the scores obtained by the 10 students on Trial I and II of the test.

Do you find any special feature in the scores obtained by the 10 students? Probably, your answer will be “yes”.

In the above table in column 2 and 3 you will find that more than one students are getting the same scores. In column 2 students A and G are getting the same score viz. 10. In column 3, the students A and B, C and F and G and J are also getting the same scores, which are 16, 24 and 14 respectively.

Definitely these pairs will have the same ranks; known as Tied Ranks. The procedure of assigning the ranks to the repeated scores is somewhat different from the non-repeated scores.

Look at column 4. Student A and G have similar scores of 10 each and they possess 6th and 7th rank in the group. Instead of assigning the 6th and 7th rank, the average of the two rank ie 6.5 (6 + 7/2 = 13/2) has been assigned to each of them.

The same procedure has been followed in respect of scores on Trial II. In this case, ties occur at three places. Students C and F have the same score and hence obtain the average rank of (1 + 2/2 = 1.5). Student A and B have rank position 5 and 6; hence are assigned 5.5 (5 + 6/2) rank each. Similarly student G and J have been assigned 7.5 (7 + 8/2) rank each.

If the values are repeated more than twice, the same procedure can be followed to assign the ranks:

For eksempel:

if three students get a score of 10, at 5th, 6th and 7th ranks, each one of them will be assigned a rank of 5 + 6 + 7/3= 6.

The rest of the steps of procedure followed for calculation of ρ (rho) are the same as explained earlier.

Interpretation:

The value of ρ can also be interpreted in the same way as Karl Pearson's Coefficient of Correlation. It varies between -1 and + 1. The value + 1 stands for a perfect positive agreement or relationship between two sets of ranks while ρ = – 1 implies a perfect negative relationship. In case of no relationship or agreement between ranks, the value of ρ = 0.

Advantages of Rank Difference Method:

1. The Spearman's Rank Order Coefficient of Correlation computation is quicker and easier than (r) computed by the Pearson's Product Moment Method.

2. It is an acceptable method if data are available only in ordinal form or number of paired variable is more than 5 and not greater than 30 with minimum or a few ties in ranks.

3. It is quite easy to interpret p.

begrensninger:

1. When the interval data are converted into rank-ordered data the information about the size of the score differences is lost; eg in the Table 5.10, if D in Trial II gets scores from 18 up to 21, his rank remains only 4.

2. If the number of cases are more, giving ranks to them becomes a tedious job.