Korrelasjon i statistikk

Etter å ha lest denne artikkelen vil du lære om: - 1. Definisjoner av korrelasjon 2. Typer av korrelasjon 3. Koeffisient.

Definisjoner av korrelasjon:

Collins Dictionary of Statistics:

"Gjensidig avhengighet mellom to eller flere tilfeldige variabler. Hvis to variabler er slike at når en endres, gjør den andre det på en relatert måte, de sies å være korrelert. "

Ordbok for utdanning, CV Bra:

"Korrelasjon er tendensen til tilsvarende observasjoner i to eller flere serier for å variere sammen fra gjennomsnittene i deres respektive serier som skal ha tilsvarende relativ posisjon."

AM Tuttle:

"Korrelasjon er en analyse av samvariasjonen mellom to eller flere variabler."

Caraxton og Cowden:

"Når forholdet er av kvalitativ karakter, er det omtrentlige statistiske verktøyet for å oppdage og måle forholdet og uttrykke det i en kort formel kjent som korrelasjon." På utdanningsområdet har ulike pedagoger og psykologer forsøkt å Kjenne omfanget av forholdet mellom evner i forskjellige fag.

Ved korrelasjonsmetoden kan vi studere de ulike problemene som involverer forholdet mellom evner hos studentene som aritmetikk og leseforståelse, mellom vurdering på intelligens og kursmiddel, mellom barnets høyde og vekt etc.

Derfor er statistisk korrelasjon definert som en grad som de parrede resultatene av to eller flere sett med tiltak har en tendens til å variere sammen. Målet for graden av sammenheng er uttrykt som korrelasjonskoeffisient. I pedagogisk og psykologisk forskning er samrelasjonsanalysen svært viktig.

Følgende er de noen store feltene hvor det er mye brukt:

(a) Det brukes til å teste i hvilken grad dataene er konsistente med hypotesen.

(b) Forutsi en variabel på grunnlag av annen relatert variabel (er)

(c) Å identifisere fremmede variabler og å isolere effekten i et forsøk.

(d) Det brukes til å bestemme påliteligheten og gyldigheten av testresultatene.

(e) Å beregne ytterligere statistikk basert på korrelasjonskoeffisienten.

Typer av korrelasjon:

For å få en klar forståelse av begrepet korrelasjon må vi diskutere ulike typer sammenhenger.

I en bivariate distribusjon kan forholdene kategoriseres i forskjellige typer:

(a) Positiv korrelasjon

(b) Negativ korrelasjon

(c) null eller ingen sammenheng

(d) Lineær korrelasjon

(e) Ikke-lineær eller kurve-lineær korrelasjon.

(a) Positiv korrelasjon:

Når økning eller reduksjon i en variabel bringer tilsvarende økning eller reduksjon i den andre variabelen, er forholdet sies å være positiv korrelasjon. Når hver enhet økes eller reduseres i en variabel, følges av proporsjonal økning eller reduksjon i den andre variabelen, er forholdet perfekt positiv korrelasjon.

Et positivt forhold varierer fra 0 til +1. Når det er +1 er korrelasjonen perfekt positiv korrelasjon.

Anta at 100 elever har akkurat det samme i to prøver - studentene som scorer først i den ene testresultatet først i den andre, står den som står andre i den første testen også på andreplass i den andre testen. Denne en til en korrespondanse holder seg gjennom hele listen.

Så relasjonen er perfekt, siden den relative posisjonen til hvert fag er nøyaktig den samme i en test som i den andre og korrelasjonsfaktoren er + 1, 00.

Det kan illustreres ved hjelp av følgende eksempel:

Eksempel:

I tabell A ovenfor er score først i Test-1 og også i Test-2. Og også B sekunder, C tredje, D fjerde og E femte i begge testene. Her observerer vi at økningen av karakterer av en student i ett fag tilsvarer den forholdsmessige økningen av karakterer i et annet emne. En slik korrelasjon kalles perfekt positiv korrelasjon.

Hvis økningen i karakterene til en student i 1. prøve tilsvarer økningen av karakterer i den andre testen, men ikke proporsjonalt, er det positiv korrelasjon, vi kan illustrere det ved hjelp av følgende grafer:

(b) Negativ korrelasjon:

Når en høy grad av ett trekk eller en variabel er forbundet med en lav grad av en annen, kalles negativ korrelasjon. Hvor økning i en variabel resulterer i reduksjon i annen variabel og omvendt, er forholdet sies å være negativ korrelasjon. Den negative korrelasjonen kan variere fra 0 til -1.

Når hver enhetsøkning i en variabel bringer proporsjonal enhet ned i den andre variabelen, kalles forholdet perfekt negativ korrelasjon og korrelasjonsfaktoren er indikert med -1. Vi kan forklare dette ved hjelp av følgende eksempel.

Anta at i en test har 5 studenter A, B, C, D og E sikret, 80, 75, 70, 65 og 60 karakterer. I den andre testen har de sikret henholdsvis 40, 45, 50, 55 og 60.

I eksempelet ovenfor har student A som har sikret høyeste karakter i Test-1, sikret laveste poeng i Test-2. Student B som står andre i Test-1-ranger ved siden av bunnen (4.) i Test-2. Her står hver elev så langt fra toppen av listen i Test-1 fra bunnen av listen i Test-2.

Korrespondansen mellom prestasjon i Test-1 og Test-2 er regelmessig og bestemt, men forholdet er omvendt fordi økningen i karakterene til et individ i ett fag tilsvarer nedgangen i karakterer i en annen. Dette forholdet er en perfekt negativ korrelasjon.

Den kan illustreres ved hjelp av følgende grafer:

(c) nullavtale eller manglende korrelasjon:

Når det ikke er noe systematisk forhold mellom to sett med score eller variabler, er det kjent som null-avtale eller ingen korrelasjon. Det betyr at i nullkorrelasjon er det korrespondanse mellom scoreene som gruppens medlemmer har gjort på de to settene av poeng. Endringen i en variabel er ikke på noen måte knyttet til endringen av annen variabel.

For eksempel er skostørrelsen og månedsinntektene til personer, individets høyde og deres intelligens etc. ikke i det hele tatt relatert. Som nullkorrelasjon indikerer ikke noe sammenhengende forhold, så uttrykkes det med en koeffisient på .00. Vi kan også forklare dette konseptet ved hjelp av et diagram som vist i figur 12.3.

(d) Lineær korrelasjon:

Når forholdet mellom to variabler er proporsjonalt og det kan beskrives med en rett linje, kalles det Linjær Korrelasjon. Anta at det er fem personer, si A, B, C, D og E. Månedslønnen til disse personene er Rs. 4000, Rs. 5000, Rs. 6000, Rs. 7000 og Rs. 8000 henholdsvis.

Så deres årlige inntekt vil være 12 ganger av sin månedslønn. Hvis vi plotter en graf som viser månedslønnene på 'X'-akse og årlig inntekt i' Y-aksen, vil resultatet bli en rettlinjediagram som i figur 12.4-1, 2. Dette forholdet kalles som en lineær korrelasjon .

(e) Kurve Linjær Korrelasjon:

Når forholdet mellom variablene ikke er proporsjonalt i hele serien, og det kan beskrives av en kurvelinje, kalles det som kurve lineær korrelasjon. Det er også kjent som ikke-lineær korrelasjon. For eksempel, for det første med økning i variabel 'A' øker den andre variabelen 'B' opp til et bestemt punkt, etterpå med en økning i variabel-A, reduseres variabelen-B.

Hvis denne korrelasjonen mellom variabel-A og variabel-B plottet til grafen, vil resultatet være en buet linje (figur 12.4-3, 4).

Korrelasjonskoeffisient:

Den statistiske metoden der forholdet uttrykkes i kvantitativ skala, kalles korrelasjonskoeffisienten. Det er en numerisk indeks som forteller oss i hvilken grad de to variablene er relaterte og i hvilken grad variasjonene i en variabel endres med variasjonene i den andre.

"Korrelasjonsfaktor er et rent tall, varierende vanligvis fra + 1 til 0 til 1, som angir graden av forhold som eksisterer mellom to (eller flere) serier av observasjoner" - CV Bra.

Korrelasjonsfaktoren er utpekt på to måter. I Karl Pearsons produktmoment uttrykkes det som 'r'. I Spearmans Rank differanse korrelasjon uttrykkes det som 'p' (rho). En positiv korrelasjon indikerer at stor mengde av en variabel har en tendens til å følge store mengder av den andre. Så en perfekt positiv korrelasjon er uttrykt med en koeffisient på 1, 00.

En positiv korrelasjon varierer således fra 9, 00 til + 1, 00. En negativ korrelasjon indikerer at liten mengde av den ene varianten har en tendens til å følge med stor mengde av den andre. Det er en høy grad av ett trekk kan være forbundet med lav grad av en annen.

En perfekt negativ korrelasjon er uttrykt med en koeffisient på - 1, 00. Dermed varierer en negativ korrelasjon fra null til - 1, 00. Når de to variablene slet ikke er relatert, blir koeffisienten uttrykt som null.

Tolkning av korrelasjonskoeffisienten:

Den r-verdien vi får som bare indikerer at exit er et forhold. Men det indikerer ikke om det er betydelig eller ikke. Derfor tester vi betydningen av r på .05 og .01 konfidensnivå med hensyn til deres frihetsgrader eller 'df'. I et bivariat forhold regnes df som (N-2).

For eksempel, hvis r = 0, 55 og N = 50 for å tolke r må vi gå inn i tabellen -C. Her df = (N-2) = (50-2) = 48. Inntasting til bordet fant vi at ved df = 50 (nærmere df 48) er verdien ved .05 nivå .273 og på .01 nivået er .354.

Vår r-verdi 0, 55 er større enn begge disse verdiene. Derfor er r signifikant både på .05 nivå og .01 nivå. Så hvis r-verdien er større enn verdien av et signifikant nivå, vil det være betydelig, og hvis det er mindre enn verdien av signifikant nivå, vil det være ubetydelig.

Egenskaper av r:

1. Hvis et konstant tall legges til en eller begge variablene, forblir korrelasjonskoeffisienten uendret.

2. Hvis et konstant tall trekkes fra en eller begge variablene, forblir korrelasjonskoeffisienten uendret.

3. Hvis et konstant tall multipliseres med en eller begge variablene, forblir korrelasjonskoeffisienten uendret.

4. Hvis begge variablene og en er delt med et konstant tall, forblir korrelasjonskoeffisienten uendret.

Bruk av korrelasjonskoeffisient (r):

1. For å finne ut hvilken grad av forhold eller interavhengighet mellom to variabler er r brukt.

2. For å forutsi den avhengige variabelen fra den uavhengige variabelen r brukes.

3. For å fastslå påliteligheten av et testresultat blir r brukt.

4. For å bestemme gyldigheten av testpoengene blir r brukt.

5. Å ta beslutninger i pedagogisk og yrkesrettet veiledning er brukt.

6. For å beregne annen statistikk som faktoranalyse, er regresjonsforutsigelse og flere korrelasjoner etc. r nødvendig.

Beregning av korrelasjonskoeffisient:

Det er to metoder for beregning av korrelasjonsfaktor fra en bivariate distribusjon.

1. Spearmans Rank Differanse Metode:

Korrelasjonskoeffisienten er verdifull for utdanning og psykologi som et mål for forholdet mellom testresultater og andre ytelsesmålinger. Men i mange situasjoner har vi ingen score. Vi må jobbe med data der forskjeller i et gitt attributt kun kan uttrykkes av rekker eller ved å klassifisere et individ i flere beskrivende kategorier.

Så forskjellene mellom enkeltpersoner i mange egenskaper kan uttrykkes ved å rangere fagene i verdien av verdien når slike forskjeller ikke kan måles direkte. Ved rangering mener vi å plassere individene i rekkefølge av fortjeneste.

For eksempel kan personer bli rangert i rekkefølge av fortjeneste for ærlighet, atletisk evne, salgsmessig eller sosial tilpasning når det er umulig å måle disse komplekse oppføringene.

Ved beregning av sammenhengen mellom to sett med rekker, har spesielle metoder blitt utarbeidet. Når vi bare har noen få score (n er for liten) med to sett, er det tilrådelig å rangere disse scoreene og beregne korrelasjonsfaktoren (ρ) av Pearson's Rank Difference Method.

Forutsetninger for ρ:

Dataene er dårlig skjev eller er for små.

Når kvantitativ måling ikke er mulig.

Dataene er gratis eller uavhengige av noen kjennetegn ved befolkningsfordelingen

Dataene er i ordinær skala.

Beregning av p:

Eksempel 1:

Finn ut koeffektiviteten av korrelasjonen mellom to sett med score etter rangforskjellmetode.

Gitt nedenfor er karakterene av 5 studenter i henholdsvis historie og geografi:

Løsning:

Trinn 1

Ranger det første settet av poengsum, startende fra Rang 1 til høyeste poengsum og skriv rangene under R 1 kolonne (kol 4).

Steg 2

Ranger det andre settet av poeng - starter fra Rang-1 til høyeste poengsum og skriv rangene under R 2- kolonne (kolonne 5)

Trinn 3-

Finn ut D ved å trekke R 2 fra R 1 dvs. (R 1 - R 2 ) i kol. 6.

Trinn-4

Finn ut D 2 ved å kvadre D (col-7). Beregn deretter Σ D 2 og legg til verdiene i kol. 7.

Step-5

Sett formelen og få resultatet

Så korrelasjonskoeffisienten mellom resultatene for historie og geografi er 0, 43.

Beregning av p når dataene er i rekkefølge.

Eksempel:

Bestem i hvilken grad deres dommer var enige.

I en musikkonkurranse har to dommere rangert 8 studenter som vist nedenfor:

Løsning:

Trinn 1:

Som poengene er i rekker, så finn ut D ved å trekke fra Ranger of Judge-2 fra Ranks of Judge-1.

Steg 2:

Finn ut D 2 og ΣD 2 .

Step-3:

Sett verdien i formel og få resultatet.

Så poenget med enighet mellom dommene er 0.90. Computing p for Tied Ranks

Eksempel:

Beregn koeffisienten for korrelasjonen mellom resultatene av de to settene i Rank differanse metode.

Nedenfor er gitt score på 8 studenter på to parallelle tester:

Løsning:

Trinn 1:

Rangere scoreene i Test-1. I Test-1 E står først, C står 2., A og F får samme poengsum. Det er klart at disse to elevene skal fylle tredje og fjerde rang. Så rangerer vi begge av dem 3 + 4/2 = 3, 5. Neste B står femte. D og G fikk samme poengsum. Så deres ranger blir

og H vil bli rangert som 8.

Steg 2:

På samme måte som vi har rangert scoreene i Test-1, rangere scoreene i Test-2.

Step-3:

Beregn D som trekker R2 fra R 1

Step-4:

Beregn D 2 og finn ut Σ D 2

Step-5:

Sett formelen og få resultatet

Så korrelasjonskoeffisienten mellom resultatene av to tester er 0, 87.

Meritter av Rank Differanse Metode:

1. Det gir en rask og praktisk måte å estimere korrelasjon når N er liten.

2. Når dataene er i ordinært skala på den tiden, bruker vi rangforskjellmetode for estimering av korrelasjon.

Demerits of Rank Difference metode:

1. Rangforskjellmetode tar hensyn til stillinger i serien. Det gir ingen tillatelse for hull mellom tilstøtende score. For eksempel er score på tre studenter 90, 89 og 70 i en test. De ville bli rangert 1, 2 og 3, selv om forskjellen mellom 90 og 89 er mye mindre enn forskjellen mellom 89 og 70.

2. Nøyaktighet kan gå tapt ved å oversette score til rang, spesielt når det er flere bånd.

3. Det er vanskelig å beregne p fra data når N er stor, si mer enn 30.

2. Karl Pearsons Produkt Moment Metode:

En annen effektiv metode for estimering av korrelasjonskoeffisient er utviklet av Karl Pearson, som er populært kjent som korrelasjonsproduktmomentskorrelasjon. Det kalles Produkt øyeblikk fordi "summen av avvikene fra gjennomsnittet (hevet til noe kraft) og delt med N kalles et øyeblikk. Når de tilsvarende avvikene i V og y multipliseres sammen, summeres og divisjoneres med N

begrepet produktmoment blir brukt. "

Symbolisk er produktets øyeblikkskoeffisientkoeffisient betegnet som 'r'.

Korrelasjonsfaktoren i produktmoment er:

Forutsetninger om korrelasjon mellom produkt og øyeblikk:

1. Normal fordeling:

Variablene som vi ønsker å beregne korrelasjonen til, må normalt distribueres. Forutsetningen kan legges fra tilfeldig prøvetaking.

2. Linearitet i korrelasjon:

Produktets øyeblikkskorrelasjon kan vises i rett linje som er kjent som lineær korrelasjon.

3. Kontinuerlig serie:

Måling av variabler skal være i kontinuerlig skala.

Beregning av produktkorrelasjon:

Produktets øyeblikkskoeffisientkoeffisient kan beregnes i to forskjellige situasjoner:

(a) Når dataene er ugruppert

(b) Når dataene er gruppert

(a) Beregning av r fra ugrupperte data:

Beregning av korrelasjonskoeffisient i ugrupperte data gjøres vanligvis på to måter:

(i) Når avvik tas fra midler

(ii) Beregning fra Raw score eller Original score.

(i) Beregning av produktmoment korrelasjon når avvik er tatt fra midlene.

Formelen som brukes til å beregne r fra ugrupperte data når avvik er tatt fra middelene til de to fordelingene X og Y lyder som dette:

Eksempel:

Beregn koeffisienten for korrelasjon av score på 12 studenter i en test av engelsk og MIL i produktmoment metode.

Løsning:

Trinn 1

Finn gjennomsnittet av poeng i engelsk (X) og gjennomsnitt av poeng i MIL (Y). Her M x = 62, 5, M y = 30, 4.

Steg 2

Finn avviket (x) for hver poengsum på engelsk test (Tabell 12.6, kol-4) og avvik (y) av hver poengsum i MIL-testen (Tabell 12.6, kolonne 5)

Trinn 3-

Square av alle xs og alle ys og finn ut x 2 og y 2 . Legg til x 2 s i kol. 6 og y 2 s i kol. 7 og finn ut Σx 2 og Σy 2 .

Trinn-4

Multipliser avvikene til X-variabel (kol 4) med avvik av Y-variabel (kolonne 5) med behørig hensyn til algebraiske tegn for å få xy (kol. 8). Legg deretter til verdiene i kol. 8 og få Σxy.

Step-5

Sett verdien i formelen og få resultatet.

Så korrelasjonskoeffisienten mellom resultatene på engelsk og score i MIL av de 12 studentene er 0, 78.

(ii) Beregning av korrelasjonsprodukt øyeblikkskoeffisient fra originalpoeng eller råpoeng:

Uten å beregne avvikene kan vi også beregne r fra rå score eller direkte fra originale score.

I dette tilfellet bruker vi følgende formel:

Eksempel:

Beregn koeffisienten for korrelasjon av følgende to sett med score hentet fra en matematisk og vitenskapelig test av 10 studenter i produktmoment-metoden:

Løsning:

Trinn 1

Plasser alle X s og Y s

Steg 2

Finn produktet av X og Y ved å multiplisere hver X med tilsvarende Y.

Trinn 3-

Legg til X s (kol. 1), Y s (kol 2), X 2 (kol 3), Y 2 (kol 4) og XY (kol. 5) for å få ΣX, ΣY, ΣX 2 ΣY 2 og ΣXY henholdsvis.

Trinn-4

Sett disse verdiene i formelen og få resultatet.

Så korrelasjonskoeffisienten mellom de to settene er 0, 92.

(b) Beregning av r fra grupperte data:

Metoden vi har diskutert i avsnittet ovenfor kan brukes når N er liten. Men når N er stor, er beregning i ovennevnte metode vanskelig og tidkrevende. Vi kan overvinne vanskeligheten ved å arrangere dataene i form av et diagram eller diagram kjent som "scatter diagram" eller "scatter gram". Det er også kjent som toveis frekvensfordeling eller bivariate frekvensfordeling. La oss vurdere hvordan du klargjør et scatterdiagram.

Slik lager du et scatterdiagram:

For eksempel oppnådde 50 elever av 9. klasse på en videregående skole følgende poeng på en gruppe intelligens test (X) og algebra test (Y).

La oss konstruere et scatterdiagram for disse resultatene.

La oss ta klasserintervaller av intelligensstest langs venstre kant, fra topp til bunn av diagrammet (figur 12.5) og klasseintervall for algebra-test langs toppen av diagrammet fra venstre til høyre.

Anta at vi vil plotte poengene til den første studenten i diagrammet. Den første studenten har en intelligens score på 48 og algebraisk score på 173. Her må vi sette en telle i cellen som svarer til klassens intervaller, 45-49 i intelligens og 170-179 i algebra test.

På samme måte må vi sette tall for alle 50 studenter i samsvar med de to resultatene, intelligens test og algebra test. Deretter teller tallene av hver celle og oversettes til tallet. Deretter vil tallene til hver rad bli lagt til og frekvensen for hvert klasseintervall av intelligensstest (X-variabel) f x vil bli funnet ut.

For eksempel i fig. 12.5 er f x for 1. rad 1, 2. rad 6, 3. rad 7 og samme 8. rad 2. På samme måte vil celletallene til hver kolonne bli lagt til og frekvens for hvert klasseintervall av algebra test (Y variabel) vil bli bestemt.

For eksempel er f y for 1. kolonne 3, 2. kolonne 1, 3. kolonne 2 og lik 10. klasse er 2. Etter at alle tallene er oppført, blir frekvensen i hver celle lagt til og angitt på diagrammet. Scatterdiagrammet er da et korrelasjonstabell.

Beregning av 'r' fra korrelasjonstabellen:

Når N er stor eller til og med moderat i størrelse, er det enkelt å beregne r ved å gruppere dataene inn i en bivariate frekvensfordeling og beregne r ved å ta avvik fra antatt middel i stedet for det faktiske gjennomsnittet.

Formelen for beregning fra gruppert data i antatt gjennomsnittlig metode leser slik:

La oss beregne r xy fra korrelasjonstabellen funnet fra scatterdiagrammet.

Når korrelasjonstabellen er utarbeidet, kan vi finne ut r ved hjelp av formel:

Trinn 1

Legg til frekvensene til hver kolonne med algebra score og få f y . Deretter legger du til frekvensene av hver rad intelligens test og får f x .

Steg 2

Anta et middel for intelligens test scoreene (som vi har diskutert i beregning mener i antatt gjennomsnittlig metode) og tegne en dobbel linje i den kolonnen for å gjøre det tydelig.

På samme måte anta et middel for algebra testresultatene og tegne en dobbel linje i den raden for å gjøre det tydelig. I dette nåværende problemet for intelligens test midtpunktet av CI 40-44 dvs. 42, og for algebra-test er midtpunktet av CI 140-149 dvs. 144, 5 tatt som antatt middel. Nå kan vi ta x 'og y' fra dette punktet som vist i fig.

Trinn 3-

Multipliser x'x med fx og finn ut fx ' og på samme måte formere y'en med fy og finn ut fy '.

Trinn-4

Multipliser fx 'kolonnen med x' kolonne og få fx ' 2 og fy' rad med y 'og få fy' 2 .

Step-5

Den neste oppgaven er å finne ut fx'y '. Multipliser x'en av kolonnen med y'en av raden av en bestemt celle, og gi vekt på de algebraiske tegnene. Skriv produktet til øverste hjørne av cellen i en brakett.

Deretter multipliserer cellefrekvensen med produktet og får verdien av fx'y 'av cellen og skriver den til den nedre venstre del av cellen.

F.eks. Er frekvensen av celle 20-24 og 180-189 1. Her er x '-4 og y' er +4, produktet av x 'og y' er -16. Ved å multiplisere produktet -16 med cellefrekvens 1 får vi fx'y '= -16 for den cellen.

På samme måte kan vi beregne fx'y'en for alle cellene. Legge til verdiene av celler radvis kan vi få verdiene av fx'y 'kolonne. Ved å legge til disse verdiene får vi Σfx'y '. For å sjekke korrektheten legger du til verdiene for fx'y 'kolonne klok for å få fx'y' rad og legge til disse verdiene kan vi også få Σfx'y '(se tabell-12.8)

Trinn 6-

Legg til verdien av fx ', fx' 2, fy 'og fy' 2 og få henholdsvis Σfx ', Σfx' 2, Σfy 'og Σfy' 2 '.

Trinn 7-

Sett verdiene i formelen og få resultatet.