4 Vanlige anvendelser av dispersjon

Det er fire ofte brukte tiltak for å indikere variabiliteten (eller dispersjonen) innenfor et sett med tiltak. De er: 1. Område 2. Kvartilavvik 3. Gjennomsnittlig avvik 4. Standardavvik.

Mål # 1. Område:

Range er intervallet mellom høyeste og laveste score. Omfang er et mål på variasjon eller spredning av variatene eller observasjonene blant seg selv og gir ikke en ide om spredningen av observasjonene rundt noen sentral verdi.

Symbolisk R = Hs - Ls. Hvor R = Range;

Hs er 'Høyest poengsum' og Ls er laveste poengsum.

Beregning av rekkevidde (ugyldig data):

Eksempel 1:

Resultatene av ti gutter i en test er:

17, 23, 30, 36, 45, 51, 58, 66, 72, 77.

Eksempel 2:

Resultatene av ti jenter i en test er:

48, 49, 51, 52, 55, 57, 50, 59, 61, 62.

I eksempel er høyeste poengsummen 77 og laveste poeng er 17.

Så rekkevidden er forskjellen mellom disse to resultatene:

. . . Range = 77 - 17 = 60

På lignende måte, i eksempel II

Område = 62 - 48 = 14

Her finner vi at poengene av gutter er vidt spredt. Dermed varierer antall poeng, men antall poeng varierer ikke mye (selvfølgelig varierer de mindre). Dermed er variasjonen av poengsummen av gutter mer enn variabiliteten av poengsummen av jenter.

Beregning av rekkevidde (gruppert data):

Eksempel 3:

Finn rekkevidden av data i følgende distribusjon:

Løsning:

I dette tilfellet er den øvre sanne grensen for høyeste klasse 70-79 Hs = 79, 5 og den lavere sanne grensen for den laveste klassen 20-29 er Ls = 19, 5

Derfor, Range R = Hs - Ls

= 79, 5 - 19, 5 = 60, 00

Range er en variabelindeks. Når rekkevidden er mer, er gruppen mer variabel. Jo mindre intervallet jo mer homogen er gruppen. Område er det mest generelle målet for "spread" eller "scatter" av score (eller tiltak). Når vi ønsker å gjøre en grov sammenligning av variabilitet av to eller flere grupper, kan vi beregne rekkevidden.

Omfanget som sammenlignet ovenfor er i en ubearbeidet form eller er et absolutt mål for dispersjon og er uegnet til sammenligning, spesielt når serien er i to forskjellige enheter. Til sammenligning beregnes rekkefrekvensen ved å dividere rekkevidden med summen av de største og minstepunktene.

Fordeler:

1. Spekteret kan beregnes ganske enkelt.

2. Det er et enkleste mål for spredning.

3. Det beregnes når vi ønsker å gjøre en grov sammenligning av to eller flere grafer av variabilitet.

begrensninger:

1. Spekteret er ikke basert på alle observasjonene i serien. Det tar bare hensyn til de mest ekstreme tilfellene.

2. Det hjelper oss å gjøre bare en grov sammenligning av to eller flere grupper av variabilitet.

3. Spekteret tar hensyn til de to ekstreme resultatene i en serie.

Dermed når N er liten eller når det er store hull i frekvensfordelingen, er variasjon som et mål for variabilitet ganske upålitelig.

Eksempel 4:

Poeng av gruppe A - 3, 5, 8, 11, 20, 22, 27, 33

Her rekkevidde = 33 - 3 = 30

Poeng av gruppe B - 3, 5, 8, 11, 20, 22, 27, 93

Her spekter = 93 - 3 = 90.

Bare sammenlign seriepoengene i gruppe A og gruppe B. I gruppe A dersom en enkelt score 33 (siste poengsum) endres til 93, er rekkevidden mye endret. Dermed kan en enkelt høy score øke spekteret fra lav til høy. Derfor er serien ikke et pålitelig mål for variabilitet.

4. Det påvirkes veldig sterkt av fluktuasjoner i prøvetaking. Verdien er aldri stabil. I en klasse hvor normalt elevene på elevene varierer fra 150 cm til 180 cm, hvis en dverg, hvis høyde er 90 cm, vil rekkevidden skyte opp fra 90 cm til 180 cm.

5. Utvalget presenterer ikke serien og spredningen virkelig. Asymmetrisk og symmetrisk fordeling kan ha samme rekkevidde, men ikke den samme spredning. Det er av begrenset nøyaktighet og bør brukes med forsiktighet.

Vi bør imidlertid ikke overse det faktum at rekkevidde er et uønsket mål for spredning og er helt uegnet for presise og nøyaktige studier.

Mål # 2. Kvartilavvik:

Område er intervallet eller avstanden på måle skalaen som inkluderer 100 prosent tilfeller. Begrensningene i rekkevidden skyldes bare avhengigheten av de to ekstreme verdiene.

Det er noen tiltak av spredning som er uavhengig av disse to ekstreme verdiene. Mest vanlige av disse er kvartilavviket som er basert på intervallet som inneholder de midterste 50 prosent av tilfellene i en gitt distribusjon.

Kvartilavvik er halve skalaavstanden mellom det tredje kvartilet og det første kvartilet. Det er Semi-Interquartile-spekteret av en distribusjon:

Før vi tar opp kvartilavviket, må vi vite betydningen av kvartaler og kvartiler.

For eksempel resulterer en test 20 poeng, og disse resultatene ordnes i en synkende rekkefølge. La oss dele fordelingen av score i fire like deler. Hver del vil presentere et kvart. I hvert kvartal vil det være 25% (eller 1/4 av N) tilfeller.

Som poeng er arrangert i synkende rekkefølge,

De 5 beste resultatene kommer i 1. kvartal,

De neste 5 poengene vil være i 2. kvartal,

De neste 5 poengene vil være i 3. kvartal, og

Og de laveste 5 poengene vil være i fjerde kvartal.

For å få en bedre studie av sammensetningen av en serie, kan det være nødvendig å dele det i tre, fire, seks, syv, åtte, ni, ti eller hundre deler.

Vanligvis er en serie delt i fire, ti eller hundre deler. Ett element deler serien i to deler, tre gjenstander i fire deler (kvartiler), ni gjenstander i ti deler (deciler) og nitti ni artikler i hundre deler (prosentiler).

Det er således tre kvartiler, ni deciler og nitti og ni prosentiler i en serie. Den andre kvartilen, eller 5. decile eller 50-percentilen er medianen (se figur).

Verdien av elementet som deler første halvdel av en serie (med verdier mindre enn verdien av medianen) i to like deler kalles Første kvartil (Q 1 ) eller Nedre kvartil. Med andre ord er Q 1 et punkt under hvilket 25% av tilfellene ligger. Q 1 er den 25. prosentilen.

Den andre kvartilen (Mdn) eller midtkvartilen er medianen. Med andre ord er det et poeng under hvilke 50% av poengene ligger. En median er den 50. prosentilen.

Verdien av elementet som deler sistnevnte halvdel av serien (med verdier mer enn verdien av medianen) i to like deler kalles Tredje kvartil (Q 3 ) eller Øvre kvartil. Med andre ord, Q 3 er et poeng under hvilke 75% av resultatene ligger. Q 3 er den 75. prosentilen.

Merk:

En elev må tydelig skille mellom kvart og kvartil. Kvartalet er et område; men kvartil er et punkt på skalaen. Kvartaler er nummerert fra topp til bunn (eller fra høyeste poengsum til laveste poengsum), men kvartiler er nummerert fra bunn til topp.

Kvartilavviket (Q) er en halv skalaavstand mellom det tredje kvartil (Q 3 ) og Det første kvartil (Q 1 ):

L = Nedre grense for ci hvor Q 3 ligger,

3N / 4 = 3/4 av eller 75% av N.

F = totalt av alle frekvenser under 'L',

fq = Frekvens av ci hvor Q3 ligger og i = størrelse eller lengde av ci

L = Nedre grense på ci hvor Q 1 ligger,

N / 4 = En fjerdedel (eller 25%) av N,

F = totalt av alle frekvenser under 'L',

fq = frekvens av ci hvor Q 1 ligger,

og i = størrelse eller lengde av ci

Inter-Quartile Range:

Spekteret mellom det tredje kvartilet og det første kvartilet er kjent som interkvartilområdet. Symbolisk interkvartilområde = Q 3 - Q 1 .

Halvinterkvartil Range:

Det er halv avstanden mellom det tredje kvartilet og det første kvartilet.

Dermed er SI R. = Q 3 - Q 1/4

Q eller Quartile Avvik er ellers kjent som semi-interquartile range (eller SIR)

Dermed Q = Q 3 - Q 1/2

Hvis vi skal sammenligne formelen for Q 3 og Q 1 med formelen for medianen, vil følgende observasjoner være klare:

Jeg. Ved Median bruker vi N / 2 mens for Q 1 vi bruker N / 4 og for Q 3 bruker vi 3N / 4.

ii. Ved median bruker vi fm til å betegne hyppigheten av ci, på hvilken median ligger; men i tilfelle Q 1 og Q 3 bruker vi fq til å betegne frekvensen av ci hvor Q 1 eller Q 3 ligger.

Beregning av Q (ugyldig data):

For å kunne beregne Q må vi beregne Q 3 og Q 1 først. Q 1 og Q 3 beregnes på samme måte som vi beregner medianen.

De eneste forskjellene er:

(i) Ved medianen teller vi 50% tilfeller (N / 2) fra bunnen, men

(ii) I tilfelle av Q 1 må vi telle 25% av tilfellene (eller N / 4) fra bunnen og

(iii) Ved Q 3 må vi telle 75% av tilfellene (eller 3N / 4) fra bunnen.

Eksempel 5:

Finn ut Q av de følgende resultatene 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39.

Det er 20 poeng.

25% av N = 20/4 = 5

Q 1 er et punkt under hvilket 25% av tilfellene ligger. I dette eksemplet er Q 1 et punkt under hvilke 5 tilfeller ligger. Fra bare inspeksjon av bestilte data er det funnet at under 24, 5 er det 5 tilfeller. Dermed er Q 1 = 24, 5

På samme måte er Q 3 et poeng under hvilke 75% av lettelsen ligger.

75% av N = 3/4 x 20 = 15

Vi finner at under 34, 5, 15 tilfeller ligger

Således Q3 = 34, 5.

I en symmetrisk fordeling ligger medianen halvveis på skalaen fra Q 1 og Q 3 . Derfor gir verdien Q 1 + Q eller Q 3 - Q verdien av medianen. Men generelt er distribusjoner ikke symmetriske, og så Q 1 + Q eller Q 3 - Q ville ikke gi verdien av medianen.

Beregning av Q (gruppert data):

Eksempel 6:

Resultatene fra 36 studenter i en test er vist i tabellen. Finn kvartilavviket av resultatene.

I kolonne 1 har vi tatt klasseintervall, i kolonne 2 har vi tatt frekvensen, og i kolonne 3 er kumulative frekvenser fra bunnen skrevet.

Her N = 36, så for Q 1 må vi ta N / 4 = 36/4 = 9 tilfeller, og for Q 3 må vi ta 3N / 4 = 3 x 36/4 = 27 tilfeller. Ved å se på kolonne 3, vil cf = 9 være med i ci 55-59, hvis virkelige grense er 54, 5 - 59, 5. Q1 vil ligge i intervallet 54, 5 - 59, 5.

Verdien av Q 1 skal beregnes som følger:

For å beregne Q 3, vil cf = 27 bli inkludert i ci 65 - 69, hvis faktiske grenser er 64. 5 - 69.5. Så Q 3 vil ligge i intervallet 64, 5 - 69, 5 og verdien skal beregnes som følger:

Fortolkning av kvartilavvik:

Ved tolkning av verdien av kvartilavvik er det bedre å ha verdiene til Median, Q 1 og Q 3 sammen med Q. Hvis verdien av Q er mer, vil dispersjonen være mer, men igjen avhenger verdien av skalaen av måling. To verdier av Q skal bare sammenlignes dersom skala brukt er den samme. Q målt for score ut av 20 kan ikke sammenlignes direkte med Q for score ut av 50.

Hvis median og Q er kjent, kan vi si at 50% av tilfellene ligger mellom 'Median - Q' og 'Median + Q'. Dette er de midterste 50% av tilfellene. Her kommer vi til å vite om omfanget av bare de midterste 50% av sakene. Hvordan den nedre 25% av sakene og den øvre 25% av sakene er fordelt, er ikke kjent gjennom dette tiltaket.

Noen ganger er ekstreme tilfeller eller verdier ikke kjent. I så fall er det eneste alternativet som er tilgjengelig for oss å beregne median og kvartilavvik som mål for sentral, tendens og spredning. Gjennom median og kvartiler kan vi konkludere om fordelingenes symmetri eller skjevhet. La oss derfor få en ide om symmetriske og skjeve fordelinger.

Symmetrisk og Skewed Distributions:

En distribusjon sies å være symmetrisk når frekvensene er symmetrisk fordelt rundt målet om sentral tendens. Med andre ord kan vi si at fordelingen er symmetrisk dersom verdiene på lik avstand på de to sidene av målet for sentral tendens har like frekvenser.

Eksempel 7:

Finn om den gitte fordelingen er symmetrisk eller ikke.

Her er målet på sentral tendens, middel og median, 5. Hvis vi begynner å sammenligne frekvensene av verdiene på de to sidene av 5, finner vi at verdiene 4 og 6, 3 og 7, 2 og 8, 1 og 9, 0 og 10 har samme antall frekvenser. Så fordelingen er perfekt symmetrisk.

I en symmetrisk fordeling ligger middel og median lik og median ligger på like stor avstand fra de to kvartene, dvs Q 3 - Median = Median-Q 1 .

Hvis en fordeling ikke er symmetrisk, refererer avviket fra symmetrien til dets skjevhet. Skewness indikerer at kurven vender mer mot den ene siden enn den andre. Så kurven vil ha en lengre hale på den ene siden.

Skjønnheten sies å være positiv dersom lengre hale er på høyre side, og det er sagt til negativt om lengre hale er på venstre side.

Følgende figurer viser utseendet til en positivt skjev og negativt skjev kurve:

Q 3 - Mdn> Mdn - Q 1 indikerer + ve skjevhet

Q 3 - Mdn <Mdn - Q 1 indikerer - ve skewness

Q 3 - Mdn = Mdn - Q 1 indikerer null skjevhet

Meritter av Q:

1. Det er et mer representativt og pålitelig mål for variabilitet enn det samlede spekteret.

2. Det er en god indeks av poengtetthet i midten av distribusjonen.

3. Kvartiler er nyttige for å indikere fordeling av en fordeling.

4. Som medianen, er Q anvendelig for open-end-distribusjoner.

5. Uansett hvor median er foretrukket som et mål for sentral tendens, foretrekkes kvartilavvik som et mål for dispersjon.

Begrensninger av Q:

1. Imidlertid, som median, er kvartilavvik ikke mottagelig for algebraisk behandling, da det ikke tar hensyn til alle verdiene i fordelingen.

2. Det beregner bare det tredje og første kvartilet og snakker oss om serien. Fra Q 'kan vi ikke få et sant bilde om hvordan resultatene er spredt fra den sentrale verdien. Det er 'Q' gir oss ingen ide om sammensetningen av score. "Q" av to serier kan være lik, men serier kan være ganske forskjellige i sammensetningen.

3. Det gir omtrent en ide om spredning.

4. Det ignorerer resultatene over det tredje kvartilet og resultatene under den første kvartilen. Det snakker rett og slett om midten av 50% av distribusjonen.

Bruk av Q:

1. Når medianen er et mål for en sentral tendens;

2. Når fordelingen er ufullstendig i hver ende

3. Når det er spredt eller ekstremt poengsum som ville disproportionelt påvirke SD;

4. Når konsentrasjonen rundt medianen - den midtre 50% av sakene er av primær interesse.

Kvartilavvikskoeffisient:

Kvartilavviket er et absolutt mål for spredning, og for å gjøre det relativt beregner vi "kvartilviktsfaktor". Koeffisienten beregnes ved å dividere kvartilavviket med gjennomsnittet av kvartiler.

Den er gitt av:

Kvartilavvikskoeffisient = Q 3 - Q 1 / Q 3 + Q 1

Hvor Q 3 og Q 1 refererer til henholdsvis øvre og nedre kvartiler.

Mål nr. 3. Gjennomsnittlig avvik (AD) eller gjennomsnittlig avvik (MD):

Som vi allerede har diskutert, spenner serien og 'Q'en omtrent oss litt om variabilitet. Utvalget av to serier kan være det samme, eller kvartilavviket i to serier kan være det samme, men de to seriene kan være forskjellige. Verken rekkevidde eller "Q" snakker ikke om sammensetningen av serien. Disse to tiltakene tar ikke hensyn til de enkelte resultatene.

Metoden for gjennomsnittlig avvik eller "gjennomsnittlig avviket", som det kalles noen ganger, har en tendens til å fjerne en alvorlig mangel i begge metoder (Range and 'Q'). Den gjennomsnittlige avviket kalles også det første øyeblikk av spredning og er basert på alle elementene i en serie.

Gjennomsnittlig avvik er det aritmetiske gjennomsnittet av avvikene i en serie beregnet fra noe mål av sentral tendens (middel, median eller modus), alle avvikene blir vurdert som positive. Med andre ord er gjennomsnittet av avvikene av alle verdiene fra det aritmetiske middel kjent som gjennomsnittlig avvik eller gjennomsnittlig avvik. (Vanligvis er avviket tatt fra gjennomsnittet av fordelingen.)

Hvor Σ er summen av;

X er poengsummen; M er den gjennomsnittlige; N er det totale antall poeng.

Og 'd' betyr avviket fra individuelle score fra gjennomsnittet.

Beregning av gjennomsnittlig avvik (ulovlig data):

Eksempel 8:

Finn gjennomsnittlig avvik for følgende sett med variabler:

X = 55, 45, 39, 41, 40, 48, 42, 53, 41, 56

Løsning:

For å finne gjennomsnittlig avvik beregner vi først gjennomsnittet for gitt sett av observasjoner.

Avvikene og de absolutte avvikene er gitt i tabell 4.2:

Eksempel 9:

Finn den gjennomsnittlige avviken for poengene nedenfor:

25, 36, 18, 29, 30, 41, 49, 26, 16, 27

Gjennomsnittet av de ovennevnte resultatene ble funnet å være 29, 7.

For å beregne gjennomsnittlig avvik:

Merk:

Hvis du bruker noe algebra, kan du se at Σ (X - M) er null

Beregning av gjennomsnittlig avvik (gruppert data):

Eksempel 10:

Finn gjennomsnittlig avvik for følgende frekvensfordeling:

Her, i kolonne 1, skriver vi ciene, i kolonne 2 skriver vi de tilsvarende frekvensene, i kolonne 3 skriver vi midtpunktene til ciene som er betegnet med 'X' i kolonne 4, vi skriver produktet av frekvenser og midtpunkter av ci er betegnet med X, i kolonne 5, skriver vi de absolutte avvikene fra midtpunktene til ci fra middelverdien som er betegnet av | d | og i kolonne 6 skriver vi produktet av absolutte avvik og frekvenser, betegnet med | fd |.

Meriter av gjennomsnittlig avvik:

1. Gjennomsnittlig avvik er det enkleste målet for spredning som tar hensyn til alle verdiene i en gitt distribusjon.

2. Det er lett forståelig selv av en person som ikke er kjent med statistikk.

3. Det påvirkes ikke særlig mye av verdien av ekstreme gjenstander.

4. Det er gjennomsnittet av avvikene fra individuelle score fra gjennomsnittet.

begrensninger:

1. Gjennomsnittlig avvik ignorerer algebraiske tegn på avvikene og er dermed ikke i stand til videre matematisk behandling. Så det brukes bare som et beskrivende mål for variabilitet.

2. Faktisk er MD ikke i vanlig bruk. Det er sjelden brukt i moderne statistikk og generelt spredes det ved standardavvik.

Bruk av MD:

1. Når det er ønskelig å veie alle avvikene i henhold til deres størrelse.

2. Når det kreves å vite hvorvidt tiltakene spres ut på hver side av middelværet.

3. Når ekstreme avvik unødig påvirker standardavviket.

Tolkning av gjennomsnittlig avvik:

For å tolke gjennomsnittlig avvik, er det alltid bedre å se på det sammen med gjennomsnittet og antall tilfeller. Målet er nødvendig fordi gjennomsnittet og middelavviket er henholdsvis punktet og avstanden på samme målestokk.

Uten middel kan ikke avvigelsen tolkes, da det ikke er noen anelse om målestørrelsen eller måleenheten. Antallet tilfeller er viktig fordi måling av spredning avhenger av det. For mindre antall tilfeller er målet sannsynligvis mer.

I de to eksemplene har vi:

I det første tilfellet er gjennomsnittlig avvik nesten 25% av gjennomsnittet, mens det i andre tilfelle er mindre. Men gjennomsnittlig avvik kan være mer i første omgang på grunn av færre antall tilfeller. Så de to gjennomsnittlige avvikene som er beregnet ovenfor, indikerer nesten samme dispersjon.

Mål nr. 4. Standardavvik eller SD og variasjon:

Ut av flere spredningstiltak er det mest brukte målet "standardavvik". Det er også det viktigste på grunn av å være det eneste målet for spredning som er egnet til algebraisk behandling.

Her vurderes også avvikene fra alle verdiene fra gjennomsnittet av fordelingen. Dette tiltaket lider av de minste ulempene og gir nøyaktige resultater.

Det fjerner ulempen ved å ignorere de algebraiske tegnene mens du beregner avvik av elementene fra gjennomsnittet. I stedet for å forsømme tegnene, kvitterer vi avvikene, og gjør dem alle positive.

Det adskiller seg fra AD i flere henseender:

Jeg. Ved beregning av AD eller MD, ignorerer vi tegn, mens vi ved å finne SD, unngår vanskeligheten ved tegn ved å kvadre de separate avvikene;

ii. De kvadratiske avvikene som brukes i databehandling av SD, tas alltid fra gjennomsnittet, aldri fra median eller modus.

"Standardavvik eller SD er kvadratroten av gjennomsnittet av de kvadratiske avvikene fra de enkelte scoreene fra gjennomsnittet av fordelingen."

For å være klarere, bør vi merke seg at ved beregning av SD, firkantes alle avvikene separat. Finn summen, del summen av totalt antall poeng, og finn deretter kvadratroten av gjennomsnittet av de kvadratiske avvikene.

Så SD kalles også 'Root mean square deviations from mean' og er generelt betegnet av det lille greske bokstaven σ (sigma).

Symbolisk er standardavviket for ugrupperte data definert som:

Hvor d = avvik av individuelle score fra gjennomsnittet;

(Noen forfattere bruker 'x' som avviket fra individuelle score fra gjennomsnittet)

Σ = summen av; N = totalt antall tilfeller.

De gjennomsnittlige firkantavvikene refereres til som varians. Eller i enkle ord er kvadrat av standard for avvik kalt det andre øyeblikket av dispersjon eller variasjon.

Beregning av SD (ugyldig data):

Det er to måter å beregne SD for ugrupperte data:

(a) Direkte metode.

(b) Kortvektsmetode.

(a) Direkte metode:

Finn standardavviket for resultatene nedenfor:

X = 12, 15, 10, 8, 11, 13, 18, 10, 14, 9

Denne metoden bruker formel (18) for å finne SD som involverer følgende trinn:

Trinn 1:

Beregn aritmetisk gjennomsnitt av de oppgitte dataene:

Steg 2:

Skriv verdien av avviket d, dvs. X - M mot hvert poeng i kolonne 2. Her skal avvikene fra score tas fra 12. Nå finner du at Σd eller Σ (X - M) er lik null. Tenk, hvorfor er det så? Sjekk det. Hvis dette ikke er tilfelle, finn ut feilen ved beregning og korrigere det.

Trinn 3:

Firkant avvikene og skriv verdien av d 2 mot hver poengsum i kolonne 3. Finn summen av kvadrert avvik. Σd 2 = 84.

Tabell 4.5 Beregning av SD:

Den nødvendige standardavviket er 2, 9.

Trinn 4:

Beregn gjennomsnittet av de kvadratiske avvikene og finn ut den positive kvadratroten for å få verdien av standardavviket, dvs. σ.

Ved å bruke formel (19), vil variansen være σ 2 = Σd 2 / N = 84/10 = 8.4

(b) kortsiktig metode:

I de fleste tilfeller skjer det aritmetiske gjennomsnittet av de oppgitte dataene som en brøkdel, og prosessen med å ta avvik og kvadrering blir derfor kjedelig og kalkforbrukende ved beregning av SD

For å lette beregningen i slike situasjoner kan avvikene tas fra et antatt middel. Den justerte kortsiktige formelen for beregning av SD vil da være,

hvor,

d = Avvik av poengsummen fra et antatt middel, si AM; dvs. d = (X - AM).

d 2 = kvadratet av avviket.

Σd = Summen av avvikene.

Σd 2 = Summen av de kvadratiske avvikene.

N = Antall av resultatene eller variantene.

Beregningsprosedyren er avklart i følgende eksempel:

Eksempel 11:

Finn SD for scoreene gitt i tabell 4.5 i X = 12, 15, 10, 8, 11, 13, 18, 10, 14, 9. Bruk kortklippsmetode.

Løsning:

La oss ta antatt gjennomsnittlig AM = 11.

Avvikene og rutene for avvik som trengs i formel er gitt i følgende tabell:

Setter verdiene fra tabell i formel, SD

Den korte kuttmetoden gir det samme resultatet som vi oppnådde ved å bruke direkte metode i tidligere eksempel. Men kortsiktig metode har en tendens til å redusere beregningsarbeidet i situasjoner der aritmetisk gjennomsnitt ikke er et helt tall.

Beregning av SD (gruppert data):

(a) Lang metode / direkte metode:

Eksempel 12:

Finn SD for følgende distribusjon:

Her er også det første trinnet å finne den gjennomsnittlige M, som vi må ta midtpunktene til c.i betegnet med X 'og finn produktet f X.'. Middel er gitt av Σ f x '/ N. Det andre trinnet er å finne avvikene til midtpunktene i klasseintervallene X 'fra gjennomsnittet, dvs. X'- M betegnet d.

Det tredje trinnet er å firkant avvikene og finne produktet av de kvadratiske avvikene og den tilsvarende frekvensen.

For å løse problemet ovenfor, er ci skrevet i kolonne 1, frekvenser er skrevet i kolonne 2, midtpunktene til c.i er dvs. X 'er skrevet i kolonne 3, er produktet av f X' skrevet i kolonne 4, avviket av X 'fra gjennomsnittet er skrevet i kolonne 5, er den kvadratiske avviken d 2 skrevet i kolonne 6, og produktet f d 2 er skrevet i kolonne 7,

Som vist under:

Så skal avvikene fra midtpunktene tas fra 11.1.

Dermed er den nødvendige standardavviket 4, 74.

(b) kortsiktig metode:

Noen ganger, i direkte metode, observeres det at avvikene fra det faktiske gjennomsnittet resulterer i desimaler og verdiene til d 2 og fd 2 er vanskelige å beregne. For å unngå dette problemet følger vi en kortsiktig metode for beregning av standardavvik.

I denne metoden, i stedet for å ta avvikene fra det faktiske gjennomsnittet, tar vi avvik fra et passende valgt antatt middel, sier AM

Følgende formel brukes da til å beregne SD:

hvor d er avvik fra antatt gjennomsnitt.

Følgende trinn er da involvert i beregningen av standardavvik:

(i) Oppnå variasjoner fra antatt gjennomsnittlig AM som d = (X - AM)

(ii) Multiplikere disse avvikene med tilsvarende frekvenser for å få kolonnen fd . Summen av denne kolonnen gir Σ fd.

fd med tilsvarende avvik (d)

(iii) Multiplikere for å få kolonnen fd 2 . Summen av denne kolonnen blir Σ fd 2 .

(iv) Bruk formel (22) for å finne SD

Eksempel 13:

Ved hjelp av kuttmetode finner du SD av dataene i tabell 4.7.

Løsning:

La oss ta antatt gjennomsnittlig AM = 10. Andre beregninger som trengs for beregning av SD er gitt i tabell 4.8.

Setter verdier fra bordet

Bruk av formelen (19), variansen

(c) trinnavviksmetode:

I denne metoden skriver vi ci 's i kolonne 1; i kolonne 2 skriver vi frekvensene; i kolonne 3 skriver vi verdiene til d, hvor d = X'-AM / i; i kolonne 4 skriver vi produktet av fd, og i kolonne 5 skriver vi verdiene til fd 2, som vist nedenfor:

Her antas Mean midtpunktet av ci 9-11 ie 10, så avvikene d er tatt fra 10 og delt med 3, lengden på ci Formelen for SD i trinnavviksmetode er

hvor jeg = lengden på c.i er,

f = frekvens;

d = avvik fra midtpunktene til ci fra antatt middel (AM) i klasseintervall (i) enheter, som kan angis:

Setter verdier fra bordet

Beregningsreglene kan også angis på følgende måte:

Kombinert Standardavvik ( σ com b ):

Når to sett av poeng er kombinert til et enkelt parti, er det mulig å beregne σ av totalfordelingen fra σ'ene av de to komponentfordelingene.

Formelen er:

hvor σ 1, = SD av fordeling 1

σ 2 = SD for distribusjon 2

d 1 = (M 1 - M kam )

d 2 = (M 2 - M kam )

N 1 = Antall tilfeller i distribusjon 1.

N 2 = Antall tilfeller i fordeling 2.

Et eksempel vil illustrere bruken av formelen.

Eksempel 14:

Anta at vi får midler og SD-er på en prestasjonsprøve for to klasser som er forskjellige i størrelse, og blir bedt om å finne den kombinerte gruppenes o .

Dataene er som følger:

Først finner vi det

Formelen (24) kan utvides til et hvilket som helst antall fordelinger. For eksempel, i tilfelle av tre distribusjoner, vil det være

Egenskaper for SD:

1. Hvis hver variasjonsverdi økes med samme konstante verdi, forblir verdien av SD av fordelingen uendret:

Vi diskuterer denne effekten på SD ved å vurdere en illustrasjon. Tabellen (4.10) viser opprinnelige score på 5 studenter i en prøve med en aritmetisk gjennomsnittlig score på 20.

Nye poeng (X ') er også gitt i samme tabell som vi oppnår ved å legge til en konstant 5 til hver originalpoengsum. Ved å bruke formel for ugrupperte data observerer vi at SD av resultatene forblir det samme i begge situasjonene.

Dermed er verdien av SD i begge situasjoner den samme.

2. Når en konstant verdi trekkes fra hver variant, forblir verdien av SD for den nye distribusjonen uendret:

Elevene kan også undersøke at når vi trekker en konstant fra hver poengsum, blir gjennomsnittet redusert med konstanten, men SD er det samme. Det er grunnen til at " d " forblir uendret.

3. Hvis hver observerte verdi multipliseres med en konstant verdi, blir også SD av de nye observasjonene multiplisert med samme konstant:

La oss multiplisere hvert partitur av den opprinnelige fordeling (Tabell 4.10) med 5.

Dermed blir SD av den nye fordelingen multiplisert med samme konstante (her er det 5).

4. Hvis hver observerte verdi er delt med en konstant verdi, vil SD av de nye observasjonene også deles med samme konstant. Studentene kan undersøke med et eksempel:

For å konkludere er SD uavhengig av opprinnelsesendring (tillegg, subtraksjon), men avhengig av skalaendring (multiplikasjon, divisjon).

Målinger av relativ dispersjon (variasjonskoeffisient):

Spredningstiltakene gir oss en ide om hvorvidt poengene er spredt rundt sin sentrale verdi. Derfor kan to frekvensfordeler som har de samme sentrale verdier, sammenlignes direkte ved hjelp av forskjellige tiltak av dispersjon.

Hvis for eksempel på en prøve i en klasse, har gutter gjennomsnittlig poengsum M 1 = 60 med SD σ 1 = 15 og jenter mener poengsum er M 2 = 60 med SD σ 2 = 10. Det er klart at jenter som har en mindre SD, er mer konsekvente i scoring rundt sin gjennomsnittlige poengsum enn gutter.

Vi har situasjoner når to eller flere fordelinger som har ulik måling eller forskjellige måleenheter, skal sammenlignes med hensyn til deres spredning eller variabilitet. For å gjøre slike sammenligninger bruker vi koeffisienter for relativ spredning eller variasjonskoeffisient (CV).

Formelen er:

(Variasjonskoeffisient eller relativ variabilitetskoeffisient)

V gir prosentandelen som σ er av testmiddelet. Det er således et forhold som er uavhengig av måleenhetene.

V er begrenset i bruk på grunn av visse uklarheter i tolkningen. Den er forsvarlig når den brukes med forholdsskalaer hvor enhetene er like og det er et ekte null- eller referansepunkt.

For eksempel kan V brukes uten å nøle med fysiske skalaer - de som er opptatt av lineære størrelser, vekt og tid.

To tilfeller oppstår ved bruk av V med forholdsskalaer:

(1) Når enheter er forskjellige, og

(2) når M er ulik, blir enhetene på skalaen det samme.

1. Når enheter er ulikt:

Eksempel 15:

En gruppe av 10 år gamle gutter har en gjennomsnittlig høyde på 137 cm. med en o på 6, 2 cm. Samme gruppe gutter har en gjennomsnittlig vekt på 30 kg. med en 3, 5 kg. I hvilket trekk er gruppen mer variabel?

Løsning:

Tydeligvis kan vi ikke sammenligne sentimeter og kilo direkte, men vi kan sammenligne den relative variabiliteten til de to fordelingene i forhold til V.

I det nåværende eksemplet er det ikke bare to grupper forskjellig i forhold til gjennomsnitt, men også i måleenheter som er cm. i første tilfelle og kg. i den andre. Variasjonskoeffisienten kan brukes til å sammenligne gruppens variabilitet i en slik situasjon.

Vi beregner således:

Fra ovenstående beregning ser det ut til at disse guttene er omtrent dobbelt så variabel (11, 67 / 4, 53 = 2, 58) i vekt som i høyden.

2. Når midlene er ulige, men skalaenhetene er de samme :

Anta at vi har følgende data på en test for en gruppe gutter og en gruppe menn:

Så sammenlign:

(i) Ytelsen til de to gruppene på testen.

(ii) Variabiliteten av score i de to gruppene.

Løsning:

(i) Siden den gjennomsnittlige poengsummen for guttegruppen er større enn menns, har guttegruppen derfor gitt bedre resultater av testen.

(ii) For å sammenligne to grupper med hensyn til variabilitet blant score, beregnes variasjonskoeffisient V av gutter = 26, 67 og V av menn = 38, 46.

Derfor er variabiliteten av score større i gruppen menn. Studentene i guttegruppe, som har en mindre CV, er mer konsistente i å score rundt sin gjennomsnittlige poengsum i forhold til mennsegruppen.

SD og spredning av observasjoner:

I en symmetrisk (normal) fordeling,

(i) Gjennomsnitt ± 1 SD dekker 68, 26% av resultatene.

Gjennomsnitt ± 2 SD dekker 95, 44% av resultatene.

Gjennomsnitt ± 3 SD dekker 99, 73% av resultatene.

(ii) I store prøver (N = 500) er området ca. 6 ganger SD.

Hvis N er omtrent 100, er området omtrent 5 ganger SD.

Hvis N er omtrent 50, er området omtrent 4, 5 ganger SD.

Hvis N er omtrent 20, er området omtrent 3, 7 ganger SD

Tolkning av standardavvik:

Standardavviket karakteriserer arten av fordelingen av score. Når poengene er mer spredt, er SD mer og når poengene er mindre spredte, er SD mindre. For å tolke verdien av måleverdien av dispersjon må vi forstå at større verdien av ' σ ' jo mer spredt er resultatene fra gjennomsnittet.

Som i tilfelle av gjennomsnittlig avvik, krever tolkningen av standardavviket verdien av M og N for vurdering.

I følgende eksempler er de nødvendige verdiene for σ, middel og N gitt som:

Her er dispersjonen mer i eksempel 2 sammenlignet med eksempel 1. Det betyr at verdiene er mer spredt i eksempel 2, sammenlignet med verdiene i eksempel 1.

Meriter av SD:

1. SD er fast definert og verdien er alltid bestemt.

2. Det er det mest brukte og viktige tiltaket for dispersjon. Den har en sentral posisjon i statistikk.

3. Som gjennomsnittlig avvik, er den basert på alle verdiene av fordelingen.

4. Her er tegnene på avvik ikke oversett, i stedet blir de eliminert ved å kvadre hver avvik.

5. Det er hovedmålet for variabilitet som det er mottagelig for algebraisk behandling og brukes i korrelasjonsarbeid og i videre statistisk analyse.

6. Det er mindre påvirket av fluktuasjoner av prøvetaking.

7. Det er det pålitelige og mest nøyaktige måleområdet for variabilitet. SD går alltid med det som er det mest pålitelige målet for sentral tendens.

8. Det gir en standard måleenhet som har sammenlignbar betydning fra en test til en annen. Videre er normalkurven direkte relatert til SD

begrensninger:

1. Det er ikke lett å beregne og det er ikke lett å forstå.

2. Det gir mer vekt til ekstreme gjenstander og mindre til de som er nær det gjennomsnittlige. Når avviket fra en ekstremt poengsum er kvadratet, gir det opphav til en større verdi.

Bruk av SD:

Standardavvik brukes:

(i) Når den mest nøyaktige, pålitelige og stabile måling av variabilitet er ønsket.

(ii) Når mer vekt skal gis til ekstreme avvik fra gjennomsnittet.

(iii) Når korrelasjonskoeffisient og annen statistikk beregnes senere.

(iv) Når tiltak av pålitelighet beregnes.

(v) Når score skal tolkes riktig med referanse til normal kurve.

(vi) Når standard score skal beregnes.

(vii) Når vi vil teste betydningen av forskjellen mellom to statistikker.

(viii) Når variasjonskoeffisient, varians, etc. beregnes.