Måler for dispersjon

Etter å ha lest denne artikkelen vil du lære om de ulike målene for spredning som brukes i samfunnsforskning.

I sosial forskning ønsker vi ofte å vite omfanget av homogenitet og heterogenitet blant respondentene med hensyn til en gitt karakteristikk. Et hvilket som helst sett med sosiale data har verdier som kan karakterisere heterogenitet. Settet av sosiale data karakteriseres typisk av heterogeniteten av verdiene.

Faktisk er omfanget av de heterogene eller varierer mellom seg, av grunnleggende betydning i statistikk. Tiltak av sentral tendens beskriver en viktig egenskap ved et sett med data, men de forteller ingenting om denne andre grunnleggende egenskapen.

Derfor trenger vi måter å måle heterogenitet på - i hvilken grad dataene blir spredt. Tiltakene som gir denne beskrivelsen kalles tiltak for spredning eller variabilitet. De følgende tre fordelingene vist i figur 18.4 vil illustrere viktigheten av å måle dispersjonen av statistiske data.

Fordeling av middelverdier for prøver av forskjellige størrelser :

Det kan ses at det aritmetiske gjennomsnittet av alle de tre kurver i figuren ovenfor er det samme, men fordelingen av verdier som vist ved kurve A viser mindre variabilitet (dispersjon) enn det som er avbildet av kurve B, mens kurve B har mindre variabilitet sammenlignet med det som vises ved kurve C.

Hvis vi bare ser på målet om sentrale tendenser til fordelinger, vil vi savne en viktig forskjell blant de tre kurvene. For å få bedre forståelse av datamønsteret må vi også få måleverdien av dens spredning eller variabilitet, og vi vender nå til å vurdere ulike tiltak av spredning.

Område:

Området er definert som forskjellen mellom de høyeste og laveste verdiene: Matematisk,

R (Range) = M n - M L

hvor M n og M l står for høyeste og laveste verdi. For datasettet: 10, 22, 20, 14 og 14 vil rekkevidden være forskjellen mellom 22 og 10, dvs. 12. I tilfelle av grupperte data tar vi rekkevidden som forskjellen mellom de ekstreme midtpunktene klasser. Således, hvis midtpunktet til det laveste intervallet er 150 og det høyeste er 850, vil rekkevidden være 700.

Den eneste fordelen av rekkevidde, hvilket mål for dispersjon sjelden brukes, er at det enkelt kan beregnes og lett forstås. Til tross for denne fordel er det generelt ikke et meget nyttig mål for dispersjon; Den største ulempen er at den ikke forteller oss noe om spredning av verdier som er mellomliggende mellom de to ytterpunktene.

Semi-lnter-Quartile Range eller Quartile Avvik:

Et annet mål for dispersjon er halv-inter-kvartilområdet, kjent som Quartile Deviation. Kvartiler er poengene som deler rekkefølgen eller serien av verdier i fire like deler som hver inneholder 25 prosent av elementene i fordelingen. Kvartilene er da de høyeste verdiene i hver av disse fire delene. Interkvartilområdet er forskjellen mellom verdiene for første og tredje kvartil.

Dermed er hvor og Q 1 og Q 3 står for første og tredje kvartil, er halvintervallet eller kvartilavviket gitt ved formel = Q 3 -Q 1/2

Beregning av kvartilavvik:

Kvartilavvik er et absolutt mål for dispersjon. Dersom kvartilavvik skal brukes til å sammenligne dispersjonene av serier, er det nødvendig å konvertere det absolutte mål til en kvartilavvikskoeffisient.

Gjennomsnittlig avvik :

Avstands- og kvartilavvik lider av alvorlige ulemper, dvs. de beregnes ved å ta hensyn til bare to verdier av en serie. Således er disse to tiltakene av dispersjon ikke basert på alle observasjoner av serien. Som et resultat er sammensetningen av serien helt ignorert. For å unngå denne feilen kan dispersjonen beregnes under hensyntagen til alle observasjonene i serien i forhold til en sentral verdi.

Metoden for å beregne dispersjon kalles metoden for gjennomsnittlige avvik (gjennomsnittlig avvik). Som navnet tydelig antyder, er det det aritmetiske gjennomsnittet av avvikene til forskjellige elementer fra et mål på sentral tendens.

Som vi vet, vil summen av avvik fra en sentral verdi alltid være null. Dette antyder at for å få en gjennomsnittlig avvik (omtrent gjennomsnittet eller en av de sentrale verdiene), må vi på en eller annen måte kvitte seg med eventuelle negative tegn. Dette gjøres ved å ignorere tegn og ta absolutt verdi av forskjellene.

I vårt hypotetiske eksempel er gjennomsnittet av tallene 12, 14, 15, 16 og 18 15. Dette betyr at forskjellen på 15 fra hvert av disse tallene, ignorerer skiltene hele tiden og deretter legger til resultatene, vil vi få totalt avvik.

Deler det med 5, får vi:

= 1, 6 (hvor | d | står for summen av absolutt avvik).

Vi kan derfor si at i gjennomsnitt er scoreene forskjellig fra gjennomsnittet med 1, 6.

Beregning av gjennomsnittlig avvik i uoppfordret dato (individuelle observasjoner):

Beregning av gjennomsnittlig avvik i kontinuerlig serie:

Gjennomsnittlig avvikskoeffisient :

For å sammenligne gjennomsnittlig avvik i serier beregnes gjennomsnittlig avvikskoeffisient eller relativ gjennomsnittlig avvik. Dette oppnås ved å dividere gjennomsnittlig avvik ved det målet av sentral tendens fra hvilken avvik ble beregnet. Og dermed,

Midlere koeffisient. Avvik / X

Ved å bruke denne formelen til det forrige eksempelet har vi,

Gjennomsnittlig avvikskoeffisient = 148/400 = 0, 37

Standardavvik :

Det mest nyttige og ofte brukte mål for dispersjon er standardavviket eller rotmiddelmiddelfeltavviket over gjennomsnittet. Standardavviket er definert som kvadratroten til det aritmetiske gjennomsnittet av kvadratet av avvikene om middelverdien. symbolsk

σ = √Σd 2 / N

hvor σ (gresk bokstav Sigma) står for standardavviket, Σd 2 for summen av kvadratet av avvikene målt fra middel og N for antall elementer.

Beregning av standardavvik i serie av individuelle observasjoner:

Short Cut Metode:

Beregning av standardavvik i diskret serie :

I en diskret serie blir avvikene fra et antatt middel først beregnet og multiplisert med de respektive frekvensene av elementene. Avvikene er kvadret og multiplisert med de respektive frekvensene av elementene. Disse produktene er totalt og delt med totalt antall frekvenser. Standardavviket beregnes med følgende formel:

Følgende illustrasjon vil forklare formelen:

Beregning av standardavvik i en kontinuerlig serie :

I en sammenhengende serie er klassens intervaller representert ved midtpunktene. Imidlertid er klassens intervaller vanligvis likeverdige, og avvikene fra antatt gjennomsnitt uttrykkes i klasseintervall-enheter. Alternativt er trinnavvik ankommet ved å dividere avvikene av størrelsen på klasseintervallet.

Dermed er formelen for beregning av standardavvik skrevet som under:

hvor jeg står for fellesfaktoren eller størrelsen på klasseintervallet.

Følgende eksempel vil illustrere denne formelen:

Variasjonskoeffisient:

Standardavviket representerer måling av absolutt spredning. Det er også nødvendig å måle den relative spredning av to eller flere fordelinger. Når standardavviket er relatert til dets gjennomsnitt, måler det relativ spredning. Karl Pearson har utarbeidet et enkelt mål for relativ spredning som vanligvis er kjent som variasjonskoeffisienten.

Variasjonskoeffisienten for problemet i tabell 18.47 er: