Teknikker brukt i statistikk

I denne artikkelen vil vi diskutere om noen av statistikkteknikkene. Noen av teknikkene er: 1. Målet med sentral tendens 2. Variabilitet 3. Sannsynlighet 4. Frekvensfordeling 5. Tidsserie.

Tiltakene av sentral tendens:

Gjennomsnitt:

Et hvilket som helst statistisk mål som gir en ide om posisjonen til punktet rundt hvilken annen observasjonsklynge kalles et mål for sentral tendens. Den mest brukte måling er "Gjennomsnitt" eller det aritmetiske gjennomsnittet.

Daglig inntjening av to arbeidere i en uke er som under:

Første arbeidstaker Rs 70, 50, 100, 90, 50 Gjennomsnittlig opptjening = Rs 76

2. Arbeider Rs 200, 250, 50, 300, 150 Gjennomsnittlig opptjening = Rs 190

Dermed kan vi fra det ovenstående eksempel konkludere med at den andre arbeideren i gjennomsnitt tjener mer enn den første. Målet med å beregne et gjennomsnitt - som man lett kan se - er å erstatte serie observasjoner med en enkelt verdi, som er representativ for alle observasjonene. Fra eksemplet ovenfor kan det observeres at det aritmetiske middel er en verdi nær midten, og noen av observasjonene er større enn det mens noen er mindre.

Det kan således sies at det aritmetiske gjennomsnittet av observasjonene på en variabel er definert som summen av observasjonene dividert med antall observasjoner.

For den første arbeideren har det aritmetiske gjennomsnittet blitt beregnet som under:

(Rs 70 + 50 + 100 + 90 + 50) ÷ 5 = Rs 76

Geometrisk middel (GM) Geometrisk Gjennomsnittlig for en gruppe observasjoner er definert som nth rot av produktet av alle observasjonene. La oss anta at observasjonene er x 1, x 2, x 3, ..., x n .

GM kan beregnes som under:

Dette kan beregnes ved hjelp av et loggbord.

Modus:

Modus defineres som verdien av variablene eller observasjonene som oppstår oftest. For eksempel, hvis observasjonene er -2, 9, 6, 2, 8, 2, 2, 7, 2 og 3, så blir modusen 2, som har skjedd for maksimalt antall ganger, dvs. 5 ganger.

median:

Median er verdien av den midterste variabelen, når observasjonene er arrangert i en stigende eller en synkende rekkefølge. Det er åpenbart at halvparten av verdiene vil være mindre enn medianen, og halvparten av verdiene blir større. Således, hvis observasjonene er 3, 9, 6, 4, 5, 7 og 10, så regnes verdiene i en stigende rekkefølge 3, 4, 5, 6, 7, 9 og 10, medianverdien som den 4. observasjon og er lik 6.

Men hvis antall observasjoner er like, så er det to mellomste verdier, og det er vanlig å ta det aritmetiske gjennomsnittet av disse to verdiene. For eksempel, hvis observasjonen 10 er utelatt fra de ovennevnte variablene, er det to middelverdier 5 og 6 og medianverdien er 5 + 6 ÷ 2 = 5, 5.

De andre viktige statistiske verktøyene for å måle og analysere data og elementet av variabilitet deri, omfatter beregning av (i) rekkevidde, (ii) halvinterkvartilstand, (iii) gjennomsnittlig avvik, (iv) standardavvik, ) Frekvensfordeling (både symmetrisk og asymmetrisk).

Symmetrisk fordeling er preget av eksistensen av en symmetrilinje som deler histogrammet i to deler og en del er speilbildet til den andre. Imidlertid er de fleste distribusjonene i handel og økonomi ikke av denne typen. Asymmetriske fordelinger er også kjent som skjevefordelinger. Skewness betyr mangel på symmetri og skrå utbredelser er preget av en lengre hale på den ene siden av histogrammet.

Målevariabilitet:

Aritmetiske og geometriske midler eller medianer tjener som grunnlag for å sammenligne to eller flere populasjoner eller observasjoner. Men de andre tiltakene av variasjon eller avvik er også viktige for å uttrykke i hvilken grad observasjonene avviker fra hverandre. I statistikk er dispersjon synonymt med variabilitet eller avvik.

Følgende er viktige tiltak av variabilitet:

Område:

Forskjellen mellom de største og minste verdiene av et sett med observasjoner kalles 'rekkevidde'.

Semi-Inter kvartilområde :

Forskjellen mellom verdien av observasjonene i 2. og 3. kvartil kalles halvintervallet. Dette fjerner innflytelsen av svært lave og svært høye verdier av observasjonene, som er få i antall.

Gjennomsnittlig Absolutt Avvik:

Gjennomsnittlig avvigelse betyr variasjonen av observasjonene fra det aritmetiske gjennomsnittet av observasjonene.

Eksempel: Observasjoner er x 1, x 2 ... x n og det aritmetiske gjennomsnittet er x.

Formelen er:

og dermed er gjennomsnittet

Men Σ (x 1 - x̅) = 0, uansett er verdien av x 1, x 2, ... .x n

Derfor kan formelen Σ (x i - x̅) ikke brukes som et mål for variabilitet. Denne vanskeligheten kan unngås hvis tegnene (+ eller -) ignoreres. Dette er logisk, fordi tegnet på et bestemt avvik x i - x betyr bare om observasjonen x i, er til venstre for x eller til høyre og dette har ingen relevans for beregning av avvikene, fra sentralpunktet (x), av enhver observasjon.

Standardavvik:

Avviket fra observasjonene fra deres aritmetiske gjennomsnitt (x) kan være positiv (+) eller negativ (-). I statistikk indikerer tegnene på avvik fra det aritmetiske middel bare observasjonsretningen fra den sentrale tendensen (xiod) og dermed ignorert. De negative tegnene (-) blant avviket fra x kan også unngås dersom i stedet for å ta de absolutte verdiene, blir kvadratene av avvikene tatt som under:

Siden måling av variabilitet skal være i samme enhet som de opprinnelige observasjonene, beregnes standardavviket med følgende formel:

For en frekvensfordeling, med x 1 x 2, ..., x n som midtverdier av klassene og f 1 f 2, ..., f n som frekvensene, beregnes standardavviket (SD) ved følgende forbedring av over formel:

Standardavviket er langt den mest brukte måleen på variabilitet i statistikk. Den har mange egenskaper som gjør det til det mest foretrukne målet i statistiske problemer.

Eksempel:

IQ nivåer av fem Business Management studenter er som under:

Derfor er standardavviket: 13, 22

13.22 er standardavviket uttrykt i de samme enhetene som observasjonene selv. Verdien 13.22 er et punkt på samme tallskala.

Ovennevnte standardavvik har blitt utarbeidet fra avvikene fra en befolkning på 5 studenter. I praksis kan imidlertid standardavvik ofte ikke beregnes fra befolkningen, da mesteparten av befolkningen er så stor at vanligvis prøven tas for å beregne avviket.

For utvalgsdata måles variabiliteten ved hjelp av prøvevariant og standardavviket beregnes ved å bruke følgende formel:

Det skal bemerkes, siden prøvedataene er brukt, 'n' angir prøvestørrelsen i stedet for 'N' som angir populasjonsoverholdelse.

Begrep om sannsynlighet:

Ofte, i vårt daglige liv, forutsier vi visse fremtidige hendelser med slike ord som - dette vil trolig skje ", " sannsynligheten for dette er veldig høy ", eller" dette skjer i all sannsynlighet ", med en viss grad av vaghet i slike uttalelser. Disse utsagnene er i stor grad subjektive og avhenger mest av vår evne til å analysere lignende situasjoner i fortiden. Betydningen av begrepet sannsynlighet for en begivenhet og noen måter å måle den med statistiske verktøy er enorm for kommersielle banker.

Mens du gir et lån til en kunde, vil banken gjerne vite sannsynligheten for mislighold av den nevnte kunden, som måles på grunnlag av studiet av sannsynlighet ved hjelp av de statistiske beregningene. Selv om det er ganske vanskelig å definere sannsynlighet nøyaktig på et elementært nivå, kan man forsøke å forutsi det samme ved å bruke teknikkene for tilfeldig eksperiment og frekvensdefinisjon.

Tilfeldig eksperiment betyr et eksperiment hvis alle mulige utfall er kjent og som kan gjentas under identiske forhold, men nøyaktig prediksjon av utfallet er umulig. Prisen på en vare på ulike dager kan betraktes som utfall av et tilfeldig forsøk. Resultatene vil vanligvis betegnes av E 1, E 2, E 3 ..., E n og det antas at de er endelige i antall.

Frekvensfordeling:

Hvis utfallet E 1 opptrer r ganger når tilfeldig eksperiment blir gjentatt n ganger, er sannsynligheten for E 1 definert av forholdet 'r / n', idet antall repetisjoner økes på ubestemt tid. Dermed er sannsynligheten definert som en grense for relativ frekvens når eksperimentet gjentas et uendelig antall ganger.

Tidsserier:

En serie observasjoner på ulike tidspunkter på en variabel - som er avhengig av tid - utgjør en tidsserie. Således gir slike observasjonsserier endringer eller variasjoner av en mengde over en tidsperiode, og kalles ofte historiske eller kronologiske data. For denne typen data er en av variablene tiden som er representert av 't' og den andre, som er avhengig av tiden er representert av 'Yt.'

For eksempel avkastning av avling i forskjellige årstider, produksjon av stål i forskjellige måneder, kvartalsvis eksport av te, salg av is i ulike måneder av året etc. Alle eksemplene som er nevnt ovenfor, refererer til noen økonomisk eller forretningsaktivitet, og en serie observasjoner på slike variabler kalles vanligvis økonomiske tidsseriedata. Et annet eksempel på tidsseriedata er nedbør i tommer på ulike dager på året.

Det er således klart at enhver variabel, som avhenger av tid, danner tidsseriedataene. Verdifulle konklusjoner som er trukket av interessenter som næringslivet, bankfolk, industrifolk etc. fra tidsseriene fører til trendmåling fra dataene, noe som påvirker deres beslutninger betydelig.