Bestemmelse av pålitelighet av en test: 4 Metoder

Det er fire prosedyrer til felles bruk for å beregne pålitelighetenskoeffisienten (noen ganger kalt selvkorrelasjonen) til en test. Disse er: 1. Test-Retest (Repetisjon) 2. Alternativ eller Parallell Forms 3. Split-Half Teknikk 4. Rasjonal Equivalence.

1. Test-Retest Metode:

For å estimere pålitelighet ved hjelp av test-retest-metoden, administreres samme test to ganger til samme gruppe elever med et gitt tidsintervall mellom de to administreringene av testen.

De resulterende testresultatene bøyes sammen, og denne korrelasjonskoeffisienten gir et mål på stabilitet, det vil si det viser hvor stabil testresultatene er over en tidsperiode. Så er det ellers kjent som et mål for stabilitet.

Beregningen av pålitelighet i dette tilfellet varierer i henhold til hvor lenge tidsintervallet er tillatt mellom de to administrasjonene. Produktets øyeblikksmetode for korrelasjon er en signifikant metode for å estimere påliteligheten av to sett med score.

Dermed indikerer en høy korrelasjon mellom to sett med score at testen er pålitelig. Midler viser at resultatene som ble oppnådd ved første administrasjon, ligner på resultatene som ble oppnådd ved andre administrasjoner av samme test.

I denne metoden spiller tidsintervallet en viktig rolle. Hvis det er for lite, si en dag eller to, vil konsekvensen av resultatene bli påvirket av overføringseffekten, dvs. elevene vil huske noen av resultatene fra den første administrasjonen til den andre.

Hvis tidsintervallet er langt, sier et år, vil resultatene ikke bare bli påvirket av ulikhet av testprosedyrer og -betingelser, men også av de faktiske endringene i elevene over denne tidsperioden.

Tidsavstand for retest bør ikke være mer enn seks måneder. Tidsavstand for retesting fjorten dager (2 uker) gir en nøyaktig indeks av pålitelighet.

Fordeler:

Selvkorrelasjon eller test-retest-metode, for estimering av pålitelighetskoeffisient er vanligvis brukt. Det er verdig å bruke hensiktsmessig i forskjellige situasjoner. En test av tilstrekkelig lengde kan brukes etter et intervall på mange dager mellom påfølgende test.

ulemper:

1. Hvis testen gjentas umiddelbart, vil mange fag huske sine første svar og bruke tiden sin på nytt materiale, og dermed øke scoreene sine - noen ganger med en god avtale.

2. Foruten umiddelbare minneeffekter, vil praksis og selvtillit fremkalt av kjennskap til materialet nesten helt sikkert påvirke resultatene når testen tas for en annen gang.

3. Indeks for pålitelighet som er oppnådd er mindre nøyaktig.

4. Hvis intervallet mellom testene er ganske lang (mer enn seks måneder), vil vekstfaktor og modenhet påvirke resultatene og har en tendens til å senke ned pålitelighetsindeksen.

5. Hvis testen gjentas umiddelbart eller etter et lite tidsrom, kan det være mulighet for overføringseffekt / overføringseffekt / minne / praksis-effekt.

6. Ved å gjenta den samme testen, på samme gruppe andre gang, blir studentene uinteresserte og dermed liker de ikke å delta helhjertet.

7. Noen ganger opprettholdes ikke ensartethet som også påvirker testresultatene.

8. Muligheter for å diskutere noen spørsmål etter første administrasjon, noe som kan øke resultatene ved andre administrasjoner som påvirker påliteligheten.

2. Alternativ eller Parallell Skjema Metode:

Beregning av pålitelighet ved hjelp av tilsvarende formmetoden innebærer bruk av to forskjellige, men ekvivalente former for testen. Parallell form pålitelighet er også kjent som alternativ form pålitelighet eller ekvivalent form pålitelighet eller sammenlignbar form pålitelighet.

I denne metoden brukes to parallelle eller tilsvarende former for en test. Ved parallelle former mener vi at skjemaene er likeverdige for innhold, mål, format, vanskelighetsgrad og diskriminerende verdi av gjenstander, testens lengde, etc.

Parallelle tester har lik gjennomsnittlig score, avvik og interrelasjoner mellom elementer. Det vil si at to parallelle former må være homogene eller liknende i alle henseender, men ikke en duplisering av testelementer. La de to skjemaene være Form A og Form B.

Pålitelighetskoeffisienten kan sees på som koeffisientkorrelasjonen mellom resultatene på to ekvivalente testformer. De to ekvivalente skjemaene er muligens like i innhold, grad, mentale prosesser testet og vanskelighetsgrad og i andre aspekter.

En form for testen blir administrert på studentene, og etter ferdigstillelse leveres en annen form for test til samme gruppe. Resultatene, slik oppnådd, er korrelerte som gir estimatet om pålitelighet. Dermed er påliteligheten funnet kalt ekvivalenskoeffisient.

Gulliksen 1950: har definert parallelle tester som tester som har like metoder, lik variasjon og like inter-relasjoner.

Guilford: Den alternative formmetoden indikerer både ekvivalens av innhold og stabilitet i ytelsen.

Fordeler:

Denne prosedyren har visse fordeler i forhold til test-retest-metoden:

1. Her blir ikke den samme testen gjentatt.

2. Minne, praksis, overføringseffekter og tilbakekallingsfaktorer minimeres, og de påvirker ikke resultatene.

3. Pålitelighetskoeffisienten oppnådd ved denne metoden er et mål for både temporal stabilitet og konsistens av respons på forskjellige elementprøver eller testformer. Denne metoden kombinerer således to typer pålitelighet.

4. Nyttig for påliteligheten av prestasjonstester.

5. Denne metoden er en av de riktige metodene for å bestemme påliteligheten av pedagogiske og psykologiske tester.

begrensninger:

1. Det er vanskelig å ha to parallelle former for en test. I visse situasjoner (dvs. i Rorschach) er det nesten umulig.

2. Når testene ikke er nøyaktig like i forhold til innholdsvanskeligheter, lengde, kan sammenligningen mellom to sett med score fra disse testene føre til feilaktige avgjørelser.

3. Øvelses- og overføringsfaktorer kan ikke kontrolleres helt.

4. Dessuten skaper administrering av to former samtidig kjedsomhet. Det er derfor folk foretrekker slike metoder der det kun kreves én administrasjon av testen.

5. Testbetingelsene mens du administrerer skjemaet B, kan ikke være det samme. Dessuten kan testene ikke ligge i samme fysiske, mentale eller emosjonelle tilstand ved begge administrasjonstidene.

6. Testresultater av andre form for testen er generelt høye.

Selv om vanskelige, forsiktig og forsiktig konstruerte parallelle skjemaer ville gi oss en rimelig tilfredsstillende grad av pålitelighet. For godt laget standardiserte tester er parallellformmetoden vanligvis den mest tilfredsstillende måten å bestemme påliteligheten på.

3. Split-Half Method eller Sub-delt Test Metode:

Split-halv metode er en forbedring i forhold til de to tidligere metodene, og det innebærer både egenskapene til stabilitet og ekvivalens. Ovennevnte to metoder for estimering av pålitelighet virker som om det er vanskelig.

Det kan ikke være mulig å bruke den samme testen to ganger, og å få en tilsvarende testform. For å overvinne disse vanskelighetene og for å redusere minneeffekten, så vel som å økonomisere testen, er det derfor ønskelig å estimere pålitelighet gjennom en enkelt administrering av testen.

I denne metoden blir testen administrert en gang på prøven, og det er den mest hensiktsmessige metoden for homogene tester. Denne metoden gir den interne konsistensen til testresultater.

Alle prøvens gjenstander er vanligvis ordnet i økende rekkefølge av vanskeligheter og administreres en gang på prøve. Etter administrering av testen er det delt inn i to sammenlignbare eller liknende eller like deler eller halvdeler.

Resultatene er arrangert eller er laget i to sett oppnådd fra ulik antall elementer og jevnt antall elementer separat. Som for eksempel administreres en test på 100 elementer.

Antallet av enkeltpersoner basert på 50 elementer med ulike tall som 1, 3, 5, .. 99 og score basert på like tall 2, 4, 6 ... 10 er separat arrangert. Delvis er 'A' merkelige tall elementer tilordnet og del 'B' vil bestå av like antall elementer.

Etter å ha skaffet to poeng på odde og jevne antall testelementer, beregnes koeffektivitet av korrelasjon. Det er virkelig en sammenheng mellom to like halvdeler av poeng oppnådd i en sittende. For å estimere pålitelighet, brukes Spearman-Brown Prophecy formel.

Spearman-Brown-formelen er gitt av:

hvor r ₁₁ = påliteligheten til hele testen.

r ^11/22 = korrelasjonskoeffisienten mellom to ^halvtester .

Eksempel 1:

En test inneholder 100 elementer. Alle disse elementene er ordnet i vanskelighetsgrad som en går fra den første til den hundre. Studentene svarer på testen og testen er scoret.

Poengsumene er oppnådd av studentene i ulik antall elementer og til og med antall elementer er samlet separat. Korrelasjonskoeffisienten som er funnet mellom disse to settene er 0, 8.

Påliteligheten til hele testen (eller)

Mens du bruker denne formelen, bør du huske på at variansen av ulike og like halvdeler skal være like, dvs.

Hvis det ikke er mulig, kan Flanagan og Rulons formler benyttes. Disse formlene er enklere og involverer ikke beregning av korrelasjonskoeffisient mellom to halvdeler.

Fordeler:

1. Her gjentar vi ikke testen eller bruker den parallelle formen, og testen testes derfor ikke to ganger. Som sådan er bære over effekten eller øveffekten ikke der.

2. I denne metoden blir svingningene av individets evne, på grunn av miljømessige eller fysiske forhold, minimert.

3. På grunn av en enkelt administrering av testen, påvirker de daglige funksjonene og problemene ikke.

4. Det er vanskelig å konstruere parallelle testformer.

begrensninger:

1. En test kan deles i to like halvdeler på flere måter, og korrelasjonsfaktoren kan i hvert tilfelle være forskjellig.

2. Denne metoden kan ikke brukes til å estimere påliteligheten av farttestene.

3. Da lest blir administrert en gang, kan sjansefeilene påvirke resultatene på de to halvdelene på samme måte og dermed bidra til å gjøre pålitelighetsfaktoren for høy.

4. Denne metoden kan ikke brukes i strømtester og heterogene tester.

Til tross for alle disse begrensningene, er halvdelmetoden vurdert som den beste av alle metodene for måling av testsikkerhet, da dataene for å bestemme påliteligheten oppnås ved en anelse og reduserer dermed tiden, arbeidet og vanskeligheter som er involvert i andre tilfeller eller gjentatt administrasjon.

4. Metode for rasjonell ekvivalens:

Denne metoden er også kjent som "Kuder-Richardson Pålitelighet" eller "Inter-item Consistency". Det er en metode basert på enkel administrasjon. Den er basert på konsistens av svar på alle elementer.

Den vanligste måten å finne inter-item konsistens er gjennom formelen utviklet av Kuder og Richardson (1937). Denne metoden gjør det mulig å beregne interkorrelasjonen mellom elementene i testen og korrelasjonen til hvert element med alle testens elementer. J. Cronbach kalte det som koeffisient av intern konsistens.

I denne metoden antas det at alle elementer har samme eller like vanskelige verdi, korrelasjonen mellom elementene er like, alle elementene måler i det vesentlige samme evne og testen er homogen i naturen.

I likhet med delt halv metode gir denne metoden også et mål for intern konsistens.

Den mest populære formelen er Kuder-Richardson, dvs. KR-21, som er gitt nedenfor:

q = - p

p = 1 - q

Et eksempel vil hjelpe oss å beregne p og q.

Eksempel 2:

60 studenter dukket opp en prøve, og av dem har 40 studenter gitt riktig respons på et bestemt prøveemne.

p = 40/60 = 2/3

Dette betyr at en del av elevene har gitt riktig respons til et bestemt element i testen. I hvilke 20 studenter har gitt feil svar på det aktuelle elementet.

Dermed er q = 20/60 eller 1 - 40/60

For hvert element skal vi finne ut verdien av p og q, da pq summeres over alle elementene for å få Σpq. Multipliser p og q for hvert element og sum for alle elementer. Dette gir Σpq.

Fordeler:

1. Denne koeffisienten gir noen indikasjoner på hvordan internt konsistent eller homogent prøvene er.

2. Rasjonal ekvivalens er bedre enn delt halvteknikk i visse teoretiske aspekter, men den faktiske forskjellen i pålitelighetskoeffisienter funnet av de to metodene er ofte ubetydelig.

3. Split-halv metode måler bare ekvivalensen, men rasjonell ekvivalensmetode måler både ekvivalens og homogenitet.

4. Økonomisk metode som testen administreres en gang.

5. Det krever heller ikke administrasjon av to ekvivalente former for tester, og det må heller ikke deles opp i to like halvdeler.