4 viktige kriteriene for et godt test

Denne artikkelen kaster lys på de fire viktige kriteriene for en god test. Kriteriene er: - 1. Pålitelighet 2. Gyldighet 3. Objektivitet 4. Brukbarhet.

Kriterium # 1. Pålitelighet:

Ordboken som betyr pålitelighet er konsistens, avhengighet eller tillit. En måleprosedyre er pålitelig i den grad gjentatt måling gir konsistente resultater for den enkelte.

En test anses å være pålitelig dersom den gir konsistente resultater i sin påfølgende administrasjon. Så ved pålitelighet av en test mener vi hvor pålitelig eller trofast testen er. For å uttrykke på en generell måte, hvis et måleinstrument måler konsekvent, er det pålitelig.

Når en test er pålitelig, vil score som gruppemedlemmene foretar ved retest med samme test eller med alternative former for samme test, variere svært lite eller ikke i det hele tatt fra deres opprinnelige verdier.

Eksempel 1:

Hvis et vitne gir samme påstand om et spørsmål når det blir spurt om og om igjen av en advokat i retten, legger vi tillit til hans uttalelse og tar påstanden hans til å være pålitelig.

Eksempel 2:

Hvis en klokke forblir 10 minutter sent hver dag i forhold til Hindustans tid så kan vi si at klokken er et pålitelig instrument.

Eksempel 3:

Anta at vi ber Amit å rapportere fødselsdato. Han rapporterer det til 13. juli 1985. Etter et tidsrom forlot vi det samme spørsmålet, og han rapporterte det samme dvs. 13. juli 1985.

Vi kan stille spørsmålet igjen og igjen, og hvis svaret er det samme, føler vi at Amits uttalelse er pålitelig.

definisjoner:

1. Thorndike:

Det er konsistensen av en test som det måler hva som skal måles. Test pålitelighet regnes vanligvis som den grad testen er fri for kompenserende feil.

2. Gronlund og Linn:

Pålitelighet refererer til målingens konsistens - det vil si, hvor konsistente testresultater eller andre evalueringsresultater er fra en måling til andre.

3. Anastasi:

Pålitelighet refererer til konsistensen av score oppnådd av de samme individer når de ble undersøkt med samme test ved forskjellige anledninger eller med forskjellige sett med tilsvarende elementer eller under variable undersøkelsesforhold.

4. Davis:

Graden av relative målinger av et sett av testpoeng er definert som pålitelighet.

5. Guilford:

Pålitelighet er andelen av den sanne variansen i oppnådde testresultater.

Fra den ovennevnte diskusjonen ble det klart at påliteligheten av en test betyr i hvilken grad testen gir det samme resultatet ved påfølgende administrasjon på samme populasjon. Andre forhold forblir konstant, hvis den samme testen blir administrert på samme populasjon ved to forskjellige anledninger, og scoreene som enkeltpersoner oppnår ved begge anledninger, forblir mer eller mindre like, testen sies å være pålitelig.

Påliteligheten til en test forsøker å svare på følgende spørsmål:

(i) Hvordan ville det være elevernes poeng, hvis de blir gitt samme test ved to forskjellige anledninger?

(ii) Hvordan vil resultatene variere dersom en annen utvalg av tilsvarende elementer velges?

(iii) Hvordan vil resultatene variere hvis testen blir scoret av en annen scorer?

(iv) Hvordan vil scoreene variere hvis testen blir scoret av samme scorer på forskjellige tidspunkter?

Kjennetegn på pålitelighet:

Pålitelighet har følgende egenskaper:

(i) Et estimat på pålitelighet refererer alltid til en bestemt type konsistens.

(ii) Det refererer til nøyaktigheten eller presisjonen til et måleinstrument.

(iii) Pålitelighet refererer til testresultatene, ikke selve testen.

(iv) Det er koeffisienten for intern konsistens.

(v) Pålideligheten av et sett av mål er logisk som andelen av variansen som er ekte varians.

(vi) Det er målet for variabel feil eller tilfeldighetsfeil eller målefeil.

(vii) Pålitelighet er et spørsmål om grad. Det finnes ikke i alle eller ikke-grunnlag.

(viii) Pålitelighet sikrer ikke validitet eller sannferdighet eller hensikt med en test.

(ix) Pålitelighet er en nødvendig, men ikke tilstrekkelig betingelse for gyldighet. Lav pålitelighet kan begrense graden av gyldighet som er oppnådd, men høy pålitelighet gir ingen garanti for en tilfredsstillende grad av gyldighet.

(x) Påliteligheten er først og fremst statistisk karakter i den forstand at resultatene som er oppnådd ved to påfølgende anledninger er korrelert med hverandre. Denne korrelasjonskoeffisienten kalles selvkorrelasjon og verdien kalles "pålitelighetskoeffisienten".

Pålitelighet og feil i måling:

Definisjonene av pålitelighet kan grupperes under tre overskrifter:

(i) Empirisk,

(ii) Logisk, og

(iii) Teoretisk.

(i) Empirisk:

De empiriske definisjonene av pålitelighet refererer til omfanget av korrelasjon mellom to sett med score på samme test administrert på samme person ved forskjellige anledninger.

(ii) Teoretisk:

Den teoretiske betydningen refererer til konsistensen eller presisjonen av testresultater. Det betyr pålitelighet av en testscore.

(iii) Logisk:

Den logiske betydningen av pålitelighet refererer til målefeil.

Følgende illustrasjon kan fortsette med å forstå begrepet pålitelighet og feilmål:

For eksempel sikrer Mr. Rohit 52 i en mental test. Hva betyr 52? Snakker det om sin sanne evne? Er det hans sanne poengsum? Rohit kan ha sikret 52 ved en tilfeldighet. Det kan hende at Rohit ved en tilfeldighet visste 52 artikler av testen og hadde elementene vært litt forskjellige, ville han ikke ha sikret denne poengsummen.

Alle disse spørsmålene er relatert til et faktum at måling innebærer noen slags feil, dvs. personlige, konstante, variable og fortolkningsfeil. Denne feilen kalles som målefeil. Så mens du bestemmer påliteligheten av en test, må vi ta hensyn til mengden feil som er tilstede i måling.

Når pålitelighetsgraden blir perfekt (dvs. 1, 00), blir målingen nøyaktig og den er fri for alle typer feil. Men måling i hvert felt innebærer en slags feil. Derfor er påliteligheten aldri perfekt.

En poengsum på en test kan betraktes som en indeks for ekte score pluss målefeil.

Totalt poeng eller Faktisk oppnådd score = True Score + Error Score

Hvis en poengsum har en stor komponent av "true score" og en liten komponent av feil, er den høy; og omvendt, hvis en testscore har en liten komponent av "true score" og stor "feil" komponent, er dens pålitelighet lav.

Forholdet til faktisk oppnådd score, sann score og feil kan uttrykkes matematisk som følger:

X = X _∞ + e

hvor X = oppnådd poengsum for en person på en test.

X _∞ = ekte score av samme person

e = variabelen (sjanse) feil.

Feil ved måling:

Sann poengsum er gjennomsnittet av de oppnådde poengene på et uendelig antall parallelle former for en test. Hver oppnådd score vil være enten mer eller mindre enn den sanne poengsummen. Avvikene fra oppnådde score fra de sanne resultatene kalles "Feilmålinger".

Noen ganger må målefeilene være mindre og noen ganger mer. Andre ting som er like, mindre målefeilene, jo større målesikkerhet.

Standard feil måling:

Målefeilene (dvs. variasjonen av oppnådde score fra den sanne poengsummen) vil normalt bli distribuert og standardavviket for disse variasjonene (eller målefeil) blir betegnet som "standardmålinger".

Vi kan finne ut Standard Feil av måling (SE av måling) når pålitelighetskoeffisienten og standardavviket for fordelingen er gitt.

Formelen for å beregne standard feil måling er som følger:

hvor σ _sc = SE av en oppnådd score

σ ₁ = standardavviket av testresultater

r ₁₁ = pålitelighetskoeffisienten for den samme testen.

Eksempel 4:

I en gruppe på 300 studenter er pålitelighetskoeffisienten for en Aptitude Test i matematikk 0, 75, testen M er 80 og SD av poengsumfordelingen er 16. John oppnår en poengsum på 86. Hva er SE av denne poengsummen ?

Løsning:

Fra formelen ovenfor finner vi det

og oddsen er omtrent 2: 1 at den oppnådde poengsummen til en person i gruppen på 300 ikke savner sin sanne verdi med mer enn ± 8 poeng (dvs. ± 1 SE _sc ). .95-konfidensintervallet for Johns sanne poengsum er 86 ± 1, 96 x 8 eller 70 til 102.

Generaliserer for hele gruppen på 300 studenter, kan vi forvente at omtrent 1/3 av scoreene skal være feil med 8 eller flere poeng og 2/3 for å være feil med mindre enn dette beløpet.

Kriterium # 2. Gyldighet:

Ordboken som betyr gyldighet er "godt basert", "effektiv", "lyd". Det refererer til "truthfulness". Dermed er alt som er sannferdig, godt basert og som tjener riktig formål gyldig.

Hver test har bestemte mål for seg selv. Den er konstruert for noe bestemt formål, og det er gyldig for det formålet. Hvis en test måler hva den har til hensikt å måle, sies det å være gyldig. Gyldigheten gir en direkte kontroll på hvor godt testen oppfyller sine funksjoner. Gyldighet er den første forutsetningen for at en test blir universell.

Pålitelighet kan være nødvendig, men ikke en tilstrekkelig betingelse for gyldighet. En test kan ikke være gyldig med mindre den er pålitelig. Det kan være pålitelig, men kan ikke bli fortalt gyldig. Relevans av en test er opptatt av testtiltakene og prosessen med tiltakene.

Kort sagt kan vi si at en test er ment å betjene prediksjonsfunksjonen, og dermed er det verdt eller gyldighet avhenger av i hvilken grad det er vellykket å estimere ytelsen i enkelte typer virkelige situasjoner.

Eksempel 5:

Anta at et vitne gir en uttalelse før dommeren i en domstol. Hvis han på etterfølgende tverrundersøkelser eller kryssspørsmål gjentar den samme setningen igjen og igjen, så skal han bli kalt som et pålitelig vitne.

Ingen tvil om at hans uttalelse kan være riktig eller feil. Når hans uttalelse er sant, sies han å være et gyldig vitne. Men hvis hans uttalelse er konsekvent feil, selv om han er pålitelig, men ikke gyldig.

Eksempel 6:

Hvis en klokke forblir 10 minutter fremover enn "standard tid", er det et pålitelig tidsverk. Fordi det gir konsekvent resultat hver dag med 10 minutter fort. Vår hensikt er å kjenne tiden riktig, og vi kunne ikke vite det. Så selve formålet er ikke servert. Dermed vil det ikke være gyldig som dømt av "Standard tid".

Det er således funnet at en test kan være pålitelig, men det kan ikke være gyldig. Imidlertid er gyldige tiltak eller tester alltid pålitelige. En test som er gyldig for et bestemt formål, kan ikke være gyldig for et annet formål.

En prøve som er forberedt på å måle beregningsevnen til studenter i matematikk, kan bare være gyldig for det formålet, men ikke for å måle matematisk resonnement. Så, gyldighet refererer til selve formålet med testen.

definisjoner:

Anne Anastasi:

Skriver "gyldigheten av en test gjelder hva testen måler og hvor godt det gjør det."

Rummel:

"En evalueringsenhets gyldighet er i hvilken grad det måler hva det er ment å måle."

FS Freeman:

"En indeks for gyldighet viser grader som en test måler hva den påstår å måle i forhold til akseptert kriterium."

LJ Cronbach:

"Gyldighet er i hvilken grad en test måler hva den har til hensikt å måle."

EF Lindquist:

Gyldighet er nøyaktigheten som den måler det som er ment å måle eller i hvilken grad det nærmer seg ufeilbarbarhet når det gjelder å måle hva den skal måle.

Fra den foregående diskusjonen danner vi at gyldigheten refererer til "selve formålet med testen", og hvis formålet er oppfylt, bør testen anses å være gyldig. Så en test for å være gyldig må man gjøre jobben den ønsket å gjøre.

Begrepet validitet av en test er derfor hovedsakelig en bekymring for testens "grunnleggende ærlighet". Ærlighet i den forstand at du gjør det du lover å gjøre. For å være presis, refererer gyldighet til hvor godt et verktøy måler hva den har til hensikt å måle.

Gyldighetens art:

1. Gyldighet refererer til sannhet eller hensikt med testresultater, men ikke til selve instrumentet.

2. Gyldighet er et spørsmål om grad. Det finnes ikke på en helt eller delvis basis. Et instrument designet for å måle en bestemt evne kan ikke sies å være cither helt gyldig eller ikke gyldig i det hele tatt. Det er generelt mer eller mindre gyldig.

3. Det er et mål på 'konstant feil' mens påliteligheten er målet for 'variabel feil'.

4. Gyldighet sikrer pålitelighet av en test. Hvis en test er gyldig, må den være pålitelig.

5. Gyldighet er ikke av forskjellige typer. Det er et enhetlig konsept. Den er basert på ulike typer bevis.

6. Det er ikke slikt som generell gyldighet. En test er gyldig for noe formål eller situasjon, men det er ikke gyldig for andre formål. Med andre ord er et verktøy gyldig for et bestemt formål eller i en bestemt situasjon; det er ikke generelt gyldig.

For eksempel kan resultatene av en ordforrådstest være svært gyldig for å teste vokabular, men kan ikke være så mye gyldig for å teste komposisjonens evne til studenten.

Kriterium # 3. Objektivitet:

Objektivitet er den viktigste egenskapen til en god test. Det er en forutsetning for både gyldighet og pålitelighet. Objektivitet av en test betyr graden som forskjellige personer scorer gir, samme resultat.

CV god (1973):

CV Good (1973) definerer objektivitet i testing er "i hvilken grad instrumentet er fri for personlig feil (personlig forspenning) som er subjektivitet fra scorerens side."

Gronlund og Linn (1995):

"Testets objektivitet refererer til graden som like kompetente scorere får de samme resultatene."

Det kan således sies at en test anses å være objektiv når den gjør det mulig å eliminere scorerens personlige oppfatning og skjønn.

Objektivitet av en test refererer til to aspekter, nemlig:

(i) Objektivets objektivitet og

(ii) Scoringens objektivitet.

(i) Objektivets objektivitet:

Objektivets objektivitet betyr at elementet må kreve et bestemt enkelt svar. Objektelementer kan ikke ha to eller flere svar. Når spørsmålet er oppgitt annerledes, vil forskjellen i scoring oppstå.

For eksempel:

"Forklar begrepet personlighet."

Her vil poengsumene gitt av scorerne variere i stor grad fordi spørsmålet ikke tydelig viser typen av det riktige svaret som forventes.

Her kan barnet skrive noe som gjelder spørsmålet. Hvis svaret blir scoret av ulike eksaminatorer, vil merkene definitivt variere.

Tvetydige spørsmål, mangel på riktig retning, dobbelttunnel spørsmål, spørsmål med doble negativer, brede essay type spørsmål etc. har ikke objektivitet. Så det skal utvises mye forsiktighet når du stiller inn spørsmålene.

(ii) Scoringens objektivitet:

Et verktøy er objektivt hvis det gir samme poengsum selv når forskjellige scorere scorer elementet. Objektivitet i scoring kan derfor betraktes som konsistens i scoring av forskjellige scorers.

Ofte, i faktiske situasjoner, finner vi at scorerens innfall eller fordommer påvirker markeringen. Spørsmålene, spurte om bestemte emner som scorer har en tilbøyelighet til, kan hente flere karakterer enn de andre spørsmålene.

Denne typen irrasjonell temperament mot scoring system er en slags sin subjektive behandling av pensum som i sin tur påvirker evalueringsprosessen. Derfor skal objektivitet i evaluering sikres for nøyaktig evaluering.

Samtidig trenger subjektivitet ikke å bli fordømt og helt utelukket, da det er hvordan de fleste evalueringer i realiteten gjøres. Subjektiv vurdering basert på nøye observasjon, ubegrunnet og objektiv tenkning og logisk analyse av situasjoner og fenomener kan også gi en nøyaktig vurdering. Denne typen disiplinert subjektivitet kan spille en viktig rolle, selv i en skolesituasjon.

Kriterium # 4. Brukervennlighet:

Brukervennlighet-grad som evalueringsverktøyet kan brukes av testbrukerne med hell.

Vi har nå lest de tre hovedkriteriene for en god test: Gyldighet, pålitelighet og objektivitet. En annen viktig egenskap ved et verktøy er brukbarheten eller gjennomførbarheten. Mens du velger evalueringsverktøy, må man se etter bestemte praktiske hensyn som helhet, enkel administrasjon og scoring, enkel tolkning, tilgjengeligheten av sammenlignbare skjemaer og testkostnader.

Alle disse overvektene induserer en lærer til å bruke evalueringsverktøy, og slike praktiske hensyn blir referert til som "brukbarhet" av et evalueringsverktøy. Brukbarhet betyr med andre ord hvorvidt evalueringsverktøyet kan brukes av læreren og skolelederne.

(i) Forståelighet:

Testelementene må være fri for tvetydighet. Retningen for å teste elementer og andre retninger til testen må være klar og forståelig. Retningslinjer for administrasjon og veiledningsveiledning må klart angis slik at man lett kan forstå og følge dem. Videre må prosedyren for testadministrasjon, scoring og score tolkning være innenfor forståelsen av testbrukeren.

(ii) Enkel administrasjon:

Det refererer til det enkle som en test kan administreres. Hver test har egne forhold for administrasjon. Mens du velger en test, bør du velge en, fra en samling av tester, som kan administreres uten mye forberedelse og vanskeligheter.

en. Enkel administrasjon inkluderer klare og konsise instrukser for administrasjon. Så, for at en test blir enkelt administrert, må instruksjonene til administratoren og retningen til smaken være enkle, klare og fullstendige.

b. Tiden er også en svært viktig faktor. For maksimal administrasjon på skolen er det vanlig at en test må tas i løpet av en normal romrom.

(iii) Enkel scoring:

En test for å kunne brukes bedre skal ha enkel scoring. Dens scoring nøkkel bør være ferdig og lett kan vurderes. Noen ganger er stedene øremerket på høyre side av spørsmålene for å gi svar.

I noen tilfeller er det gitt svar på separate ark. En ideell test kan bli scoret av noen eller til og med av en maskin, som er utstyrt med en scoringsnøkkel. Lige karakterer skal tildeles hvert element i testen for å gjøre scoring lettere.

I henhold til muliggjennomhet, kan cither hånd-scoring enheter eller maskin-scoring enheter bli gitt.

(iv) Enkel tolkning:

Hvis testresultatene oppnådd kan lett forstås og tolkes, sies en test å være god. For dette formål skal testhåndboken gi fullstendige normer for tolkning av score, som aldersnormer, karakternormer, percentile normer og standard score normer. Normerne letter tolkning av testresultater.

(v) Opptak av testen:

Testen skal ha en fin oppgave. Dette må være godt og attraktivt utseende. Bokstavene skal ikke være unødvendig for lite eller for stort. Kvaliteten på papir som brukes, typografi og utskrift, bokstavstørrelse, avstand, bilder og diagrammer, bindende, plass til elevens svar mv skal undersøkes.

(vi) Kostnad for testen:

Testen bør ikke være for kostbar. Kostnaden bør reduseres i mulig grad, slik at den kan brukes mye.