Konstruksjon av en standardisert test: 4 trinn

Denne artikkelen kaster lys over de fire hovedtrinnene som er involvert i konstruksjonen av en standardisert test. Trinnene er: 1. Planlegging 2. Forbereder testen 3. Prøver ut av testen 4. Evaluering av testen.

Trinn # 1. Planlegging:

"Testplanlegging omfatter alle de varierte operasjonene som går i å produsere testene. Ikke bare involverer det drift av en oversikt eller tabell som spesifiserer innholdet eller alternativene som skal dekkes av testen, men det må også være med omhyggelig oppmerksomhet på elementarvansker, typer av gjenstander, retning til eksaminator etc. " (Lindquist )

For standardisert test er en systematisk og tilfredsstillende planlegging nødvendig. Etter Rosss oppfatning "går det ikke bra med gode tester, heller ikke de er resultatet av noen få øyeblikk av høy inspirasjon og opphøyelse."

Det er testkonsulenten som på alle måter er ansvarlig for å gi en riktig form til sine testartikler, og hvem konstruerer testen med all omsorg og oppriktighet.

Den omfatter følgende aktiviteter:

1. Fastsetting av mål / formål.

2. Bestemme vekten til forskjellige instruksjonsmål.

3. Bestemme vekten til forskjellige innholdsområder.

4. Bestemme varetyper som skal inkluderes.

5. Klargjøring av tabell med spesifikasjon-Blåtrykk.

6. Vedtak om mekaniske aspekter som tidsvarighet, teststørrelse, totalkarakter, utskrift, bokstavstørrelse etc.

7. Gi instruksjoner for scoring av testen og administrasjonsprosedyren.

8. Vekt til ulike vanskelighetsgrader Nivået på spørsmålene skal løses.

(Aktiviteten spesifisert i punkt 1 til 5 trenger ytterligere avklaring)

1. Fastsetting av mål / formål:

Før konstruksjonen av testen er det nødvendig at dens gjenstander er formulert. Oppmerksomhet bør rettes mot testerens evne til effektivt å måle i hvilken utstrekning målene for utdanning er oppnådd. Målene for utdanning kan klassifiseres på mange måter. Men hva som helst som er klassifiseringen, skal læreplanen føre til de endringene i barnet som er ment som mål.

Testen bør utformes på en slik måte at den kan påpeke i hvilken grad målene, for å bringe endringer i barnets oppførsel, oppnås gjennom læreplanen som er undervist av dem.

Oppmerksomheten bør også rettes mot det formålet som testen er nødvendig for å tjene. Hvis testen er konstruert for å klassifisere elevene, så i sin konstruksjonsoppgave å bli betalt mot sin evne til klassifisering. Men hvis hensikten er diagnostisk, bør den være så konstruert at den kan diagnostisere studentens individuelle vanskeligheter.

2. Bestemme vekten av forskjellige opplæringsmål:

Det viktigste trinnet i å planlegge en test er å identifisere opplæringsmålene. Hvert fag har et annet sett med instruksjonsmål. I fagene for naturvitenskap, samfunnsfag og matematikk er de viktigste målene kategorisert som kunnskap, forståelse, bruk og ferdigheter, mens de viktigste målene i kategoriene er kategorisert som kunnskap, forståelse og uttrykk.

Kunnskapsmål anses å være det laveste læringsnivået mens forståelse, bruk av kunnskap i vitenskap eller atferdsvitenskap anses som høyere læringsnivå.

3. Bestemme vekten til forskjellige innholdsområder:

Den viktigste aktiviteten i oppførelsen av en prestasjonstest er å spesifisere en oversikt over innholdsområdet. Det angir området der studentene forventes å vise sin ytelse. Det bidrar til å få et representativt utvalg av hele innholdsområdet.

Det forhindrer også gjentakelse eller utelatelse av en enhet. Nå spørsmålet oppstår hvor mye vekt skal gis til hvilken enhet. Noen eksperter sier det, det bør avgjøres av den berørte læreren og holder viktigheten av kapittelet i tankene.

Andre sier at det bør avgjøres i henhold til området dekket av emnet i tekstboken. Generelt er det bestemt på grunnlag av emnets sider, totale sider i boken og antall elementer som skal utarbeides.

4. Bestemme varetyper:

Elementer som brukes i testkonstruksjonen, kan i stor grad deles inn i to typer som objektiv type elementer og essay type elementer. For noen instruksjonsformål er objektene objektiv mest effektive, mens for andre er essayspørsmålene tilfredsstillende.

Passende varetyper skal velges i henhold til læringsutfallene som måles. For eksempel, når utfallet skriver, er tilbudstypeelementer nyttige.

Hvis utfallet er å identifisere et korrekt svar seleksjonstyper eller gjenstand type gjenstander er nyttige. Så det skal avgjøres og planlegges på dette stadiet.

LA = Langsvar

SA = kort svar

VSA = Veldig kort svar

5. Forberedelse av "BLUEPRINT" eller tredimensjonalt diagram:

Forbereder blåtrykk eller spesifikasjonstabell i tredimensjonalt kartinnhold, objektiv og type elementer, som angir antall elementer i hver celle eller et rom. Det er bare et rammeverk som gir et klart bilde av testens utforming og fungerer som en veiledning.

De tre dimensjonene til tegningen består av innholdsområder i horisontale rader og mål og former for spørsmål i vertikale kolonner. Når utkastet er utarbeidet, kan papiret sette skriver / velg elementene og utarbeide spørreskjemaet.

Et eksemplar av blåkopi er gitt nedenfor:

Merk:

Vennligst sett inn antall spørsmål innen parentes og merkene utenfor parentesene.

E = Essay type spørsmål, SA = Kort svar type, VS A = Veldig kort svar.

Trinn # 2. Klargjøre testen:

Det neste trinnet etter ferdigstillelsen av planen er å skrive passende spørsmål i henhold til de brede parametrene som er angitt i tegningen. Man bør ta en liten blokk av tegningen av gangen og skrive ut de nødvendige spørsmålene.

For hver blokk med blåkopi som er fylt inn, må spørsmålene skrives en etter en. Når det er gjort, har vi alle spørsmålene som oppfyller de nødvendige kravene som er fastsatt i tegningen.

Standardisert testskriving trenger all slags bekymringer og overveielser. Nok tid må være viet til å gi tanker om vektinnhold til innholdet og områdene som skal dekkes.

I dette trinnet skal vi diskutere de spesifikke regler for konstruksjon av ulike typer testelementer.

På dette stadiet må vi forberede:

(i) Testelementene.

(ii) Veiledning for å teste gjenstander.

(iii) Veiledningene for administrasjon.

(iv) Veiledningen for scoring.

(v) Et spørsmålssikkert analysediagram.

(i) Forberedelse av testelementer:

Utarbeidelse av testartikler er den viktigste oppgaven i forberedelsestrinnet. Derfor må det tas hensyn til å utarbeide et testelement. Byggingen av testelementer er ikke så lett. Det er oppgaven med test-spesialister og eksperter. En erfaren lærer som er tilstrekkelig opplært i testkonstruksjon, kan utarbeide hensiktsmessige testelementer.

Det er visse regler og retningslinjer for bygging av testartikler. For dette må man ha tilgang til alle disse retningslinjene og også tilgang til målets taksonomi. Generelt må testelementene være klare, omfattende og fri for tvetydighet.

Språket til elementene skal være så valgt at innholdet og ikke skjemaet til elementene bestemmer svaret. Elementene som har skjulte betydninger, bør ikke inkluderes. Oppgaven av elementene skal ikke tilfeldig gis fra bøkene. Alle elementene av en bestemt type skal plasseres sammen.

Ordforrådet som brukes i elementene skal være enkelt nok til å bli forstått av alle. En vanlig sekvens i mønsteret av korrekte svar bør unngås. Det kan være mer enn én type testelementer i testen.

Testen må underkastes kritisk revisjon med tidsintervaller. Ofte vil det være ønskelig at i testen er flere elementer inkludert enn nummeret som faktisk trengs. I det foreløpige utkastet er det bedre om det dobbelte antall elementer som trengs er inkludert.

Ved konstruksjonen av testelementene, bør bare disse elementene ikke inkluderes som understreker minnet eller anerkjennelsen. Varene skal være så utvalgt at elevene lærer vane å korrelere sin kunnskap med sitt virkelige liv.

Etter at testelementene er innrammet, må de ordnes ordentlig og monteres i en test. Hvis ulike former for testelementer blir brukt, bør de helst grupperes form-vis. Dessuten skal enkle gjenstander bli gitt et sted i begynnelsen, elementene i gjennomsnittlig vanskeligheter i midten og vanskelige ting på slutten.

Testelementene kan ordnes i rekkefølge av forventet vanskelighet. Selvfølgelig er det ulike måter å samle spørsmålene på, og vi kan sammenstille spørsmålene som passer til vår hensikt og bekvemmelighet ved tolkning.

(ii) Forberedelse av retning til testelementer:

Dette er det mest forsømte aspektet av testkonstruksjonen. Generelt gir alle oppmerksomhet til bygging av testartikler. Så testerne ikke legger veibeskrivelse med testelementene. Men testenes gyldighet og pålitelighet er i stor grad avhengig av instruksjonene for testen.

NE Gronlund har foreslått at testprodusenten skal gi klar retning om:

1. Formålet med testingen.

2. Tidsrammen for å svare.

3. Grunnlaget for å svare.

4. Prosedyren for registrering av svar.

5. Metodene for å håndtere gjetting.

Noen ganger er retningene for å teste gjenstander så tvetydige at barnet ikke kan følge dem, og som sådan reagerer han på elementene på en måte som han mener passer på det tidspunktet eller bare går videre til neste sak, og etterlater det ubesvarte.

På grunn av manglende klarhet i retninger, vil barnet reagere annerledes på forskjellige tidspunkter, noe som vil redusere testets pålitelighet.

(iii) Utarbeidelse av retningslinjer for administrasjon:

En klar og detaljert retning om hvordan testen skal administreres skal gis. Forholdene under hvilke testen skal administreres, når testen skal administreres (enten i midten av sesjonen eller ved slutten av økten, etc.), innenfor hvilken tidsgrense det skal administreres etc. er å bli oppgitt tydelig.

Hvis testen har separate seksjoner, blir det angitt tidsgrenser for å dekke hver seksjon. Materialene som kreves (hvis noen) for testen, som grafpapir, Logaritmebord etc. må nevnes.

Veibeskrivelsen må klart angi hvilke forholdsregler administratoren skal ta på tidspunktet for administrasjonen. Så, riktig og klar retning for testadministrasjon må utarbeides.

(iv) Forberedelse av retning for scoring:

For å lette objektiviteten i scoring skal "scoring keys" gis. Scoringsnøkkel er en forberedt liste over svar på et gitt sett med objektive spørsmål. En scoring nøkkel er utarbeidet ved å oppgi nøkkelen (eller riktig svar) på hvert spørsmål mot hvert element.

For korte svarstypespørsmål og essay type spørsmål skal merkingsordninger utarbeides. Slike scoring nøkler og merking ordninger må være nøye utarbeidet. De hjelper som guider på tidspunktet for scoring testen og de sikrer objektivitet i scoring.

(v) Forberedelse av et spørsmåls-analyse-diagram:

Et spørsmålssikkert analysediagram kan utarbeides der hvert spørsmål analyseres. Dette diagrammet viser innholdsområdet som spørsmålet dekker, målet (med spesifikasjon) som den har til hensikt å måle, dens type, karakterer tildelt det, forventet vanskelighetsnivå og tid som er tatt for å svare på det.

Dette diagrammet analyserer ikke bare elementene, men gir oss også et bilde av innholdsdekning, mål, type spørsmål og en dekning av ulike vanskelighetsgrader etc. Dessuten gir dette oss en ide om den totale tiden som skal tas for å ta test. Dette diagrammet hjelper oss å sjekke om testen er utarbeidet i henhold til planen eller ikke.

Trinn # 3. Prøver ut av testen:

Siden testen utarbeides av en gruppe personer og eksperter, kan det ikke være helt feilfritt. Derfor krever all standardisering utarbeidelse av en utprøvningsform av testen og dens test over en prøvepopulasjon.

Formålet med utprøvingen er som følger:

1. Å identifisere de defekte eller tvetydige elementene.

2. Å oppdage svakheten i testadministrasjonsmekanismen.

3. Å identifisere de ikke-fungerende eller utrolige distrahererne i tilfelle flere valg tester.

4. Å gi data for å bestemme vanskelighetsgraden av elementer.

5. Å gi data for å bestemme den diskriminerende verdien av elementene.

6. For å bestemme antall elementer som skal inkluderes i den endelige testformen.

7. For å fastsette tidsgrensen for det endelige skjemaet.

Hovedformålet med å prøve ut er å velge de gode elementene og avvise de fattige elementene.

Try-out er gjort i tre faser:

1. Preliminær tryout.

2. Riktig utskrift.

3. Endelig utskrift.

1. Foreløpig Tryout:

Preliminær utprøving skjer individuelt for å forbedre og modifisere språksvanskelighetene og tvetydigheten til elementene. Denne utprøven er utført på 10 eller 15 personer. Arbeidbarheten av elementene blir observert. På grunnlag av observasjon og enkeltpersoners reaksjoner kan elementene forbedres og modifiseres samtidig. Dermed blir det første utkastet utarbeidet og trykt eller syklostylert for riktig utprøving eller gruppeutprøving.

2. Riktig Tryout:

Den riktige utprøven skjer på en gruppe på minst 40 studenter / enkeltpersoner. Hensikten er å velge gode elementer til testen og å avvise dårlige gjenstander.

Dette trinnet inkluderer følgende aktiviteter:

(A) Vareanalyse.

(B) Klargjøre endelig utkast av testen.

(A) Vareanalyse:

En test skal ikke være for lett eller for vanskelig; og hvert element skal diskriminere gyldigheten blant de høye og lavt oppnådde elevene. Prosedyren som brukes til å bedømme kvaliteten på en vare, kalles vareanalyse.

Prosjektanalyseprosedyren følger følgende trinn:

1. Prøvepapirene skal ordnes fra høyeste til laveste score.

2. Velg 27% testpapirer fra høyeste og 27% fra laveste ende. For eksempel hvis testen administreres på 120 studenter, velger du 32 testdokumenter fra høyeste enden og 32 testdokumenter fra den nederste enden.

3. Behold de andre testpapirene som de ikke er påkrevet i vareanalysen.

4. Tabuler antall elever i den øvre og nedre gruppen som valgte hvert alternativ for hvert testelement. Dette kan gjøres på baksiden av testpapiret, eller et separat testelementkort kan brukes som vist i tabell (14.1).

Som vi vet, er kvaliteten eller fortjenesten av en test avhengig av individets elementer som utgjør det. Så, bare de elementene som passer til vårt formål, skal beholdes. Vareanalyse er en integrert del av pålitelighet og gyldighet av en test.

Verdien av en vare er dømt fra tre hovedvinkler, nemlig:

(i) Vanskelighetsindeks for varen,

(ii) Diskriminerende kraft av varen,

(iii) Effektivitet av distraktorer.

En hypotetisk illustrasjon:

Hvis en test er administrert på 120 studenter, er 27% testpapir fra høyeste ende 32 og 27% testpapir fra laveste ende er 32.

(i) Vanskelighetsindeks for varen / Vareproblemer:

Vanskelighetsindeks for varen er en viktig del av testkonstruksjonen. Hvis en bestemt gjenstand er for lett, svarer alle studentene på det. Hvis alle elevene får likeverdige poeng, er selve formålet med testen beseiret. Hvis et element ikke kan besvares av noen test, er elementet enten for vanskelig eller feilkonstruert. Hva er bruken av å ha slike ting i en test? Så det er tydelig at for enkelt og for vanskelige ting skal bli helt kassert.

Det er ønskelig at elementer av mellomromsvanskelighetsnivå må inngå i en test. Ved analysen som ble utført på utprøvningsfasen, holder testerne generelt gjenstander i området 16% til 84% vanskelighetsnivå.

Vareproblemer (ID) beregnes ved å bruke formelen.

ID = R / NX 100

hvor R = Antall testene svarer riktig.

N = Totalt antall tester prøvde varen.

I vårt eksempel ut av 64 studenter fra både øvre og nedre grupper har 40 studenter besvart varen riktig og 60 studenter har prøvd varen. Deretter er vanskelighetsgraden beregnet som

Vareproblemer = 40/60 x 100 = 66, 67

Som det er vanlig å følge 16% til 84% regel for å vurdere elementet problemer, vår beregnede ID faller innenfor dette området. Derfor har varen riktig vannstand. Det betyr at hvis en vare har ID mer enn 84%, så er det for enkelt, hvis det er mindre enn 16%, er elementet for vanskelig.

(ii) Diskriminerende kraft for varen:

Den diskriminerende kraften (dvs. gyldighetsindeksen) for et element refererer til graden som et gitt element diskriminerer blant studenter som er skarpt forskjellig i funksjonen / funksjonene som er målt ved testen som helhet.

Et estimat av et vares diskrimineringsindeks kan oppnås med formelen:

hvor

RU = Antall korrekte svar fra den øvre gruppen.

RL = Antall korrekte svar fra den nedre gruppen.

N = Totalt Antall elever som prøvde dem.

I vårt eksempel besvarte 30 studenter fra øvre gruppe varen riktig og 10 fra lavere gruppe besvarte varen riktig.

Således er R U = 30, R L = 10 og N = 60

Diskriminerende indeks = (30-10) / (60/2) = 20 / 30, 67

En diskrimineringsindeks uttrykkes vanligvis som en desimal. Hvis det har en positiv verdi, har varen positiv diskriminering. Dette betyr at en større andel av de mer kunnskapsrike elevene enn fattige studenter har fått varen riktig. Hvis verdien er null, har objektet null diskriminering.

Dette kan oppstå:

Jeg. Fordi elementet er for lett eller for hardt; eller

ii. Fordi det er tvetydig.

Hvis flere dårlige studenter enn gode studenter får varen riktig, vil man få en negativ diskriminering. Med et lite antall studenter kan dette være et mulig resultat; men det kan tyde på at varen er tvetydig eller miskyet.

Objektet som har null eller negativ diskrimineringsindeks, må kasseres eller revideres. Generelt, jo høyere diskrimineringsindeksen, desto bedre er elementet.

(iii) Effektivitet av distraktorer:

En distraherer regnes som en god distraherer når det tiltrekker flere elever fra den nedre gruppen enn den øvre gruppen.

Eksempel:

Anta totalt 40 svarbøker (både i øvre og nedre gruppe, 20 i hver).

Nedenfor er gitt en hypotetisk illustrasjon, der stjerne viser riktig svar:

I illustrasjonen er alternativer A og C effektive i den forstand at de tiltrekker flere studenter fra den nedre gruppen enn fra den øvre gruppen. Men alternativ D er en dårlig distraherer fordi den ikke tiltrekker seg noen og derfor er ubrukelig. Varen har kun for alternativer, og sjansene for suksess ved bare gjetting er forbedret. Alternativ E er også dårlig fordi den tiltrekker seg en høyere andel av de gode enn de dårlige elevene.

Elementskriveren må spørre seg selv:

"Hvorfor ble de lysere elevene tiltrukket av E? Var det på grunn av tvetydighet? Var det fordi det var to like rette svar? "Kort sagt, dette elementet bør revideres ved å endre alternativene D og E.

(B) Klargjøre sluttprøve av testen:

Etter gjenstandsanalyse beholdes bare gode gjenstander med passende vanskelighetsnivå og med tilfredsstillende diskriminerende kraft, og disse elementene danner den endelige testen. Derfor blir gode gjenstander valgt ut av det store antall elementer.

Noen av dem kan endres, og det ønskede antallet elementer er valgt for det endelige utkastet i henhold til den blå utskrift. Elementer er ordnet i vanskelighetsgrad i det endelige utkastet. Tiden som kreves for testen er bestemt. Nå blir testen administrert til en stor representativ prøve og testpapirene blir scoret.

3. Endelig utprøving:

Endelig utprøving skjer på en stor prøve på rundt 400 personer for å estimere påliteligheten og gyldigheten av testen. Dens formål er å bestemme testens varighet også. Målet med dette forsøket er å identifisere feilene og manglene i testelementene. Under elementanalysen blir for enkelt og for vanskelige elementer kassert. Bare elementer av gjennomsnittlig vanskelighetsnivå er inkludert eller beholdt.

Nesten alle forholdsregler i try-out lest skal tas under administrasjon av den endelige testen. Fullført responsark skal scoret ved hjelp av scoring-nøkkel og scoreene skal tabelliseres for å gi det til statistisk behandling.

Trinn # 4. Evaluering av testen:

Standardisering og evaluering av testen gjøres på følgende måte:

1. Den endelige testformen skrives ut. Svararket skrives også ut.

2. Tiden som kreves for testen, bestemmes ved å ta gjennomsnitt på tre elever på svaret på prøven. Elevene som er valgt for formålet, representerer tre grupper - lyse, gjennomsnittlige og under gjennomsnitt.

3. Instruksjon til de som skal administrere testen, er utarbeidet og trykt.

4. Poengene er tabulert og ulike målinger av sentrale tendenser betyr, median og modus og målinger av variabilitet-standardavvik, kvartilavvik, etc., er funnet ut.

Resultatene er plottet på et grafark for å sammenligne normaliteten av fordelingen og tegne og gi for å få ulike prosentilitetspoeng. Avledede score som T-score og Z-score etc. er estimert.

Normer som aldersnormer, klassenormer, kjønnsnormer, landlige-urbane normer, etc., beregnes i henhold til kravet.

5. Gyldigheten av testresultatene estimeres ved å korrelere testresultatene med et annet kriterium. Konstruksvaliditeten kan bli funnet ut av faktoranalyse. Ulike metoder for å bestemme gyldigheten er blitt diskutert i separat enhet.

6. Ved evaluering av nyoppbygget test er også påliteligheten estimert. Ved to parallelle skjemaer kan vi beregne pålitelighet ved å korrelere resultatene på disse to parallelle skjemaene.

Hvis parallelle skjemaer ikke er utarbeidet, kan påliteligheten bestemmes ved delt halv metode eller ved rationell ekvivalens. Testen kan leses, og påliteligheten kan estimeres ved test-retest-metode.

7. Til slutt må vi vurdere hvor langt en test kan brukes fra administrasjon, scoring, tid og økonomi synspunkt. Testen må gi percentile normer, standard score normer, aldersnormer og klasse normer som vil lette tolkning av score.