Test score - Test score

En testscore er et stykke information, normalt et tal, der formidler en eksaminandes præstation på en test . En formel definition er, at det er "et resumé af beviserne i en eksaminanders svar på emnerne i en test, der er relateret til konstruktionen eller konstruktionerne, der måles."

Testresultater tolkes med en normrefereret eller kriteriehenvist fortolkning, eller lejlighedsvis begge dele. En normrefereret fortolkning betyder, at scoren formidler mening om eksaminanden med hensyn til deres stilling blandt andre eksaminander. En fortolkning, der refereres til kriterier, betyder, at scoren formidler information om eksaminanden med hensyn til et specifikt emne, uanset andre eksaminanders score.

Typer

Der er to typer testresultater: rå score og skaleret score . En rå score er en score uden nogen form for justering eller transformation, f.eks. Det simple antal spørgsmål besvaret korrekt. En skaleret score er resultatet af nogle transformationer, der er anvendt på den rå score, f.eks. I relativ karakter .

Formålet med skalerede scoringer er at rapportere score for alle eksaminander i en konsekvent skala. Antag, at en test har to former, og den ene er vanskeligere end den anden. Det er blevet bestemt ved at ligestille, at en score på 65% på formular 1 svarer til en score på 68% på formular 2. Scores på begge formularer kan konverteres til en skala, så disse to ækvivalente scores har de samme rapporterede scoringer. For eksempel kan de begge være en score på 350 på en skala fra 100 til 500.

To kendte test i USA, der har skaleret scoringer, er ACT og SAT. ACT's skala varierer fra 0 til 36 og SAT'erne fra 200 til 800 (pr. Sektion). Tilsyneladende blev disse to skalaer valgt til at repræsentere et middel og standardafvigelse på 18 og 6 (ACT) og 500 og 100. De øvre og nedre grænser blev valgt, fordi et interval på plus eller minus tre standardafvigelser indeholder mere end 99% af en befolkning. Resultater uden for dette område er svære at måle og giver lidt praktisk værdi.

Bemærk, at skalering ikke påvirker de psykometriske egenskaber ved en test; det er noget, der opstår, efter at vurderingsprocessen (og ligestilling, hvis den findes) er afsluttet. Derfor er det ikke et spørgsmål om psykometrik i sig selv, men et spørgsmål om fortolkelighed.

Tab af information

Et testspørgsmål kan kræve, at en elev beregner arealet af en trekant . Sammenlign oplysningerne i disse to svar.
En enkel trekant med højde markeret
Areal = 7,5 cm 2
En identisk enkel trekant med højde markeret
Bund = 5 cm; Højde = 3 cm
Area = 1 / 2 (Base × højde)
= 1 / 2 (5 cm x 3 cm)
= 7,5 cm 2
Den første viser tab af information. Læreren ved, om eleven fik det rigtige svar, men ved ikke, hvordan eleven nåede frem til svaret. Hvis svaret er forkert, ved læreren ikke, om eleven gættede, lavede en simpel fejl eller misforstod grundlæggende emnet.

Når tests er scoret rigtigt-forkert , er der blevet taget en vigtig antagelse om læring. Antallet af rigtige svar eller summen af ​​varescore (hvor der gives delvis kredit) antages at være det passende og tilstrækkelige mål for den aktuelle præstationsstatus. Derudover laves en sekundær antagelse om, at der ikke er nogen meningsfuld information i de forkerte svar.

For det første kan et korrekt svar opnås ved at huske uden nogen dybdegående forståelse af det underliggende indhold eller den konceptuelle struktur af problemet. For det andet, når der kræves mere end et trin til løsning, er der ofte forskellige måder at besvare, hvilket vil føre til et korrekt resultat. Det faktum, at svaret er korrekt, angiver ikke, hvilken af ​​de flere mulige procedurer der blev brugt. Når eleven leverer svaret (eller viser værket) er disse oplysninger let tilgængelige fra de originale dokumenter.

For det andet, hvis de forkerte svar var blinde gæt, ville der ikke være nogen oplysninger at finde blandt disse svar. På den anden side, hvis forkerte svar afspejler fortolkning afviger fra det forventede, bør disse svar vise et ordnet forhold til, hvad den samlede test måler. Denne afgang bør være afhængig af niveauet af psykolingvistisk modenhed for den studerende, der vælger eller giver svaret på det sprog, hvor testen er skrevet.

I dette andet tilfælde bør det være muligt at udtrække denne ordre fra svarene på testemnerne. Sådanne ekstraktionsprocesser, f.eks. Rasch -modellen , er standardpraksis for produktudvikling blandt fagfolk. Men fordi de forkerte svar kasseres under scoringsprocessen, foretages der sjældent analyse af disse svar for de oplysninger, de kan indeholde.

For det tredje, selvom der undertiden tilbydes emne-baserede deltestscores, er den mere almindelige praksis at rapportere den samlede score eller en ændret version af den. Denne skalering er beregnet til at sammenligne disse score med en standard af en eller anden art. Dette yderligere sammenbrud af testresultaterne fjerner systematisk alle oplysninger om, hvilke bestemte emner der blev savnet.

Således mister det at score en test rigtigt – forkert 1) hvordan eleverne opnåede deres korrekte svar, 2) hvad der førte dem på afveje mod uacceptable svar og 3) hvor denne afvigelse fra forventningen fandt sted inden for testen.

Denne kommentar tyder på, at den nuværende scoringsprocedure skjuler dynamikken i testprocessen og tilslører mulighederne for de studerende, der vurderes. Nuværende scoringspraksis forenkler disse data i det indledende scoringstrin. Resultatet af denne procedurefejl er at skjule diagnostiske oplysninger, der kan hjælpe lærere med at betjene deres elever bedre. Det forhindrer yderligere dem, der flittigt forbereder disse tests, i at kunne observere de oplysninger, der ellers ville have advaret dem om tilstedeværelsen af ​​denne fejl.

En løsning på dette problem, kendt som Response Spectrum Evaluation (RSE), udvikles i øjeblikket, der ser ud til at være i stand til at gendanne alle disse tre former for tab af information, mens det stadig giver en numerisk skala til at fastslå den aktuelle præstationsstatus og spore ydeevnen lave om.

Denne RSE -tilgang giver en fortolkning af ethvert svar, uanset om det er rigtigt eller forkert, der angiver de sandsynlige tankeprocesser, der bruges af testpersonen. Blandt andre fund rapporterer dette kapitel om, at de oplysninger, der kan genvindes, forklarer mellem to og tre gange mere af testvariabiliteten end kun at overveje de rigtige svar. Dette massive tab af information kan forklares ved, at de "forkerte" svar fjernes fra de oplysninger, der indsamles under scoringsprocessen og ikke længere er tilgængelige for at afsløre den procedurefejl, der er forbundet med rigtigt-forkert scoring. Proceduren omgår de begrænsninger, der produceres af de lineære afhængigheder, der er forbundet med testdata.

Se også

Referencer