Varesvarsteori - Item response theory

I psykometrik er item response theory ( IRT ) (også kendt som latent trækteori , stærk sand score -teori eller moderne mental testteori ) et paradigme for design, analyse og scoring af test , spørgeskemaer og lignende instrumenter, der måler evner, holdninger eller andre variabler. Det er en teori om test baseret på forholdet mellem individers præstationer på et testemne og testtagernes præstationsniveauer på et overordnet mål for den evne, elementet var designet til at måle. Flere forskellige statistiske modeller bruges til at repræsentere både vare- og testtageregenskaber. I modsætning til enklere alternativer til oprettelse af skalaer og evaluering af spørgeskemabesvar antager det ikke, at hvert element er lige så svært. Dette adskiller IRT fra f.eks. Likert -skalering , hvor " Alle elementer antages at være replikationer af hinanden eller med andre ord elementer betragtes som parallelle instrumenter" (s. 197). Derimod behandler elementresponssteorien vanskeligheden ved hvert element ( elementkarakteristikkurverne eller ICC'erne ) som information, der skal inkorporeres i skaleringselementer.

Det er baseret på anvendelsen af ​​relaterede matematiske modeller til test af data . Fordi det ofte betragtes som overlegen i forhold til klassisk testteori , er det den foretrukne metode til at udvikle skalaer i USA, især når der kræves optimale beslutninger, som i såkaldte high-stakes-tests , f.eks. Graduate Record Examination (GRE ) og Graduate Management Admission Test (GMAT).

Navnet element respons teori skyldes fokus for teorien om det element, i modsætning til test-niveau fokus for klassisk test teori. Således modellerer IRT svaret fra hver eksaminand af en given evne til hvert element i testen. Udtrykket element er generisk og dækker alle former for informative emner. Det kan være multiple choice -spørgsmål, der har forkerte og korrekte svar, men er også almindeligvis udsagn om spørgeskemaer, der giver respondenterne mulighed for at angive niveau af enighed (en vurdering eller Likert -skala ) eller patientsymptomer scoret som til stede/fraværende eller diagnostiske oplysninger i komplekse systemer.

IRT er baseret på den idé, at sandsynligheden for et korrekt / indtastet reaktion på en vare er en matematisk funktion af personens og post -parametre . (Udtrykket "en matematisk funktion af person og elementparametre" er analog med Kurt Lewins ligning B = f (P, E) , der hævder, at adfærd er en funktion af personen i deres miljø.) Personparameteren opfattes som ( normalt) en enkelt latent egenskab eller dimension. Eksempler omfatter generel intelligens eller styrken i en holdning. Parametre, på hvilke elementer er karakteriseret, omfatter deres vanskeligheder (kendt som "placering" for deres placering i sværhedsgraden); diskrimination (hældning eller korrelation), der repræsenterer, hvor voldsomt individers succesrate varierer med deres evne; og en pseudoguessing -parameter, der kendetegner det (lavere) asymptote, hvor selv de mindst dygtige personer vil score på grund af gæt (f.eks. 25% for ren chance for et multiple choice -element med fire mulige svar).

På samme måde kan IRT bruges til at måle menneskelig adfærd i sociale netværk online. Synspunkter udtrykt af forskellige mennesker kan aggregeres for at blive undersøgt ved hjælp af IRT. Dets anvendelse til at klassificere oplysninger som misinformation eller sand information er også blevet evalueret.

Oversigt

Konceptet med varesvarfunktionen var omkring før 1950. IRT's banebrydende arbejde som en teori opstod i løbet af 1950'erne og 1960'erne. Tre af pionererne var psykometrikeren Educic Testing Service Frederic M. Lord , den danske matematiker Georg Rasch og den østrigske sociolog Paul Lazarsfeld , der selvstændigt drev parallel forskning. Nøgletal, der fremmer IRT's fremgang, omfatter Benjamin Drake Wright og David Andrich . IRT blev ikke udbredt før i slutningen af ​​1970'erne og 1980'erne, hvor praktiserende læger fik at vide "nytten" og "fordelene" ved IRT på den ene side, og personlige computere gav mange forskere adgang til den computerkraft, der var nødvendig for IRT på den anden side.

Formålet med IRT er blandt andet at danne rammer for evaluering af, hvor godt vurderinger fungerer, og hvor godt enkelte punkter om vurderinger fungerer. Den mest almindelige anvendelse af IRT er i uddannelse, hvor psykometrikere bruger det til at udvikle og designe eksamener , vedligeholde banker med emner til eksamen og ligestille emnernes vanskeligheder ved successive versioner af eksamener (f.eks. For at tillade sammenligninger mellem resultater over tid) .

IRT -modeller omtales ofte som latente trækmodeller . Begrebet latent bruges til at understrege, at diskrete varesvar betragtes som observerbare manifestationer af hypotetiserede træk, konstruktioner eller attributter, ikke direkte observerede, men som skal udledes af de manifesterede svar. Latente trækmodeller blev udviklet inden for sociologi, men er stort set identiske med IRT -modeller.

IRT hævdes generelt som en forbedring i forhold til klassisk testteori (CTT). For opgaver, der kan udføres ved hjælp af CTT, giver IRT generelt større fleksibilitet og giver mere sofistikeret information. Nogle applikationer, såsom computeriseret adaptiv test , aktiveres af IRT og kan ikke med rimelighed udføres kun ved hjælp af klassisk testteori. En anden fordel ved IRT frem for CTT er, at de mere sofistikerede oplysninger, IRT giver, giver en forsker mulighed for at forbedre pålideligheden af en vurdering.

IRT indebærer tre antagelser:

  1. Et en -dimensionelt træk betegnet med  ;
  2. Lokal uafhængighed af varer;
  3. En persons svar på et element kan modelleres af en matematisk elementresponsfunktion (IRF).

Egenskaben antages endvidere at være målbart på en skala (kun eksistensen af ​​en test forudsætter dette), typisk indstillet til en standardskala med et gennemsnit på 0,0 og en standardafvigelse på 1,0. Unidimensionalitet bør tolkes som homogenitet, en kvalitet, der skal defineres eller empirisk demonstreres i forhold til et givet formål eller brug, men ikke en mængde, der kan måles. '' Lokal uafhængighed '' betyder (a) at chancen for, at et element bruges, ikke er relateret til, at andre genstande bruges, og (b) at svaret på et element er hver enkelt testtagers uafhængige beslutning, dvs. der er ingen snyd eller par eller gruppearbejde. Emnet dimensionalitet undersøges ofte med faktoranalyse , mens IRF er den grundlæggende byggesten i IRT og er centrum for meget af forskningen og litteraturen.

Varesvarfunktionen

IRF giver sandsynligheden for, at en person med et givet evneniveau vil svare korrekt. Personer med lavere evne har mindre chance, mens personer med høj evne meget sandsynligt svarer korrekt; for eksempel er elever med højere matematik -evne mere tilbøjelige til at få en matematikelement korrekt. Den nøjagtige værdi af sandsynligheden afhænger foruden evnen af ​​et sæt elementparametre for IRF.

Tre parameter logistisk model

Figur 1: Eksempel på 3PL IRF, med stiplede linjer overlejret for at demonstrere parametre.

For eksempel i logistikmodellen med tre parametre ( 3PL ) er sandsynligheden for et korrekt svar på et dikotomt element i , normalt et multiple choice-spørgsmål:

hvor angiver, at personens evner er modelleret som en prøve fra en normalfordeling med det formål at estimere elementparametrene. Efter at elementparametrene er blevet estimeret, estimeres individuelle menneskers evner til rapporteringsformål. ,, og er elementparametrene. Vareparametrene bestemmer formen på IRF. Figur 1 viser en ideel 3PL ICC.

Vareparametrene kan tolkes som at ændre formen på standard logistisk funktion :

Kort fortolket fortolkes parametrene som følger (tab af abonnementer for læselighed); b er mest grundlæggende og derfor først opført:

  • b -sværhedsgrad, vareplacering: halvvejs-punktet mellem (min) og 1 (maks.), også hvor hældningen maksimeres.
  • a - diskrimination, skala, hældning: den maksimale hældning
  • c -pseudo-gætte, tilfældighed, asymptotisk minimum

Hvis disse forenkler og betyder, at b er lig med 50% succesniveau (sværhedsgrad), og a (divideret med fire) er den maksimale hældning (diskrimination), der opstår på 50% succesniveau. Ydermere er logit ( logodds ) for et korrekt svar (forudsat ): især hvis evne θ er lig med vanskeligheder b, er der endda odds (1: 1, så logit 0) for et korrekt svar, jo større er evnen over (eller under) vanskeligheden det mere (eller mindre) sandsynligvis et korrekt svar, med diskrimination en bestemmelse af, hvor hurtigt de odds stige eller falde med evne.

Med andre ord, standard logistisk funktion har en asymptotisk minimum på 0 ( ), er centreret omkring 0 ( , ), og har maksimal hældning Den parameter strækker vandrette plan af parameter skift den vandrette skala, og komprimerer den lodrette skala fra til Dette er uddybet nedenfor.

Parameteren repræsenterer elementets placering, som i tilfælde af opnåelsestest omtales som elementets vanskeligheder. Det er det punkt, hvor IRF har sin maksimale hældning, og hvor værdien er halvvejs mellem minimumsværdien på og maksimumværdien på 1. Eksempelelementet er af medium vanskelighed siden = 0,0, som er tæt på midten af fordelingen. Bemærk, at denne model skalerer elementets vanskeligheder og personens træk til det samme kontinuum. Således er det gyldigt at tale om, at et emne er omtrent lige så hårdt som person As's egenskabsniveau eller om en persons egenskabsniveau, der er omtrent det samme som element Y's vanskelighed, i den forstand, at vellykket udførelse af opgaven, der er involveret i et element, afspejler en bestemt niveau af evner.

Vareparameteren repræsenterer varens diskrimination: det vil sige i hvilken grad varen diskriminerer mellem personer i forskellige regioner på det latente kontinuum. Denne parameter kendetegner IRF's hældning, hvor hældningen er maksimalt. Eksempelelementet har = 1.0, hvilket diskriminerer ret godt; personer med lav evne har faktisk en meget mindre chance for at reagere korrekt end personer med højere evne. Denne diskrimineringsparameter svarer til vægtningskoefficienten for den respektive vare eller indikator i en standardvægtet lineær (Ordinary Least Squares, OLS ) regression og kan derfor bruges til at oprette et vægtet indeks for indikatorer til uovervåget måling af et underliggende latent begreb.

For emner som multiple choice -elementer bruges parameteren i et forsøg på at redegøre for gætteffekter på sandsynligheden for et korrekt svar. Det angiver sandsynligheden for, at enkeltpersoner med meget lav evne får dette element korrekt ved en tilfældighed, matematisk repræsenteret som en lavere asymptote . En flervalgspost med fire valgmuligheder kan have en IRF som eksemplaren; der er en 1/4 chance for at en ekstremt lav evne kandidat gætter det korrekte svar, så det ville være cirka 0,25. Denne tilgang antager, at alle muligheder er lige plausible, for hvis en mulighed ikke gav mening, ville selv den laveste evne kunne kassere den, så IRT -parameterestimeringsmetoder tager dette i betragtning og estimerer en baseret på de observerede data.

IRT modeller

I store træk kan IRT -modeller opdeles i to familier: en- og multidimensionel. Unidimensionelle modeller kræver en enkelt egenskab (evne) dimension . Multidimensionale IRT -modeller modellerer responsdata, der antages at stamme fra flere træk. På grund af den stærkt øgede kompleksitet anvender størstedelen af ​​IRT -forskning og applikationer imidlertid en en -dimensionel model.

IRT -modeller kan også kategoriseres baseret på antallet af scorede svar. Den typiske flervalgspost er dikotom ; selvom der kan være fire eller fem muligheder, scorer det stadig kun som korrekt/forkert (rigtigt/forkert). En anden klasse modeller gælder for polytomiske resultater, hvor hvert svar har en anden scoreværdi . Et almindeligt eksempel på dette er varer fra Likert -typen, f.eks. "Bedøm på en skala fra 1 til 5."

Antal IRT -parametre

Dikotome IRT -modeller beskrives ved antallet af parametre, de gør brug af. 3PL hedder det, fordi det anvender tre elementparametre. Modellen med to parametre (2PL) forudsætter, at dataene ikke gætter, men at elementer kan variere med hensyn til placering ( ) og diskrimination ( ). Enparametermodellen (1PL) forudsætter, at gætte er en del af evnen, og at alle elementer, der passer til modellen, har tilsvarende forskelsbehandling, så elementer kun beskrives med en enkelt parameter ( ). Dette resulterer i, at enparametermodeller har egenskaben specifik objektivitet, hvilket betyder, at varens vanskelighedsrang er den samme for alle respondenter uafhængigt af evnen, og at rangen for personens evne er den samme for emner uafhængigt af vanskeligheder. Således er 1 parametermodeller prøveuafhængige, en egenskab, der ikke holder for modeller med to parametre og tre parametre. Derudover er der teoretisk set en fire-parameter model (4PL), med en øvre asymptote , angivet med hvor i 3PL er erstattet af . Dette bruges dog sjældent. Bemærk, at elementparameternes alfabetiske rækkefølge ikke stemmer overens med deres praktiske eller psykometriske betydning; parameteren placering/sværhedsgrad ( ) er klart vigtigst, fordi den er inkluderet i alle tre modeller. 1PL bruger kun , 2PL bruger og , 3PL tilføjer , og 4PL tilføjer .

2PL svarer til 3PL-modellen med , og er velegnet til test af emner, hvor det er meget usandsynligt at gætte det korrekte svar, f.eks. Udfyld de tomme emner ("Hvad er kvadratroden af ​​121?"), Eller hvor begrebet gætte gælder ikke, f.eks. personlighed, holdning eller interessepunkter (f.eks. "Jeg kan godt lide Broadway -musicals. Enig/uenig").

1PL antager ikke kun, at gætte ikke er til stede (eller irrelevant), men at alle elementer er ækvivalente med hensyn til diskrimination, analog med en fælles faktoranalyse med identiske belastninger for alle varer. Individuelle genstande eller individer kan have sekundære faktorer, men disse antages at være gensidigt uafhængige og kollektivt ortogonale .

Logistiske og normale IRT -modeller

En alternativ formulering konstruerer IRF'er baseret på den normale sandsynlighedsfordeling; disse kaldes undertiden normale ogive -modeller . For eksempel er formlen for en to-parameter normal-ogiv IRF:

hvor Φ er den kumulative fordelingsfunktion (CDF) for standard normalfordelingen.

Den normal-ogive model stammer fra antagelsen om normalfordelt målefejl og er teoretisk tiltalende på det grundlag. Her er igen vanskelighedsparameteren. Diskrimineringsparameteren er standardafvigelsen for målefejlen for punkt i og kan sammenlignes med 1/ .

Man kan estimere en normal-ogiv latent trækmodel ved faktoranalyse af en matrix af tetrachoriske korrelationer mellem emner. Det betyder, at det er teknisk muligt at estimere en simpel IRT-model ved hjælp af generel statistisk software.

Med omskalering af evnen parameter, er det muligt at gøre 2PL logistisk model tæt tilnærme den kumulative normale ogive. Typisk er de 2PL logistiske og normal-ogive IRF'er forskellige i sandsynlighed med højst 0,01 på tværs af funktionsområdet. Forskellen er dog størst i fordelingshalerne, der har tendens til at have mere indflydelse på resultaterne.

Den latente egenskab/IRT -model blev oprindeligt udviklet ved hjælp af normale ogiver, men dette blev betragtet som for beregningsmæssigt krævende for computerne dengang (1960'erne). Den logistiske model blev foreslået som et enklere alternativ og har siden været bredt brugt. For nylig blev det imidlertid påvist , at normal-ogive-modellen ikke er mere beregningsmæssigt krævende end logistiske modeller ved hjælp af standardpolynomtilnærmelser til den normale CDF .

Rasch -modellen

Den Rasch-modellen er ofte anset for at være den 1PL IRT-modellen. Tilhængere af Rasch -modellering foretrækker dog at se det som en helt anden tilgang til at konceptualisere forholdet mellem data og teori. Ligesom andre statistiske modelleringsmetoder understreger IRT forrang for, at en model passer til observerede data, mens Rasch-modellen understreger forrang for kravene til grundlæggende måling, idet passende datamodeltilpasning er et vigtigt, men sekundært krav, der skal opfyldes før en test eller et forskningsinstrument kan påstås at måle et træk. Operationelt betyder det, at IRT -tilgange inkluderer yderligere modelparametre for at afspejle de mønstre, der observeres i dataene (f.eks. At tillade elementer at variere i deres korrelation med det latente træk), mens der i Rasch -metoden er påstande om tilstedeværelsen af ​​et latent træk kan kun betragtes som gyldige, når både (a) dataene passer til Rasch -modellen, og (b) testelementer og eksaminander er i overensstemmelse med modellen. Derfor, under Rasch -modeller, kræver fejltilpassede svar en diagnose af årsagen til fejlen og kan udelukkes fra datasættet, hvis man kan forklare grundigt, hvorfor de ikke adresserer det latente træk. Således kan Rasch -metoden ses som en bekræftende tilgang, i modsætning til sonderende tilgange, der forsøger at modellere de observerede data.

Tilstedeværelsen eller fraværet af en gætte- eller pseudo-chance-parameter er en stor og til tider kontroversiel sondring. IRT -metoden inkluderer en venstre asymptoteparameter til at tage højde for gæt ved multiple choice -undersøgelser, mens Rasch -modellen ikke gør det, fordi det antages, at gætte tilføjer tilfældigt fordelt støj til dataene. Da støjen er tilfældigt fordelt, antages det, at forudsat at tilstrækkelige genstande testes, vil rangordningen af ​​personer langs det latente træk ved rå score ikke ændre sig, men simpelthen undergå en lineær skalering. Derimod opnår tre-parameter IRT tilpasning af datamodeller ved at vælge en model, der passer til dataene, på bekostning af at ofre specifik objektivitet .

I praksis har Rasch -modellen mindst to hovedfordele i forhold til IRT -metoden. Den første fordel er forrang for Raschs specifikke krav, som (når de er opfyldt) giver grundlæggende personfri måling (hvor personer og genstande kan kortlægges på den samme invariante skala). En anden fordel ved Rasch-metoden er, at estimering af parametre er mere ligetil i Rasch-modeller på grund af tilstedeværelsen af ​​tilstrækkelig statistik, hvilket i denne applikation betyder en en-til-en-kortlægning af rå tal-korrekte score til Rasch- skøn.

Analyse af modelpasning

Som ved enhver anvendelse af matematiske modeller er det vigtigt at vurdere, om dataene passer til modellen. Hvis varen ikke passer til en hvilken som helst model, diagnosticeres på grund af dårlig varekvalitet, f.eks. Forvirrende distraktorer i en multiple choice-test, kan elementerne blive fjernet fra denne testformular og omskrevet eller udskiftet i fremtidige testformularer. Hvis der imidlertid opstår et stort antal forkert tilpasningspunkter uden nogen tilsyneladende årsag til den uegnede, skal testens konstruktionsgyldighed genovervejes, og testspecifikationerne skal muligvis omskrives. Således giver misfit uvurderlige diagnostiske værktøjer til testudviklere, så hypoteser, som testspecifikationer er baseret på, kan testes empirisk mod data.

Der er flere metoder til at vurdere pasform, såsom en Chi-square-statistik eller en standardiseret version af den. To og tre-parameter IRT-modeller justerer varediskrimination, hvilket sikrer forbedret datamodelpasning, så pasformstatistik mangler den bekræftende diagnostiske værdi, der findes i enparametermodeller, hvor den idealiserede model er specificeret på forhånd.

Data bør ikke fjernes på grundlag af forkert tilpasning af modellen, men derimod fordi der er blevet diagnosticeret en konstruktiv relevant årsag til fejlkvaliteten, f.eks. At en ikke-indfødt engelsktalende tager en videnskabstest skrevet på engelsk. En sådan kandidat kan argumenteres for ikke at tilhøre den samme befolkning af personer afhængigt af testens dimensionalitet, og selvom en parameter IRT-foranstaltninger argumenteres for at være prøveuafhængig, er de ikke befolkningsuafhængige, så uegnet som denne er konstruere relevant og ugyldiggøre ikke testen eller modellen. En sådan tilgang er et vigtigt redskab i instrumentvalidering. I to- og treparametermodeller, hvor den psykometriske model justeres til at passe til dataene, skal fremtidige administrationer af testen kontrolleres for at passe til den samme model, der blev brugt i den indledende validering for at bekræfte den hypotese, der scorer fra hver administration generaliserer til andre forvaltninger. Hvis der er angivet en anden model for hver administration for at opnå tilpasning af datamodeller, måles der en anden latent egenskab, og testresultater kan ikke argumenteres for at være sammenlignelige mellem administrationer.

Information

Et af de vigtigste bidrag fra item response theory er udvidelsen af ​​begrebet pålidelighed . Traditionelt refererer pålidelighed til målingens præcision (dvs. i hvilken grad måling er fejlfri). Traditionelt måles det ved hjælp af et enkelt indeks defineret på forskellige måder, såsom forholdet mellem sand og observeret scorevarians. Dette indeks er nyttigt til at karakterisere en tests gennemsnitlige pålidelighed, for eksempel for at sammenligne to tests. Men IRT gør det klart, at præcisionen ikke er ensartet i hele rækkevidden af ​​testresultater. Scorer i kanterne af testens område har for eksempel generelt mere fejl forbundet med dem end scoringer tættere på midten af ​​intervallet.

Artikelsvarsteori fremmer begrebet vare- og testinformation for at erstatte pålidelighed. Information er også en funktion af modelparametrene. For eksempel, ifølge Fisher informationsteori, er elementoplysningerne, der leveres i tilfælde af 1PL for dikotome svardata, simpelthen sandsynligheden for et korrekt svar ganget med sandsynligheden for et forkert svar, eller,

Den standardfejl på estimation (SE) er den reciprokke af testen informationer om på et givet træk niveau, er den

Så mere information indebærer mindre målefejl.

For andre modeller, f.eks. De to og tre parametermodeller, spiller diskrimineringsparameteren en vigtig rolle i funktionen. Vareoplysningsfunktionen for modellen med to parametre er

Vareoplysningsfunktionen for modellen med tre parametre er

Generelt har elementoplysningsfunktioner en tendens til at se klokkeformede ud. Meget diskriminerende genstande har høje, smalle informationsfunktioner; de bidrager meget, men over et snævert område. Mindre diskriminerende emner giver færre oplysninger, men over et bredere område.

Plots med elementoplysninger kan bruges til at se, hvor meget information et element bidrager med, og til hvilken del af skalaens scoreområde. På grund af lokal uafhængighed er elementoplysningsfunktioner additive . Således er testinformationsfunktionen simpelthen summen af ​​informationsfunktionerne for emnerne på eksamen. Ved hjælp af denne ejendom med en stor varebank kan testinformationsfunktioner formes til at kontrollere målefejl meget præcist.

Karakterisering af nøjagtigheden af testresultater er måske det centrale spørgsmål i psykometrisk teori og er en væsentlig forskel mellem IRT og CTT. IRT -fund afslører, at CTT -begrebet pålidelighed er en forenkling. I stedet for pålidelighed tilbyder IRT testinformationsfunktionen, der viser graden af ​​præcision ved forskellige værdier af theta, θ.

Disse resultater giver psykometrikere mulighed for (potentielt) omhyggeligt at forme pålidelighedsniveauet for forskellige evner ved at inkludere omhyggeligt udvalgte emner. For eksempel i en certificeringssituation , hvor en test kun kan bestås eller mislykkes, hvor der kun er en enkelt "cutscore", og hvor den faktiske bestået score er uvigtig, kan der udvikles en meget effektiv test ved kun at vælge elementer, der har høj information i nærheden af ​​cutscore. Disse varer svarer generelt til genstande, hvis vanskeligheder er omtrent de samme som cutscore.

Scoring

Personparameteren repræsenterer størrelsen af individets latente egenskab , som er den menneskelige kapacitet eller attribut målt ved testen. Det kan være en kognitiv evne, fysisk evne, dygtighed, viden, holdning, personlighedskarakteristik osv.

Estimatet af personparameteren - "score" på en test med IRT - beregnes og tolkes på en meget anden måde sammenlignet med traditionelle scores som antal eller procent korrekte. Individets samlede antal-korrekte score er ikke den faktiske score, men er snarere baseret på IRF'erne, hvilket fører til en vægtet score, når modellen indeholder varediskrimineringsparametre. Det opnås faktisk ved at gange elementets responsfunktion for hvert element for at opnå en sandsynlighedsfunktion , hvis højeste punkt er det maksimale sandsynlighedsestimat på . Dette højeste punkt estimeres typisk med IRT -software ved hjælp af Newton – Raphson -metoden . Selvom scoring er meget mere sofistikeret med IRT, er korrelationen mellem theta -estimatet og en traditionel score for de fleste tests meget høj; ofte er det 0,95 eller mere. En graf over IRT -scoringer mod traditionelle scoringer viser en ogiv form, der indebærer, at IRT skønner separate individer ved grænserne af intervallet mere end i midten.

En vigtig forskel mellem CTT og IRT er behandlingen af ​​målefejl, indekseret af standard målefejl . Alle tests, spørgeskemaer og opgørelser er upræcise værktøjer; vi kan aldrig kende en persons sande score , men snarere kun have et estimat, den observerede score. Der er en vis mængde tilfældige fejl, der kan skubbe den observerede score højere eller lavere end den sande score. CTT antager, at fejlmængden er den samme for hver eksaminand, men IRT tillader, at den varierer.

Intet om IRT tilbageviser menneskelig udvikling eller forbedring eller antager, at et egenskabsniveau er fast. En person kan lære færdigheder, viden eller endda såkaldte "test-tager færdigheder", som kan oversætte til en højere sand-score. Faktisk fokuserer en del af IRT -forskningen på måling af ændringer i egenskabsniveau.

En sammenligning af klassiske teorier og reaktioner på varer

Klassisk testteori (CTT) og IRT beskæftiger sig stort set med de samme problemer, men er forskellige teorikropper og indebærer forskellige metoder. Selvom de to paradigmer generelt er konsistente og komplementære, er der en række forskelle:

  • IRT gør stærkere antagelser end CTT og giver i mange tilfælde tilsvarende stærkere fund; primært karakteriseringer af fejl. Disse resultater holder naturligvis kun, når forudsætningerne for IRT -modellerne rent faktisk er opfyldt.
  • Selvom CTT-resultater har tilladt vigtige praktiske resultater, giver den modelbaserede art af IRT mange fordele i forhold til analoge CTT-fund.
  • CTT -testscoringsprocedurer har fordelen ved at være enkle at beregne (og forklare), mens IRT -scoring generelt kræver relativt komplekse estimeringsprocedurer.
  • IRT giver flere forbedringer i skalering af varer og personer. Specifikationerne afhænger af IRT -modellen, men de fleste modeller skalerer emnernes vanskeligheder og evnen for mennesker på den samme metrik. Således kan vanskeligheden ved et element og en persons evne sammenlignes meningsfuldt.
  • En anden forbedring fra IRT er, at parametrene for IRT-modeller generelt ikke er prøve- eller testafhængige, hvorimod sand score er defineret i CTT i forbindelse med en specifik test. Således giver IRT betydeligt større fleksibilitet i situationer, hvor forskellige prøver eller testformer bruges. Disse IRT -fund er grundlaget for computeriseret adaptiv test.

Det er også værd at nævne nogle specifikke ligheder mellem CTT og IRT, som hjælper med at forstå overensstemmelse mellem begreber. For det første viste Lord, at under antagelsen, der er normalt fordelt, er diskrimination i 2PL-modellen omtrent en monoton funktion af den punkt-biserielle korrelation . I særdeleshed:

hvor er punktbiserial korrelation af punkt i . Så hvis antagelsen holder, hvor der er en højere diskrimination, vil der generelt være en højere punkt-biserial korrelation.

En anden lighed er, at mens IRT giver mulighed for en standardfejl i hvert estimat og en informationsfunktion, er det også muligt at få et indeks for en test som helhed, der er direkte analog med Cronbachs alfa , kaldet separationsindekset . For at gøre dette er det nødvendigt at begynde med en nedbrydning af et IRT -skøn til en sand placering og fejl, analog med nedbrydning af en observeret score til en sand score og fejl i CTT. Lade

hvor er den sande placering, og er fejlforeningen med et skøn. Derefter er et skøn over standardafvigelsen for en person med en given vægtet score, og separationsindekset opnås som følger

hvor den gennemsnitlige kvadrerede standardfejl for personestimat giver et skøn over variansen af ​​fejlene , på tværs af personer. Standardfejlene produceres normalt som et biprodukt af estimeringsprocessen. Separationsindekset er typisk meget tæt på Cronbachs alfa.

IRT kaldes undertiden stærk sand score -teori eller moderne mental test -teori, fordi det er en nyere teorigruppe og tydeliggør de hypoteser, der er implicitte inden for CTT.

Se også

Referencer

Yderligere læsning

Der er skrevet mange bøger, der omhandler elementresponssteori eller indeholder IRT- eller IRT-lignende modeller. Dette er en delvis liste med fokus på tekster, der giver mere dybde.

  • Lord, FM (1980). Anvendelser af artikelresponssteori til praktiske testproblemer. Mahwah, NJ: Erlbaum.
Denne bog opsummerer meget af Lords IRT -arbejde, herunder kapitler om forholdet mellem IRT og klassiske metoder, grundlæggende elementer i IRT, estimering og flere avancerede emner. Dets estimatkapitel er nu dateret, idet det primært diskuterer fælles maksimal sandsynlighedsmetode frem for den marginale maksimal sandsynlighedsmetode implementeret af Darrell Bock og hans kolleger.
Denne bog er en tilgængelig introduktion til IRT, der, som titlen siger, er rettet mod psykologer.
  • Baker, Frank (2001). Det grundlæggende i artikelsvarsteori. ERIC Clearinghouse on Assessment and Evaluation, University of Maryland, College Park, MD.
Denne introduktionsbog er af en af ​​pionererne inden for området og er tilgængelig online på [1]
Denne bog beskriver forskellige elementresponssteorimodeller og indeholder detaljerede forklaringer på algoritmer, der kan bruges til at estimere elementet og evne parametre. Dele af bogen er tilgængelige online som begrænset eksempel på Google Books .
Denne bog giver en omfattende oversigt over forskellige populære IRT -modeller. Det er velegnet til personer, der allerede har fået grundlæggende forståelse af IRT.
Dette bind viser en integreret introduktion til varemodeller, hovedsageligt rettet mod praktiserende læger, forskere og kandidatstuderende.
Denne bog diskuterer den bayesianske tilgang til elementresponsmodellering. Bogen vil være nyttig for personer (der kender IRT) med interesse i at analysere varesvardata fra et bayesisk perspektiv.

eksterne links