Konstruer gyldighed - Construct validity

Konstruktionens gyldighed er akkumulering af beviser for at understøtte fortolkningen af, hvad et mål afspejler. Moderne validitetsteori definerer konstruktionsvaliditet som den overordnede bekymring for validitetsforskning, der underbygger alle andre typer validitetsbeviser, såsom indholdsgyldighed og kriteriegyldighed .

Konstruktionens validitet er hensigtsmæssigheden af ​​konklusioner foretaget på grundlag af observationer eller målinger (ofte testresultater), specifikt om en test med rimelighed kan anses for at afspejle den tiltænkte konstruktion . Konstruktioner er abstraktioner, der bevidst er skabt af forskere for at konceptualisere den latente variabel , som er korreleret med score på et givet mål (selvom det ikke er direkte observerbart). Konstruktionens validitet undersøger spørgsmålet: Opfører målingen sig som teorien siger, at et mål for den konstruktion skal opføre sig?

Konstruktionens validitet er afgørende for den opfattede samlede validitet af testen. Konstruktionens validitet er særlig vigtig inden for samfundsvidenskab , psykologi , psykometrik og sprogstudier.

Psykologer som Samuel Messick (1998) har presset på for et samlet syn på konstruktiv validitet "... som en integreret evaluerende vurdering af, i hvilken grad empiriske beviser og teoretiske rationaler understøtter tilstrækkeligheden og hensigtsmæssigheden af ​​slutninger og handlinger baseret på testresultater. .. "Mens Messicks synspunkter populariseres inden for uddannelsesmåling og stammer fra en karriere omkring forklaring af validitet i testindustriens kontekst, er en definition mere i tråd med grundlæggende psykologisk forskning, understøttet af datadrevne empiriske undersøgelser, der understreger statistisk og kausal begrundelse blev givet af (Borsboom et al., 2004)

Nøglen til at konstruere validitet er de teoretiske ideer bag det pågældende træk, det vil sige de begreber, der organiserer, hvordan aspekter af personlighed , intelligens osv. Ses. Paul Meehl udtaler, at "Den bedste konstruktion er den, som vi kan bygge det største antal slutninger på, på den mest direkte måde."

Skalerensning, det vil sige "processen med at fjerne genstande fra skalaer med flere emner" (Wieland et al., 2017) kan påvirke konstruktionens validitet. En ramme præsenteret af Wieland et al. (2017) fremhæver, at både statistiske og dømmende kriterier skal tages i betragtning, når der træffes beslutninger om rensning af skalaer.


Historie

I hele 1940'erne havde forskere forsøgt at finde på måder at validere eksperimenter på, før de blev offentliggjort. Resultatet af dette var en overflod af forskellige validiteter ( egen validitet , ansigtsgyldighed , logisk validitet , empirisk validitet osv.). Dette gjorde det svært at se, hvilke der faktisk var de samme, og hvilke der slet ikke var nyttige. Indtil midten af ​​1950'erne var der meget få universelt accepterede metoder til at validere psykologiske eksperimenter. Hovedårsagen til dette var, fordi ingen havde fundet ud af præcist, hvilke kvaliteter af eksperimenterne der skulle ses på, før de blev offentliggjort. Mellem 1950 og 1954 mødtes APA -udvalget for psykologiske test og diskuterede spørgsmålene omkring validering af psykologiske eksperimenter.

Omkring dette tidspunkt blev udtrykket konstruktiv validitet først opfundet af Paul Meehl og Lee Cronbach i deres sædvanlige artikel "Construct Validity In Psychological Tests". De noterede sig tanken om, at konstruktionens gyldighed ikke var ny på det tidspunkt; snarere var det en kombination af mange forskellige typer validitet, der beskæftiger sig med teoretiske begreber. De foreslog følgende tre trin for at evaluere konstruktionens validitet:

  1. artikulere et sæt teoretiske begreber og deres indbyrdes forhold
  2. udvikle måder at måle de hypotetiske konstruktioner foreslået af teorien
  3. empirisk at teste de hypotetiserede relationer

Mange psykologer bemærkede, at en vigtig rolle ved konstruktionvalidering i psykometrik var, at den lagde mere vægt på teori i modsætning til validering. Det centrale problem med validering var, at en test kunne valideres, men det viste ikke nødvendigvis, at den målte den teoretiske konstruktion, den påstod at måle. Konstruktionens validitet har tre aspekter eller komponenter: den indholdsmæssige komponent, strukturelle komponent og eksterne komponent. De er nært beslægtet med tre faser i testopbygningsprocessen: sammensætning af puljen af ​​emner, analyse og valg af den interne struktur af puljen af ​​emner og sammenhæng mellem testresultater med kriterier og andre variabler.

I 1970'erne var der en voksende debat mellem teoretikere, der begyndte at se konstruktiv validitet som den dominerende model, der skubber mod en mere samlet validitetsteori, og dem, der fortsatte med at arbejde ud fra flere validitetsrammer. Mange psykologer og uddannelsesforskere så "forudsigende, samtidige og indholdsgyldigheder som i det væsentlige ad hoc , konstruktiv validitet var hele validiteten fra et videnskabeligt synspunkt" I 1974-versionen af The Standards for Educational and Psychological Testing the inter-relatedness of de tre forskellige aspekter af validitet blev anerkendt: "Disse aspekter af validitet kan diskuteres uafhængigt, men kun for nemheds skyld. De hænger sammen operationelt og logisk; kun sjældent er et af dem alene vigtigt i en bestemt situation".

I 1989 præsenterede Messick en ny konceptualisering af konstruktionens validitet som et samlet og mangefacetteret koncept. Under denne ramme er alle former for validitet forbundet med og afhænger af konstruktionens kvalitet. Han bemærkede, at en samlet teori ikke var hans egen idé, men derimod kulminationen på debat og diskussion inden for det videnskabelige samfund i løbet af de foregående årtier. Der er seks aspekter af konstruktionens validitet i Messicks forenede teori om konstruktionens validitet:

  1. Konsekvens - Hvad er de potentielle risici, hvis scores er ugyldige eller upassende fortolket? Er testen stadig værd i betragtning af risiciene?
  2. Indhold - Synes testelementer at måle konstruktionen af ​​interesse?
  3. Substantiv - Er det teoretiske fundament bag interessekonstruktionen sundt?
  4. Strukturelt - Korrelerer sammenhænge mellem dimensioner målt ved testen med konstruktionen af ​​interesse og testresultater?
  5. Ekstern - Har testen konvergente, diskriminerende og forudsigelige kvaliteter?
  6. Generaliserbarhed - Generaliserer testen på tværs af forskellige grupper, indstillinger og opgaver?

Hvordan konstruktionsgyldighed korrekt skal ses, er stadig et emne for debat for validitetsteoretikere. Kernen i forskellen ligger i en epistemologisk forskel mellem positivistiske og postpositivistiske teoretikere.

Evaluering

Evaluering af konstruktionens gyldighed kræver, at målingens korrelationer undersøges i forhold til variabler, der vides at være relateret til konstruktionen (angiveligt målt ved det instrument, der evalueres, eller som der er teoretiske grunde til at forvente, at det er relateret til). Dette er i overensstemmelse med multitrait-multimethod-matrix (MTMM) for at undersøge konstruktionens validitet beskrevet i Campbell og Fiske's milepælspapir (1959). Der er andre metoder til at evaluere konstruktionsgyldighed udover MTMM. Det kan evalueres gennem forskellige former for faktoranalyse , strukturel ligningsmodellering (SEM) og andre statistiske evalueringer. Det er vigtigt at bemærke, at en enkelt undersøgelse ikke viser konstruktionens validitet. Det er snarere en kontinuerlig proces med evaluering, revurdering, forfining og udvikling. Korrelationer, der passer til det forventede mønster, bidrager med bevis på konstruktionens validitet. Konstruktionens validitet er en dom baseret på akkumulering af korrelationer fra adskillige undersøgelser ved hjælp af det instrument, der evalueres.

De fleste forskere forsøger at teste konstruktionens validitet før hovedforskningen. Til dette kan pilotundersøgelser bruges. Pilotundersøgelser er forundersøgelser i lille skala, der har til formål at teste gennemførligheden af ​​en fuldskala test. Disse pilotundersøgelser fastslår styrken i deres forskning og giver dem mulighed for at foretage nødvendige justeringer. En anden metode er den kendte-gruppeteknik, som indebærer administration af måleinstrumentet til grupper, der forventes at variere på grund af kendte egenskaber. Hypoteset relationstest involverer logisk analyse baseret på teori eller tidligere forskning. Interventionsundersøgelser er endnu en metode til evaluering af konstruktionens validitet. Interventionsundersøgelser, hvor en gruppe med lave score i konstruktionen testes, undervises i konstruktionen og derefter måles igen, kan demonstrere en tests konstruktionsgyldighed. Hvis der er en signifikant forskel før-test og efter-test, som analyseres ved hjælp af statistiske tests, kan dette vise god konstruktionsgyldighed.

Konvergerende og diskriminerende gyldighed

Konvergent og diskriminerende validitet er de to undertyper af validitet, der udgør en validitet. Konvergent validitet refererer til den grad, i hvilken to målinger af konstruktioner, der teoretisk set bør relateres, faktisk er relaterede. Derimod tester diskriminerende validitet, om begreber eller målinger, der formodes at være uafhængige, faktisk ikke er relaterede. Tag for eksempel en konstruktion af generel lykke. Hvis et mål for generel lykke havde konvergent gyldighed, så skulle konstruktioner, der ligner lykke (tilfredshed, tilfredshed, munterhed osv.), Forholde sig positivt til målet for generel lykke. Hvis denne foranstaltning har diskriminerende gyldighed, bør konstruktioner, der ikke formodes at have en positiv relation til generel lykke (tristhed, depression, fortvivlelse osv.), Ikke vedrøre målingen af ​​generel lykke. Foranstaltninger kan have en af ​​undertyperne af konstruktionens validitet og ikke den anden. Ved hjælp af eksemplet med generel lykke kunne en forsker oprette en opgørelse, hvor der er en meget høj positiv sammenhæng mellem generel lykke og tilfredshed, men hvis der også er en signifikant positiv sammenhæng mellem lykke og depression, så bliver målets konstruktive validitet sat i tvivl . Testen har konvergent validitet, men ikke diskriminerende validitet.

Nomologisk netværk

Lee Cronbach og Paul Meehl (1955) foreslog, at udviklingen af ​​et nomologisk net var afgørende for måling af en tests konstruktionsgyldighed. Et nomologisk netværk definerer en konstruktion ved at illustrere dens relation til andre konstruktioner og adfærd. Det er en repræsentation af begreberne (konstruktioner) af interesse i et studie, deres observerbare manifestationer og indbyrdes forhold mellem dem. Den undersøger, om forholdet mellem lignende konstruktion betragtes som relationer mellem de observerede mål for konstruktionerne. En grundig observation af konstruktioner relationer til hinanden, det kan generere nye konstruktioner. For eksempel betragtes intelligens og arbejdshukommelse som meget relaterede konstruktioner. Gennem observation af deres underliggende komponenter udviklede psykologer nye teoretiske konstruktioner såsom: kontrolleret opmærksomhed og kortsigtet belastning. Oprettelse af et nomologisk net kan også gøre observation og måling af eksisterende konstruktioner mere effektiv ved at lokalisere fejl. Forskere har fundet ud af, at det at studere bumpene på det menneskelige kranium ( frenologi ) ikke er tegn på intelligens, men hjernens volumen er. Ved at fjerne teorien om frenologi fra det nomologiske intelligensnet og tilføje teorien om hjernemasseudvikling, bliver intelligenskonstruktioner mere effektive og mere kraftfulde. Vævningen af ​​alle disse indbyrdes forbundne begreber og deres observerbare træk skaber et "net", der understøtter deres teoretiske koncept. For eksempel i det nomologiske netværk for akademisk præstation ville vi forvente, at observerbare træk ved akademisk præstation (dvs. GPA-, SAT- og ACT -score) relaterer sig til de observerbare træk ved studiøsitet (timer brugt på at studere, opmærksomhed i klassen, detaljer i noter) . Hvis de ikke gør det, er der et problem med måling (af akademisk præstation eller studiøsitet) eller med den påståede præstationsteori. Hvis de er indikatorer for hinanden, styrkes det nomologiske netværk, og derfor den konstruerede teori, om akademisk præstation. Selvom det nomologiske netværk foreslog en teori om, hvordan man styrker konstruktioner, fortæller det os ikke, hvordan vi kan vurdere konstruktionens validitet i en undersøgelse.

Multitrait-multimetodmatrix

Den multitrait-multimethod matrix (MTMM) er en tilgang til behandlingen konstrukt gyldighed udviklet af Campbell og Fiske (1959). Denne model undersøger konvergens (bevis på, at forskellige målemetoder for en konstruktion giver lignende resultater) og diskriminerbarhed (evne til at differentiere konstruktionen fra andre relaterede konstruktioner). Den måler seks træk: Evaluering af konvergent validitet, evaluering af diskriminerende (divergerende) validitet, trækmetodeenheder, multitrait-multimetoder, virkelig forskellige metoder og egenskabskarakteristika. Dette design giver efterforskere mulighed for at teste for: "konvergens på tværs af forskellige foranstaltninger ... af den samme 'ting' ... og for divergens mellem foranstaltninger ... af beslægtede, men konceptuelt forskellige 'ting'.

Trusler mod at konstruere validitet

Tilsyneladende konstruktionsgyldighed kan være vildledende på grund af en række problemer i hypoteseformulering og eksperimentelt design.

  • Hypotese gætteri : Hvis deltageren kender eller gætter det ønskede slutresultat, kan deltagerens handlinger ændre sig. Et eksempel er Hawthorne -effekten : i en industriel ergonomiundersøgelse fra 1925 udført på Hawthorne Works -fabrikken uden for Chicago observerede eksperimenter, at både sænkning og oplysning af det omgivende lys forbedrede arbejdernes produktivitet. De bestemte til sidst grundlaget for dette paradoksale resultat: arbejdere, der var klar over at blive observeret, arbejdede hårdere uanset hvilken ændring i miljøet.
  • Bias i eksperimentelt design (forsætligt eller utilsigtet). Et eksempel på dette findes i Stephen Jay Goulds bog fra 1981, " The Mismeasure of Man ". Blandt de spørgsmål, der blev brugt omkring tidspunktet for første verdenskrig i batteriet, der blev brugt til at måle intelligens, var: "I hvilken by spiller Dodgers?" (de var derefter baseret i Brooklyn). Nylige immigranter til USA fra Østeuropa, der ikke var bekendt med baseball -sporten, fik svaret forkert, og dette blev brugt til at udlede, at østeuropæere havde lavere intelligens. Spørgsmålet målte ikke intelligens: det målte kun, hvor længe man havde boet i USA og blev tiltrukket af et populært tidsfordriv.
  • Forskers forventninger kan blive kommunikeret utilsigtet til deltagerne non-verbalt og fremkalde den ønskede effekt. For at kontrollere denne mulighed skal dobbeltblinde eksperimentelle designs bruges, hvor det er muligt. Det vil sige, at evaluatoren for en bestemt deltager skal være uvidende om, hvilken intervention der er blevet udført på den pågældende deltager, eller være uafhængig af eksperimentatoren.
  • For snæver at definere forudsagt resultat . For eksempel vil udelukkelse af relevant information udefra på arbejdspladsen udelukkende være ved at bruge arbejdsglæde til at måle lykke.
  • Forvirrende variabler (kovariater): Grundårsagen til de observerede virkninger kan skyldes variabler, der ikke er blevet overvejet eller målt.

En grundig undersøgelse af truslerne mod at konstruere validitet præsenteres i Trochim.

Se også

Referencer

eksterne links