Model på flere niveauer - Multilevel model

Multilevel-modeller (også kendt som hierarkiske lineære modeller , lineær blandet effekt-model , blandede modeller , indlejrede datamodeller , tilfældige koefficienter , modeller med tilfældige effekter , tilfældige parametermodeller eller split-plot-designs ) er statistiske modeller af parametre, der varierer mere end et niveau. Et eksempel kunne være en model for elevernes præstationer, der indeholder mål for de enkelte elever samt mål for klasseværelser, hvor eleverne er grupperet. Disse modeller kan ses som generaliseringer af lineære modeller (især lineær regression ), selvom de også kan strække sig til ikke-lineære modeller. Disse modeller blev meget mere populære efter tilstrækkelig computerkraft og software blev tilgængelig.

Modeller på flere niveauer er særlig velegnede til forskningsdesign, hvor data for deltagerne er organiseret på mere end ét niveau (dvs. indlejrede data ). Analyseenhederne er normalt individer (på et lavere niveau), der er indlejret i kontekstuelle/aggregerede enheder (på et højere niveau). Mens det laveste dataniveau i multilevel -modeller normalt er et individ, kan gentagne målinger af individer også undersøges. Som sådan giver multilevel -modeller en alternativ type analyse til univariat eller multivariat analyse af gentagne målinger . Individuelle forskelle i vækstkurver kan undersøges. Desuden kan modeller på flere niveauer bruges som et alternativ til ANCOVA , hvor scoringer på den afhængige variabel justeres for kovariater (f.eks. Individuelle forskelle) inden test af behandlingsforskelle. Modeller på flere niveauer er i stand til at analysere disse eksperimenter uden antagelser om homogenitet-af-regressionshældninger, der kræves af ANCOVA.

Modeller på flere niveauer kan bruges på data med mange niveauer, selvom modeller på to niveauer er de mest almindelige, og resten af ​​denne artikel kun omhandler disse. Den afhængige variabel skal undersøges på det laveste analyseniveau.

Niveau 1 regressionsligning

Når der er en enkelt niveau 1 uafhængig variabel, er niveau 1 -modellen:

  • refererer til scoren på den afhængige variabel for en individuel observation på niveau 1 (subscript i refererer til individuelt tilfælde, subscript j refererer til gruppen).
  • refererer til niveau 1 -forudsigeren.
  • refererer til aflytningen af ​​den afhængige variabel i gruppe j (niveau 2).
  • refererer til hældningen for forholdet i gruppe j (niveau 2) mellem niveau 1 -forudsigeren og den afhængige variabel.
  • refererer til de tilfældige forudsigelsesfejl for niveau 1 -ligningen (det kaldes også undertiden som ).

På niveau 1 kan både aflytninger og skråninger i grupperne enten fastsættes (hvilket betyder, at alle grupper har de samme værdier, selvom det i den virkelige verden ville være en sjælden forekomst), ikke-tilfældigt varierende (hvilket betyder, at aflytningerne og/ eller skråninger er forudsigelige ud fra en uafhængig variabel på niveau 2) eller tilfældigt varierende (hvilket betyder, at aflytningerne og/eller skråningerne er forskellige i de forskellige grupper, og at hver har deres eget samlede gennemsnit og varians).

Når der er flere niveau 1 uafhængige variabler, kan modellen udvides ved at erstatte vektorer og matricer i ligningen.

Når forholdet mellem respons og forudsigelse ikke kan beskrives ved det lineære forhold, kan man finde et ikke-lineært funktionelt forhold mellem respons og forudsigelse og udvide modellen til ikke-lineær blandet effekt-model . For eksempel, når svaret er den kumulative infektionsbane for -th -landet og repræsenterer -th -tidspunkter, så kan det bestilte par for hvert land vise en form, der ligner logistisk funktion .

Niveau 2 regressionsligning

De afhængige variabler er aflytninger og skråninger for de uafhængige variabler på niveau 1 i grupperne på niveau 2.

  • refererer til det samlede afsnit. Dette er det store middel af scoringer på den afhængige variabel på tværs af alle grupperne, når alle forudsigere er lig med 0.
  • refererer til niveau 2 -forudsigeren.
  • refererer til den samlede regressionskoefficient eller hældningen mellem den afhængige variabel og niveau 2 -forudsigeren.
  • refererer til den tilfældige fejlkomponent for afvigelsen af ​​en gruppes aflytning fra den samlede aflytning.
  • refererer til den samlede regressionskoefficient eller hældningen mellem den afhængige variabel og niveau 1 -forudsigeren.
  • refererer til fejlkomponenten for hældningen (hvilket betyder afvigelsen af ​​gruppens skråninger fra den samlede hældning).

Typer af modeller

Inden en multilevel -modelanalyse foretages, skal en forsker tage stilling til flere aspekter, herunder hvilke forudsigere der eventuelt skal indgå i analysen. For det andet skal forskeren beslutte, om parameterværdier (dvs. de elementer, der vil blive estimeret), vil være faste eller tilfældige. Faste parametre er sammensat af en konstant over alle grupperne, hvorimod en tilfældig parameter har en anden værdi for hver af grupperne. Derudover skal forskeren beslutte, om han vil anvende en maksimal sandsynlighedsestimering eller en begrænset maksimal sandsynlighedsestimeringstype.

Tilfældige aflytningsmodeller

En tilfældig aflytningsmodel er en model, hvor aflytninger får lov til at variere, og derfor forudsiges scores på den afhængige variabel for hver individuel observation af aflytningen, der varierer på tværs af grupper. Denne model forudsætter, at skråninger er faste (det samme på tværs af forskellige sammenhænge). Derudover giver denne model oplysninger om intraclass -korrelationer , som er nyttige til at afgøre, om modeller i første række er påkrævet.

Tilfældige skråninger model

En tilfældig skråningsmodel er en model, hvor skråninger får lov at variere, og derfor er skråningerne forskellige på tværs af grupper. Denne model antager, at aflytninger er faste (det samme på tværs af forskellige sammenhænge).

Tilfældige aflytninger og skråninger model

En model, der omfatter både tilfældige aflytninger og tilfældige skråninger, er sandsynligvis den mest realistiske model, selvom den også er den mest komplekse. I denne model får både aflytninger og skråninger lov til at variere på tværs af grupper, hvilket betyder, at de er forskellige i forskellige sammenhænge.

Udvikling af en model på flere niveauer

For at kunne foretage en analyse på flere niveauer ville man starte med faste koefficienter (skråninger og aflytninger). Et aspekt ville få lov til at variere ad gangen (det vil sige blive ændret) og sammenlignet med den tidligere model for at vurdere bedre modelpasning. Der er tre forskellige spørgsmål, som en forsker ville stille ved vurderingen af ​​en model. For det første, er det en god model? For det andet, er en mere kompleks model bedre? For det tredje, hvilket bidrag yder individuelle forudsigere til modellen?

For at vurdere modellerne vil forskellige modeltilpasningsstatistikker blive undersøgt. En sådan statistik er chi-square sandsynlighedsforholdstesten , som vurderer forskellen mellem modeller. Sandsynlighedsforholdstesten kan bruges til modelbygning generelt, til undersøgelse af, hvad der sker, når effekter i en model får lov at variere, og når man tester en dummy-kodet kategorisk variabel som en enkelt effekt. Testen kan dog kun bruges, når modeller er indlejret (hvilket betyder, at en mere kompleks model indeholder alle effekterne af en enklere model). Ved test af ikke-indlejrede modeller kan sammenligninger mellem modeller foretages ved hjælp af blandt andet Akaike-informationskriteriet (AIC) eller Bayesiansk informationskriterium (BIC). Se yderligere modelvalg .

Antagelser

Modeller på flere niveauer har de samme antagelser som andre større generelle lineære modeller (f.eks. ANOVA , regression ), men nogle af antagelserne er ændret for designens hierarkiske karakter (dvs. indlejrede data).

Linearitet

Antagelsen om linearitet siger, at der er en retlinet (lige linje, i modsætning til ikke-lineær eller U-formet) relation mellem variabler. Modellen kan dog udvides til ikke -lineære relationer. Især når den gennemsnitlige del af niveau 1-regressionsligningen erstattes med en ikke-lineær parametrisk funktion, kaldes sådan en modelramme i vid udstrækning den ikke-lineære blandede effektmodel .

Normalitet

Antagelsen om normalitet angiver, at fejltermerne på alle niveauer i modellen er normalt fordelt. Imidlertid tillader de fleste statistiske software en at specificere forskellige distributioner for variansbetingelserne, såsom en Poisson, binomisk, logistisk. Multilevel -modelleringsmetoden kan bruges til alle former for generaliserede lineære modeller.

Homoscedasticitet

Antagelsen om homoscedasticitet , også kendt som varianshomogenitet, forudsætter ligestilling af befolkningsafvigelser. Imidlertid kan forskellige varians-korrelationsmatrix specificeres for at tage højde for dette, og variansens heterogenitet kan selv modelleres.

Uafhængighed af observationer

Uafhængighed er en antagelse om generelle lineære modeller, der siger, at sager er tilfældige prøver fra befolkningen, og at scoringer på den afhængige variabel er uafhængige af hinanden. Et af hovedformålene med modeller på flere niveauer er at håndtere tilfælde, hvor antagelsen om uafhængighed krænkes; multilevel -modeller antager dog, at 1) niveau 1 og niveau 2 rester er ukorrelerede og 2) Fejlene (målt af resterne) på det højeste niveau er ukorrelerede.

Statistiske test

Den type statistiske tests, der anvendes i modeller på flere niveauer, afhænger af, om man undersøger faste effekter eller varianskomponenter. Ved undersøgelse af faste effekter sammenlignes testene med standardfejlen for den faste effekt, hvilket resulterer i en Z-test . En t-test kan også beregnes. Når man beregner en t-test, er det vigtigt at huske på frihedsgrader, som vil afhænge af niveauet af forudsigeren (f.eks. Niveau 1-forudsigelse eller niveau 2-forudsigelse). For en niveau 1 -forudsiger er frihedsgrader baseret på antallet af niveau 1 -forudsigere, antallet af grupper og antallet af individuelle observationer. For en niveau 2 forudsigelse er frihedsgrader baseret på antallet af niveau 2 forudsigere og antallet af grupper.

Statistisk magt

Statistisk effekt for modeller på flere niveauer varierer afhængigt af, om det er niveau 1 eller niveau 2 effekter, der undersøges. Effekt for niveau 1 -effekter er afhængig af antallet af individuelle observationer, hvorimod effekten for niveau 2 -effekter er afhængig af antallet af grupper. For at udføre forskning med tilstrækkelig kraft kræves store stikprøvestørrelser i modeller på flere niveauer. Antallet af individuelle observationer i grupper er imidlertid ikke så vigtigt som antallet af grupper i en undersøgelse. For at opdage interaktioner på tværs af niveauer, da gruppestørrelserne ikke er for små, er der blevet anbefalet, at der er behov for mindst 20 grupper. Spørgsmålet om statistisk effekt i modeller på flere niveauer kompliceres af det faktum, at effekt varierer som en funktion af effektstørrelse og intraklassekorrelationer, det adskiller sig ved faste effekter versus tilfældige effekter, og det ændres afhængigt af antallet af grupper og antallet af individuelle observationer pr. gruppe.

Ansøgninger

Niveau

Begrebet niveau er nøglen til denne tilgang. I et eksempel på uddannelsesforskning kan niveauerne for en 2-niveau model være:

  1. elev
  2. klasse

Men hvis man studerede flere skoler og flere skoledistrikter, kan en model på fire niveauer være:

  1. elev
  2. klasse
  3. skole
  4. distrikt

Forskeren skal for hver variabel fastslå det niveau, den blev målt på. I dette eksempel kan "testscore" måles på elevniveau, "læreroplevelse" på klassetrin, "skolefinansiering" på skoleniveau og "urban" på distriktsniveau.

Eksempel

Som et enkelt eksempel kan du overveje en grundlæggende lineær regressionsmodel, der forudsiger indkomst som en funktion af alder, klasse, køn og race. Det kan derefter observeres, at indkomstniveauet også varierer afhængigt af byen og bopælsstaten. En enkel måde at indarbejde dette i regressionsmodellen ville være at tilføje en ekstra uafhængig kategorisk variabel til at redegøre for placeringen (dvs. et sæt yderligere binære forudsigere og tilhørende regressionskoefficienter, en pr. Placering). Dette ville have den effekt, at den gennemsnitlige indkomst flyttes op eller ned - men det ville f.eks. Stadig antage, at race og køn har en indvirkning på indkomsten overalt. I virkeligheden er det usandsynligt, at dette er tilfældet - forskellige lokale love, forskellige pensionistpolitikker, forskelle i racemæssige fordomme osv. Får sandsynligvis alle forudsigere til at have forskellige slags effekter i forskellige lokaliteter.

Med andre ord kan en simpel lineær regressionsmodel f.eks. Forudsige, at en given tilfældigt udtaget person i Seattle ville have en gennemsnitlig årlig indkomst $ 10.000 højere end en lignende person i Mobile, Alabama . Det vil imidlertid også for eksempel forudsige, at en hvid person kan have en gennemsnitlig indkomst $ 7.000 over en sort person, og en 65-årig kan have en indkomst $ 3.000 under en 45-årig, i begge tilfælde uanset Beliggenhed. En model på flere niveauer ville imidlertid muliggøre forskellige regressionskoefficienter for hver forudsigelse på hvert sted. I det væsentlige ville det antage, at mennesker på et givet sted har korrelerede indkomster genereret af et enkelt sæt regressionskoefficienter, mens folk på et andet sted har indkomster genereret af et andet sæt koefficienter. I mellemtiden antages koefficienterne selv at være korreleret og genereret ud fra et enkelt sæt hyperparametre . Yderligere niveauer er mulige: For eksempel kan mennesker grupperes efter byer og regressionskoefficienter på byniveau grupperet efter stat og koefficienter på statsniveau genereret fra et enkelt hyper-hyperparameter.

Multilevel -modeller er en underklasse af hierarkiske bayesiske modeller , som er generelle modeller med flere niveauer af tilfældige variabler og vilkårlige forhold mellem de forskellige variabler. Multilevel analyse er blevet udvidet til at omfatte modeller på flere niveauer strukturelle ligninger , latent klassemodeller på flere niveauer og andre mere generelle modeller.

Anvendelser

Multilevel -modeller er blevet brugt i uddannelsesforskning eller geografisk forskning til separat at estimere variationen mellem elever inden for den samme skole og variansen mellem skoler. I psykologiske anvendelser er de flere niveauer elementer i et instrument, enkeltpersoner og familier. I sociologiske anvendelser bruges multilevel -modeller til at undersøge personer indlejret i regioner eller lande. I organisationspsykologisk forskning skal data fra enkeltpersoner ofte indlejres i teams eller andre funktionelle enheder.

Forskellige kovariabler kan være relevante på forskellige niveauer. De kan bruges til langsgående undersøgelser, som med vækststudier, til at adskille ændringer inden for et individ og forskelle mellem individer.

Interaktioner på tværs af niveauer kan også have væsentlig interesse; for eksempel, når en hældning får lov til at variere tilfældigt, kan en niveau-2-forudsiger være inkluderet i hældningsformlen for niveau-1-kovariatet. For eksempel kan man estimere samspillet mellem race og kvarter, så et estimat af interaktionen mellem et individs egenskaber og konteksten.

Anvendelser til langsgående (gentagne målinger) data

Alternative måder at analysere hierarkiske data på

Der er flere alternative måder at analysere hierarkiske data på, selvom de fleste af dem har nogle problemer. For det første kan traditionelle statistiske teknikker bruges. Man kunne opdele større ordens variabler til individniveau og dermed foretage en analyse på dette individuelle niveau (f.eks. Tildele klassevariabler til individniveau). Problemet med denne fremgangsmåde er, at det ville krænke antagelsen om uafhængighed og dermed kunne være partisk for vores resultater. Dette er kendt som atomistisk fejlslutning. En anden måde at analysere dataene ved hjælp af traditionelle statistiske metoder er at aggregerer individuelle niveauvariabler til variabler af højere orden og derefter foretage en analyse på dette højere niveau. Problemet med denne tilgang er, at den kasserer al information inden for gruppen (fordi den tager gennemsnittet af de individuelle niveauvariabler). Så meget som 80–90% af variansen kunne spildes, og forholdet mellem aggregerede variabler er oppustet og dermed forvrænget. Dette er kendt som økologisk fejlslutning , og statistisk set resulterer denne type analyse i formindsket effekt ud over tab af information.

En anden måde at analysere hierarkiske data ville være gennem en tilfældig-koefficient-model. Denne model forudsætter, at hver gruppe har en anden regressionsmodel - med sin egen aflytning og hældning. Fordi der udtages prøver fra grupper, antager modellen, at aflytninger og skråninger også er tilfældigt udtaget fra en population af gruppeaflytninger og skråninger. Dette giver mulighed for en analyse, hvor man kan antage, at skråninger er faste, men aflytninger må variere. Dette giver imidlertid et problem, da individuelle komponenter er uafhængige, men gruppekomponenter er uafhængige mellem grupper, men afhængige inden for grupper. Dette giver også mulighed for en analyse, hvor skråningerne er tilfældige; korrelationerne mellem fejlbetingelserne (forstyrrelser) er imidlertid afhængige af værdierne på variablerne på individuelt niveau. Således er problemet med at bruge en tilfældig-koefficient-model for at analysere hierarkiske data, at det stadig ikke er muligt at inkorporere variabler i højere orden.

Fejlbetingelser

Multilevel -modeller har to fejltermer, som også kaldes forstyrrelser. De enkelte komponenter er alle uafhængige, men der er også gruppekomponenter, som er uafhængige mellem grupper, men korreleret inden for grupper. Varianskomponenter kan dog variere, da nogle grupper er mere homogene end andre.

Se også

Referencer

Yderligere læsning

eksterne links