Effektstørrelse - Effect size

I statistik er en effektstørrelse et tal, der måler styrken af ​​forholdet mellem to variabler i en population eller et prøvebaseret skøn over denne mængde. Det kan referere til værdien af ​​en statistik beregnet ud fra en stikprøve af data , værdien af ​​en parameter for en hypotetisk population eller ligningen, der operationaliserer, hvordan statistik eller parametre fører til effektstørrelsesværdien. Eksempler på effektstørrelser inkluderer korrelationen mellem to variabler, regressionskoefficienten i en regression, middelforskellen eller risikoen for, at en bestemt hændelse (f.eks. Et hjerteanfald) sker. Effekt størrelser supplere hypoteseprøvning , og spiller en vigtig rolle i el- analyser, prøvestørrelse planlægning, og i meta-analyser . Klyngen af ​​dataanalysemetoder vedrørende effektstørrelser omtales som estimationsstatistik .

Effektstørrelse er en væsentlig komponent ved vurdering af styrken af ​​et statistisk krav, og det er det første element (størrelse) i MAGIC -kriterierne . Den standardafvigelse af effekten størrelse er af afgørende betydning, da det viser, hvor meget usikkerhed indgår i målingen. En for stor standardafvigelse vil gøre målingen næsten meningsløs. I metaanalyse, hvor formålet er at kombinere flere effektstørrelser, bruges usikkerheden i effektstørrelsen til at veje effektstørrelser, så store undersøgelser betragtes som vigtigere end små undersøgelser. Usikkerheden i effektstørrelsen beregnes forskelligt for hver type effektstørrelse, men kræver generelt kun at kende undersøgelsens stikprøvestørrelse ( N ) eller antallet af observationer ( n ) i hver gruppe.

Rapportering af effektstørrelser eller estimater deraf (effektestimat [EE], estimat af effekt) betragtes som god praksis, når der præsenteres empiriske forskningsresultater på mange områder. Rapportering af effektstørrelser letter fortolkningen af ​​betydningen af ​​et forskningsresultat i modsætning til dets statistiske signifikans . Effektstørrelser er særlig fremtrædende inden for samfundsvidenskab og inden for medicinsk forskning (hvor behandlingseffektens størrelse er vigtig).

Effektstørrelser kan måles i relative eller absolutte termer. I relative effektstørrelser sammenlignes to grupper direkte med hinanden, som i oddsforhold og relative risici . For absolutte effektstørrelser angiver en større absolutværdi altid en stærkere effekt. Mange typer målinger kan udtrykkes som enten absolutte eller relative, og disse kan bruges sammen, fordi de formidler forskellige oplysninger. En fremtrædende taskforce i psykologiforskningssamfundet fremsatte følgende anbefaling:

Præsenter altid effektstørrelser for primære resultater ... Hvis måleenhederne er meningsfulde på et praktisk niveau (f.eks. Antal cigaretter, der ryges om dagen), foretrækker vi normalt et ikke -standardiseret mål (regressionskoefficient eller middelforskel) frem for et standardiseret mål ( r eller d ).

Oversigt

Befolkning og prøveeffektstørrelser

Som i statistisk estimering skelnes den sande effektstørrelse fra den observerede effektstørrelse, f.eks. For at måle risikoen for sygdom i en population (befolkningseffektstørrelsen) kan man måle risikoen inden for en stikprøve af denne population (prøveeffektstørrelsen) . Konventioner til beskrivelse af sande og observerede effektstørrelser følger standard statistisk praksis - en fælles fremgangsmåde er at bruge græske bogstaver som ρ [rho] til at betegne befolkningsparametre og latinske bogstaver som r for at betegne den tilsvarende statistik. Alternativt kan der placeres en "hat" over populationsparameteren for at betegne statistikken, fx med at være estimatet af parameteren .

Som i enhver statistisk indstilling estimeres effektstørrelser med samplingsfejl og kan være forudindtaget, medmindre den effektstørrelsesestimator, der bruges, er passende til den måde, hvorpå dataene blev udtaget, og den måde, hvorpå målingerne blev foretaget. Et eksempel på dette er publikationsbias , der opstår, når forskere kun rapporterer resultater, når de estimerede effektstørrelser er store eller er statistisk signifikante. Som et resultat, hvis mange forskere udfører undersøgelser med lav statistisk effekt, vil de rapporterede effektstørrelser tendens til at være større end de sande (befolkning) effekter, hvis nogen. Et andet eksempel, hvor effektstørrelser kan blive forvrænget, er i et forsøg med flere forsøg, hvor beregningen af ​​effektstørrelsen er baseret på det gennemsnitlige eller aggregerede svar på tværs af forsøgene.

Forhold til teststatistik

Prøvebaserede effektstørrelser adskiller sig fra teststatistikker, der bruges i hypotesetest, ved at de estimerer styrken (størrelsen) af for eksempel et tilsyneladende forhold, frem for at tildele et signifikansniveau , der afspejler, om størrelsen af ​​det observerede forhold kan skyldes til tilfældigheder. Effektstørrelsen bestemmer ikke direkte signifikansniveauet eller omvendt. I betragtning af en tilstrækkelig stor stikprøvestørrelse vil en ikke-null statistisk sammenligning altid vise et statistisk signifikant resultat, medmindre befolkningseffektstørrelsen er nøjagtig nul (og selv der vil den vise statistisk signifikans med hastigheden af ​​den anvendte type I-fejl). For eksempel er en prøve Pearson -korrelationskoefficient på 0,01 statistisk signifikant, hvis stikprøvestørrelsen er 1000. Kun rapportering af den signifikante p -værdi fra denne analyse kan være vildledende, hvis en korrelation på 0,01 er for lille til at være af interesse i en bestemt applikation.

Standardiserede og ustandardiserede effektstørrelser

Udtrykket effektstørrelse kan referere til et standardiseret måling af effekt (såsom r , Cohens d eller oddsforholdet ) eller til et ustandardiseret mål (f.eks. Forskellen mellem gruppemedier eller de ikke -standardiserede regressionskoefficienter). Standardiserede effektstørrelsesmål bruges typisk, når:

  • metrikene for variabler, der undersøges, har ikke iboende betydning (f.eks. en score på en personlighedstest på en vilkårlig skala),
  • resultater fra flere undersøgelser kombineres,
  • nogle eller alle undersøgelserne bruger forskellige skalaer, eller
  • det ønskes at formidle størrelsen af ​​en effekt i forhold til variationen i befolkningen.

I metaanalyser bruges standardiserede effektstørrelser som et fælles mål, der kan beregnes til forskellige undersøgelser og derefter kombineres til et samlet resumé.

Fortolkning

Om en effektstørrelse skal tolkes som lille, mellem eller stor, afhænger af dens indholdsmæssige kontekst og dens operationelle definition. Cohens konventionelle kriterier små , mellemstore eller store er nær allestedsnærværende på mange områder, selvom Cohen advarede:

"Udtrykkene 'lille', 'medium' og 'stor' er relative, ikke kun til hinanden, men til området for adfærdsvidenskab eller endnu mere specifikt til det specifikke indhold og den forskningsmetode, der anvendes i enhver given undersøgelse. .. I lyset af denne relativitet er der en vis risiko forbundet med at tilbyde konventionelle operationelle definitioner for disse udtryk til brug i magtanalyser i et så forskelligartet undersøgelsesområde som adfærdsvidenskab. Denne risiko accepteres ikke desto mindre i troen på, at mere er at vinde end tabt ved at levere en fælles konventionel referenceramme, som kun anbefales til brug, når der ikke er et bedre grundlag for at estimere ES -indekset. " (s.25)

I de to prøveopstillinger konkluderede Sawilowsky "Baseret på aktuelle forskningsresultater i den anvendte litteratur synes det passende at revidere tommelfingerreglerne for effektstørrelser", idet Cohens advarsler tages i betragtning og udvidede beskrivelserne til at omfatte meget små , meget store , og enorm . De samme de facto -standarder kunne udvikles for andre layouter.

Lenth noteret for en "medium" effektstørrelse, "vælger du det samme n uanset dit instruments nøjagtighed eller pålidelighed eller dine emners snæverhed eller mangfoldighed. Det er klart, at vigtige overvejelser ignoreres her. Forskere bør fortolke væsentlig betydning af deres resultater ved at forankre dem i en meningsfuld kontekst eller ved at kvantificere deres bidrag til viden, og Cohens effektstørrelsesbeskrivelser kan være nyttige som udgangspunkt. " På samme måde sagde en rapport fra en amerikansk uddannelsesafdeling, at "Den udbredte vilkårlige brug af Cohens generiske små, mellemstore og store effektstørrelsesværdier til at karakterisere effektstørrelser på domæner, som hans normative værdier ikke gælder for, er derfor ligeledes upassende og vildledende."

De foreslog, at "passende normer er dem, der er baseret på fordelinger af effektstørrelser for sammenlignelige udfaldsmål fra sammenlignelige indgreb, der er målrettet mod sammenlignelige prøver." Så hvis en undersøgelse inden for et felt, hvor de fleste interventioner er små, gav en lille effekt (efter Cohens kriterier), ville disse nye kriterier kalde det "stort". På et beslægtet punkt kan du se Abelsons paradoks og Sawilowskys paradoks.

Typer

Omkring 50 til 100 forskellige målinger af effektstørrelse kendes. Mange effektstørrelser af forskellige typer kan konverteres til andre typer, da mange anslår adskillelsen af ​​to fordelinger, så er matematisk relaterede. For eksempel kan en korrelationskoefficient konverteres til en Cohens d og omvendt.

Korrelationsfamilie: Effektstørrelser baseret på "varians forklaret"

Disse effektstørrelser estimerer mængden af ​​variansen inden for et eksperiment, der "forklares" eller "redegøres for" af eksperimentets model ( forklaret variation ).

Pearson r eller korrelationskoefficient

Pearsons korrelation , ofte betegnet r og introduceret af Karl Pearson , bruges i vid udstrækning som en effektstørrelse, når parrede kvantitative data er tilgængelige; for eksempel hvis man studerede forholdet mellem fødselsvægt og levetid. Korrelationskoefficienten kan også bruges, når dataene er binære. Pearsons r kan variere i størrelse fra -1 til 1, hvor -1 angiver en perfekt negativ lineær relation, 1 angiver en perfekt positiv lineær relation og 0 angiver ingen lineær relation mellem to variabler. Cohen giver følgende retningslinjer for samfundsvidenskab:

Effektstørrelse r
Lille 0,10
Medium 0,30
Stor 0,50
Bestemmelseskoefficient ( r 2 eller R 2 )

En beslægtet effektstørrelse er r 2 , den determinationskoefficienten (også omtalt som R 2 eller " r -squared") beregnet som kvadratet på Pearson korrelation r . I tilfælde af parrede data er dette et mål for andelen af ​​varians, der deles af de to variabler, og varierer fra 0 til 1. For eksempel med en r på 0,21 er bestemmelseskoefficienten 0,0441, hvilket betyder, at 4,4% af varians af begge variabler deles med den anden variabel. Den r 2 er altid positiv, så giver ikke retningen af korrelationen mellem de to variabler.

Eta-squared ( η 2 )

Eta-squared beskriver variansforholdet forklaret i den afhængige variabel af en forudsigelse, mens den kontrollerer for andre forudsigere, hvilket gør det analogt med r 2 . Eta-squared er en forudindtaget estimator af variansen forklaret af modellen i befolkningen (den estimerer kun effektstørrelsen i stikprøven). Dette skøn deler svagheden med r 2, at hver ekstra variabel automatisk vil øge værdien af ​​η 2 . Derudover måler den varians forklaret af prøven, ikke befolkningen, hvilket betyder, at den altid vil overvurdere effektstørrelsen, selvom bias bliver mindre, når prøven vokser sig større.

Omega-kvadrat (ω 2 )

En mindre forudindtaget estimator af variansen forklaret i befolkningen er ω 2

Denne formel af formlen er begrænset til analyse mellem emner med samme prøve størrelse i alle celler. Da det er mindre forudindtaget (selvom det ikke er upartisk), er ω 2 at foretrække frem for η 2 ; dog kan det være mere ubelejligt at beregne for komplekse analyser. En generaliseret form for estimatoren er blevet offentliggjort for mellem-emner og inden-fag-analyse, gentaget måling, blandet design og randomiserede blokdesignforsøg. Derudover er der offentliggjort metoder til beregning af delvis ω 2 for individuelle faktorer og kombinerede faktorer i designs med op til tre uafhængige variabler.

Cohens ƒ 2

Cohens ƒ 2 er en af ​​flere målinger af effektstørrelser, der skal bruges i forbindelse med en F-test for ANOVA eller multipel regression . Dens mængde bias (overvurdering af effekten størrelse for ANOVA) afhænger af forspændingen af dens underliggende måling af varians forklaret (for eksempel R 2 , n 2 , ω 2 ).

Den ƒ 2 effektstørrelse foranstaltning til multipel regression defineres som:

hvor R 2 er den kvadrerede multiple korrelation .

Ligeledes kan ƒ 2 defineres som:

eller
for modeller beskrevet af disse effektstørrelsesmål.

Den effekt størrelse foranstaltning til sekventiel multipel regression og også almindeligt PLS modellering defineres som:

hvor R 2 A er variansen forklares med et sæt af en eller flere uafhængige variable A , og R 2 AB er den kombinerede varians udgøres af A og et andet sæt af en eller flere uafhængige variabler af interesse B . Efter konventionen ƒ 2 effektstørrelser på , og betegnes som henholdsvis små , mellemstore og store .

Cohens kan også findes til faktoriel variansanalyse (ANOVA), der arbejder baglæns ved hjælp af:

På en afbalanceret design (ækvivalent prøvestørrelser tværs grupper) af ANOVA, den tilsvarende befolkning parameter sige

hvor μ j betegner befolkningen middelværdi i j th gruppe af de totale K -grupper, og o de tilsvarende population standardafvigelser indenfor hver gruppe. SS er summen af ​​firkanter i ANOVA.

Cohens q

Et andet mål, der bruges med korrelationsforskelle, er Cohens q. Dette er forskellen mellem to Fisher -transformerede Pearson -regressionskoefficienter. I symboler er dette

hvor r 1 og r 2 er regressionerne, der sammenlignes. Den forventede værdi af q er nul, og dens varians er

hvor N 1 og N 2 er antallet af datapunkter i henholdsvis den første og anden regression.

Forskelsfamilie: Effektstørrelser baseret på forskelle mellem midler

Råeffektstørrelsen vedrørende en sammenligning af to grupper beregnes i sagens natur som forskellene mellem de to midler. For at lette fortolkningen er det imidlertid almindeligt at standardisere effektstørrelsen; forskellige konventioner for statistisk standardisering præsenteres nedenfor.

Standardiseret middelforskel

Plots med gaussiske tætheder, der illustrerer forskellige værdier af Cohens d.

En (populations) effektstørrelse θ baseret på midler overvejer normalt den standardiserede middelforskel mellem to populationer

hvor μ 1 er middelværdien for en population, μ 2 er middelværdien for den anden population, og σ er en standardafvigelse baseret på en eller begge populationer.

I den praktiske indstilling kendes befolkningsværdierne typisk ikke og skal estimeres ud fra stikprøvestatistik. De flere versioner af effektstørrelser baseret på midler er forskellige med hensyn til hvilken statistik der bruges.

Denne formular for effektstørrelsen ligner beregningen for en t -teststatistik med den kritiske forskel, som t -teststatistikken indeholder en faktor på . Dette betyder, at signifikansniveauet for en given effektstørrelse stiger med stikprøvestørrelsen. I modsætning til t -test statistik, at de effekt størrelse mål estimere en befolkning parameter og er ikke påvirket af prøvens størrelse.

Cohens d

Cohens d defineres som forskellen mellem to midler divideret med en standardafvigelse for dataene, dvs.

Jacob Cohen definerede s , den samlede standardafvigelse , som (for to uafhængige prøver):

hvor variansen for en af ​​grupperne er defineret som

og tilsvarende for den anden gruppe.

Tabellen nedenfor indeholder deskriptorer for størrelser på d = 0,01 til 2,0, som oprindeligt foreslået af Cohen og udvidet af Sawilowsky.

Effektstørrelse d Reference
Meget lille 0,01
Lille 0,20
Medium 0,50
Stor 0,80
Meget store 1,20
Kæmpe stor 2.0

Andre forfattere vælger en lidt anden beregning af standardafvigelsen, når de henviser til "Cohens d ", hvor nævneren er uden "-2"

Denne definition af "Cohens d " betegnes den maksimale sandsynlighedsestimator af Hedges og Olkin, og den er relateret til Hedges ' g ved en skaleringsfaktor (se nedenfor).

Med to parrede prøver ser vi på fordelingen af ​​forskelscores. I så fald er s standardafvigelsen for denne fordeling af differensresultater. Dette skaber følgende forhold mellem t-statistikken for at teste for en forskel i middelværdien af ​​de to grupper og Cohens d :

og

Cohens d bruges ofte til at estimere stikprøvestørrelser til statistisk testning. En lavere Cohens d angiver nødvendigheden af ​​større stikprøvestørrelser og omvendt, som efterfølgende kan bestemmes sammen med de yderligere parametre for ønsket signifikansniveau og statistisk effekt .

For parrede prøver foreslår Cohen, at den beregnede d faktisk er en d ', hvilket ikke giver det korrekte svar for at opnå testens effekt, og at før værdierne slås op i de angivne tabeller, skal den korrigeres for r som i følgende formel:

Glas 'Δ

I 1976 foreslog Gene V. Glass en estimator af effektstørrelsen, der kun anvender standardafvigelsen for den anden gruppe

Den anden gruppe kan betragtes som en kontrolgruppe, og Glass hævdede, at hvis flere behandlinger blev sammenlignet med kontrolgruppen, ville det være bedre at bruge bare standardafvigelsen beregnet fra kontrolgruppen, så effektstørrelser ikke ville variere med lige store midler og forskellige afvigelser.

Under en korrekt antagelse om lige store befolkningsvariationer er et samlet estimat for σ mere præcist.

Hække ' g

Hedges ' g , foreslået af Larry Hedges i 1981, er som de andre foranstaltninger baseret på en standardiseret forskel

hvor den samlede standardafvigelse beregnes som:

Som en estimator for befolkningseffektstørrelsen θ er den imidlertid forudindtaget . Ikke desto mindre kan denne bias omtrent korrigeres gennem multiplikation med en faktor

Hedges og Olkin omtaler denne mindre forudindtatte estimator som d , men det er ikke det samme som Cohens d . Den nøjagtige form for korrektionsfaktoren J () involverer gammafunktionen

Ψ, rod-middel-kvadrat standardiseret effekt

En lignende effektstørrelsesestimator til flere sammenligninger (f.eks. ANOVA ) er Ψ rod-middel-kvadrat-standardiseret effekt. Dette præsenterer i det væsentlige omnibusforskellen for hele modellen justeret af rodgennemsnittet, analog med d eller g . Den enkleste formel for Ψ, der er egnet til envejs ANOVA, er

Derudover er der givet en generalisering for multifaktorielle designs.

Fordeling af effektstørrelser baseret på midler

Forudsat at data er Gaussisk fordelt en skaleret Hedges' g , følger en ikke-central t -fordeling med noncentrality parameter og ( n 1  +  n 2  - 2) frihedsgrader. På samme måde er det skalerede glas 'Δ fordelt med n 2  - 1 frihedsgrader.

Fra fordelingen er det muligt at beregne forventning og varians for effektstørrelserne.

I nogle tilfælde anvendes store stikprøver tilnærmelser til variansen. Et forslag til variansen af ​​Hedges 'objektive estimator er

Andre målinger

Mahalanobis distance (D) er en multivariat generalisering af Cohens d, som tager hensyn til forholdet mellem variablerne.

Kategorisk familie: Effektstørrelser for associationer mellem kategoriske variabler

  

  

Phi ( φ ) Cramér's V ( φ c )

Almindeligt anvendte associeringsmål for chi-squared-testen er Phi-koefficienten og Cramér 's V (undertiden omtalt som Cramér's phi og betegnet som φ c ). Phi er relateret til den punkt-biserielle korrelationskoefficient og Cohns d og estimerer omfanget af forholdet mellem to variabler (2 × 2). Cramér's V kan bruges med variabler, der har mere end to niveauer.

Phi kan beregnes ved at finde kvadratroden af ​​chi-kvadrerede statistik divideret med stikprøvestørrelsen.

På samme måde beregnes Cramérs V ved at tage kvadratroden af ​​den chi-kvadratiske statistik divideret med stikprøvestørrelsen og længden af ​​minimumsdimensionen ( k er den mindste af antallet af rækker r eller kolonner  c ).

φ c er interkorrelationen mellem de to diskrete variabler og kan beregnes for enhver værdi på r eller c . Da chi-kvadratiske værdier imidlertid har en tendens til at stige med antallet af celler, jo større forskel mellem r og c , desto mere sandsynligt vil V have en tendens til 1 uden stærke tegn på en meningsfuld sammenhæng.

Cramérs V kan også anvendes på chi-squared-modeller med god pasform (dvs. dem, hvor c  = 1). I dette tilfælde fungerer det som et mål for tendens til et enkelt resultat (dvs. ud af k -resultater). I så må tilfælde man anvende r til k , for at bevare den fra 0 til 1 vifte af  V . Ellers ville brugen af c reducere ligningen til den for Phi.

Cohens m

Et andet mål for effektstørrelse, der bruges til chi-squared-test, er Cohens w . Dette er defineret som

hvor p 0 i er værdien af den i th celle under H 0 , p 1 i er værdien af den i th cellen under H 1 og m er antallet af celler.

Effektstørrelse w
Lille 0,10
Medium 0,30
Stor 0,50

Odds -forhold

Den odds ratio (OR) er et andet nyttigt effekt størrelse. Det er passende, når forskningsspørgsmålet fokuserer på graden af ​​sammenhæng mellem to binære variabler. Overvej for eksempel en undersøgelse af staveevne. I en kontrolgruppe passerer to elever klassen for hver, der fejler, så oddsene for at bestå er to til en (eller 2/1 = 2). I behandlingsgruppen passerer seks elever for hver, der fejler, så oddsene for at bestå er seks til en (eller 6/1 = 6). Effektstørrelsen kan beregnes ved at bemærke, at chancerne for at passere i behandlingsgruppen er tre gange højere end i kontrolgruppen (fordi 6 divideret med 2 er 3). Derfor er oddsforholdet 3. Oddsforholdsstatistikken er på en anden skala end Cohens d , så denne '3' kan ikke sammenlignes med en Cohens d på 3.

Relativ risiko

Den relative risiko (RR), også kaldet risikoforhold, er simpelthen risikoen (sandsynligheden) for en begivenhed i forhold til en uafhængig variabel. Dette mål for effektstørrelse adskiller sig fra oddsforholdet ved, at det sammenligner sandsynligheder i stedet for odds , men nærmer sig asymptotisk sidstnævnte for små sandsynligheder. Ved hjælp af eksemplet ovenfor er sandsynlighederne for dem i kontrolgruppen og behandlingsgruppen, der passerer, henholdsvis 2/3 (eller 0,67) og 6/7 (eller 0,86). Effektstørrelsen kan beregnes på samme måde som ovenfor, men i stedet bruges sandsynlighederne. Derfor er den relative risiko 1,28. Da der blev brugt ret store sandsynligheder for bestået, er der stor forskel mellem relativ risiko og oddsforhold. Havde fejl (en mindre sandsynlighed) været brugt som hændelsen (frem for at passere ), ville forskellen mellem de to mål for effektstørrelse ikke være så stor.

Selvom begge foranstaltninger er nyttige, har de forskellige statistiske anvendelser. I medicinsk forskning bruges oddsforholdet sædvanligvis til case-control undersøgelser , da odds, men ikke sandsynligheder, normalt anslås. Relativ risiko bruges ofte i randomiserede kontrollerede forsøg og kohorteundersøgelser , men relativ risiko bidrager til overvurderinger af effektiviteten af ​​interventioner.

Risiko forskel

Den risiko forskel (RD), også kaldet absolutte risikoreduktion, er simpelthen forskellen i risiko (sandsynlighed) af en begivenhed mellem to grupper. Det er et nyttigt mål i eksperimentel forskning, da RD fortæller dig, i hvilket omfang en eksperimentel intervention ændrer sandsynligheden for en hændelse eller et resultat. Ved hjælp af ovenstående eksempel er sandsynlighederne for dem i kontrolgruppen og behandlingsgruppen, der passerer, henholdsvis 2/3 (eller 0,67) og 6/7 (eller 0,86), og derfor er størrelsen på RD -effekten 0,86 - 0,67 = 0,19 (eller 19%). RD er det overlegne mål for vurdering af interventioners effektivitet.

Cohens h

Et mål anvendt i effektanalyse ved sammenligning af to uafhængige proportioner er Cohens  h . Dette er defineret som følger

hvor p 1 og p 2 er andelen af ​​de to prøver, der sammenlignes, og arcsin er arcsines transformation.

Fælles sprogeffektstørrelse

For lettere at beskrive betydningen af ​​en effektstørrelse, for folk uden for statistik, var den almindelige sprogeffektstørrelse, som navnet antyder, designet til at kommunikere den på almindeligt engelsk. Den bruges til at beskrive en forskel mellem to grupper og blev foreslået, samt navngivet, af Kenneth McGraw og SP Wong i 1992. De brugte følgende eksempel (om mænd og kvinders højder): "i enhver tilfældig parring af unge voksne hanner og hunner, sandsynligheden for, at hannen er højere end hunnen, er .92, eller i enklere vendinger endnu, i 92 ud af 100 blind date blandt unge voksne, vil hannen være højere end hunnen ", når man beskriver befolkningsværdien af den almindelige sprogeffektstørrelse.

Befolkningsværdien for den almindelige sprogeffektstørrelse rapporteres ofte på denne måde i form af par, der er tilfældigt valgt blandt befolkningen. Kerby (2014) bemærker, at et par , defineret som en score i en gruppe parret med en score i en anden gruppe, er et kernebegreb om den fælles sprogeffektstørrelse.

Som et andet eksempel kan du overveje en videnskabelig undersøgelse (måske af en behandling for en kronisk sygdom, såsom gigt) med ti personer i behandlingsgruppen og ti personer i en kontrolgruppe. Hvis alle i behandlingsgruppen sammenlignes med alle i kontrolgruppen, så er der (10 × 10 =) 100 par. I slutningen af ​​undersøgelsen bedømmes resultatet til en score for hver enkelt person (f.eks. På en skala af mobilitet og smerte, i tilfælde af et gigtstudie), og derefter sammenlignes alle scoringer mellem parene. Resultatet, som procentdelen af ​​par, der understøtter hypotesen, er den almindelige sprogeffektstørrelse. I eksempelstudiet kan det være (lad os sige) .80, hvis 80 ud af de 100 sammenligningspar viser et bedre resultat for behandlingsgruppen end kontrolgruppen, og rapporten kan lyde som følger: "Når en patient i behandlingen gruppe blev sammenlignet med en patient i kontrolgruppen, i 80 af 100 par viste den behandlede patient et bedre behandlingsresultat. " Prøveværdien, for eksempel i en undersøgelse som denne, er en upartisk estimator af befolkningsværdien.

Vargha og Delaney generaliserede den almindelige sprogeffektstørrelse (Vargha-Delaney A ) for at dække data på ordinært niveau.

Rang-biserial korrelation

En effektstørrelse relateret til den almindelige sprogeffektstørrelse er den rang-biseriale korrelation. Denne foranstaltning blev indført af Cureton som en effektstørrelse for Mann -Whitney U -testen . Det vil sige, at der er to grupper, og score for grupperne er blevet konverteret til rækker. Kerby simple differensformlen beregner den rang-biseriale korrelation ud fra den almindelige sprogeffektstørrelse. Lad f være andelen af ​​par, der er gunstige for hypotesen (størrelsen på det almindelige sprog), og lad dig være andelen af ​​par, der ikke er gunstige, er rank-biserial r den simple forskel mellem de to proportioner:  r  =  f  -  u . Med andre ord er sammenhængen forskellen mellem den fælles sprogeffektstørrelse og dens komplement. For eksempel, hvis den almindelige sprogeffektstørrelse er 60%, er rangeringen biserial r lig med 60%minus 40%eller  r  = 0,20. Kerby -formlen er retningsbestemt, med positive værdier, der angiver, at resultaterne understøtter hypotesen.

En ikke-retningsbestemt formel for rang-biserial korrelation blev leveret af Wendt, således at korrelationen altid er positiv. Fordelen ved Wendt -formlen er, at den kan beregnes med oplysninger, der er let tilgængelige i publicerede papirer. Formlen anvender kun testværdien af ​​U fra Mann-Whitney U-testen og prøvestørrelserne for de to grupper: r  = 1-(2 U )/( n 1  n 2 ). Bemærk, at U er defineret her i henhold til den klassiske definition som den mindste af de to U -værdier, der kan beregnes ud fra dataene. Dette sikrer, at 2 U  <  n 1 n 2 , da n 1 n 2 er den maksimale værdi af U -statistikken .

Et eksempel kan illustrere brugen af ​​de to formler. Overvej en sundhedsundersøgelse af tyve ældre voksne, med ti i behandlingsgruppen og ti i kontrolgruppen; derfor er der ti gange ti eller 100 par. Sundhedsprogrammet bruger kost, motion og kosttilskud til at forbedre hukommelsen, og hukommelsen måles ved en standardiseret test. En Mann-Whitney U- test viser, at den voksne i behandlingsgruppen havde den bedre hukommelse i 70 af de 100 par og den dårligere hukommelse i 30 par. Mann-Whitney U er den mindste på 70 og 30, så U = 30. Korrelationen mellem hukommelse og behandlingsydelse ved Kerby simple forskelsformel er r  = (70/100)-(30/100) = 0,40. Korrelationen ved Wendt -formlen er r  = 1 - (2 · 30)/(10 · 10) = 0,40.

Effektstørrelse for ordinære data

Cliffs delta eller , oprindeligt udviklet af Norman Cliff til brug med ordinære data, er et mål for, hvor ofte værdierne i en distribution er større end værdierne i en anden distribution. Det afgørende er, at det ikke kræver nogen antagelser om formen eller spredningen af ​​de to fordelinger.

Prøveoverslaget er givet ved:

hvor de to fordelinger er af størrelse og med varer og henholdsvis og er Iverson -beslaget , som er 1 når indholdet er sandt og 0 når det er forkert.

er lineært relateret til Mann -Whitney U -statistikken ; den fanger imidlertid retningen af ​​forskellen i sit tegn. I betragtning af Mann-Whitney , er:

Konfidensintervaller ved hjælp af noncentralitetsparametre

Konfidensintervaller for standardiserede effektstørrelser, især Cohens og , er afhængige af beregning af konfidensintervaller for noncentralitetsparametre ( ncp ). En almindelig tilgang til at konstruere konfidensintervallet for ncp er at finde de kritiske ncp -værdier, der passer til den observerede statistik til halekvantiler α /2 og (1 -  α /2). SAS- og R-pakken MBESS indeholder funktioner til at finde kritiske værdier for ncp .

t -test for middelforskel for en enkelt gruppe eller to beslægtede grupper

For en enkelt gruppe betegner M prøveeksemplaret, μ populationsgennemsnittet, SD prøvens standardafvigelse, σ befolkningens standardafvigelse, og n er gruppens stikprøvestørrelse. Den t værdi bruges til at teste hypotesen om forskellen mellem middelværdien og en basislinie  μ baseline . Normalt er μ baseline nul. I tilfælde af to beslægtede grupper konstrueres den enkelte gruppe af forskellene i par prøver, mens SD og σ betegner prøvens og befolkningens standardafvigelser af forskelle snarere end inden for de oprindelige to grupper.

og Cohens

er pointestimatet på

Så,

t -test for middelforskel mellem to uafhængige grupper

n 1 eller n 2 er de respektive prøvestørrelser.

hvor

og Cohens

er pointestimatet på

Så,

Envejs ANOVA-test for middelforskel på tværs af flere uafhængige grupper

Envejs ANOVA-test anvender noncentral F-distribution . Selv med en given populationsstandardafvigelse gælder det samme testspørgsmål ikke-central chi-kvadratfordeling .

For hver j -t prøve i i -gruppe X betegner i , j

Mens,

Så både ncp ( s ) af F og sidestiller

I tilfælde af for K uafhængige grupper af samme størrelse, den samlede stikprøve er N  : =  n · K .

Den t -test for et par uafhængige grupper er et særligt tilfælde af envejs ANOVA. Bemærk, at ikke -centralitetsparameteren for F ikke kan sammenlignes med ikke -centralitetsparameteren for den tilsvarende t . Faktisk , og .

Se også

Referencer

Yderligere læsning

eksterne links

Yderligere forklaringer