Testens kraft - Power of a test

Den statistiske effekt af en binær hypotesetest er sandsynligheden for, at testen korrekt afviser nulhypotesen ( ), når en specifik alternativ hypotese ( ) er sand. Det betegnes almindeligvis med , og repræsenterer chancerne for en "sand positiv" detektion betinget af den faktiske eksistens af en effekt, der skal detekteres. Statistisk effekt spænder fra 0 til 1, og efterhånden som en test øges, falder sandsynligheden for at lave en type II -fejl ved forkert at forkaste nulhypotesen.

Notation

Denne artikel bruger følgende notation

  • β = sandsynlighed for en type II -fejl, kendt som en "falsk negativ"
  • 1-β = sandsynlighed for en "sand positiv", dvs. korrekt afvisning af nulhypotesen. "1-β" er også kendt som testens kraft.
  • α = sandsynlighed for en type I -fejl, kendt som en "falsk positiv"
  • 1-α = sandsynlighed for et "sandt negativt", dvs. korrekt afvisning af nulhypotesen

Beskrivelse

For en type II fejlsandsynlighed for β er den tilsvarende statistiske effekt 1 -  β . For eksempel, hvis eksperiment E har en statistisk effekt på 0,7, og eksperiment F har en statistisk effekt på 0,95, så er der en større sandsynlighed for, at forsøg E havde en type II -fejl end eksperiment F. Dette reducerer forsøg E's følsomhed for at detektere signifikante effekter . Forsøg E er imidlertid derfor mere pålideligt end forsøg F på grund af dets lavere sandsynlighed for en type I -fejl. Det kan tilsvarende betragtes som sandsynligheden for at acceptere den alternative hypotese ( ), når den er sand - det vil sige en tests evne til at opdage en bestemt effekt, hvis den specifikke virkning faktisk eksisterer. Dermed,

Hvis det ikke er en ligestilling, men ganske enkelt negationen af (så f.eks. For en enkelt ikke -observeret befolkningsparameter, vi simpelthen har ), kan strøm ikke beregnes, medmindre sandsynligheder er kendt for alle mulige værdier af parameteren, der overtræder nulhypotesen. Således refererer man generelt til en tests magt mod en specifik alternativ hypotese .

Når effekten øges, er der en faldende sandsynlighed for en type II -fejl, også kaldet den falske negative hastighed ( β ), da effekten er lig med 1 -  β . Et lignende koncept er type I fejlsandsynligheden, også omtalt som den falske positive rate eller niveauet af en test under nulhypotesen.

I forbindelse med binær klassificering kaldes en tests kraft dens statistiske følsomhed , dens sande positive hastighed eller dens sandsynlighed for påvisning .

Effektanalyse

Et beslægtet begreb er "effektanalyse". Magt analyse kan anvendes til at beregne mindste prøvestørrelse påkrævet, så at man kan være rimelig sandsynlighed for at detektere en virkning af en given størrelse . For eksempel: "Hvor mange gange skal jeg kaste en mønt for at konkludere, at den er rigget med et bestemt beløb?" Effektanalyse kan også bruges til at beregne den minimale effektstørrelse, der sandsynligvis vil blive opdaget i en undersøgelse ved hjælp af en given stikprøvestørrelse. Derudover bruges begrebet magt til at foretage sammenligninger mellem forskellige statistiske testprocedurer: for eksempel mellem en parametrisk test og en ikke -parametrisk test af den samme hypotese.

Baggrund

Statistiske tests bruger data fra prøver til at vurdere eller foretage konklusioner om en statistisk population . I den konkrete indstilling af en sammenligning på to prøver er målet at vurdere, om middelværdierne for nogle attributter opnået for individer i to underpopulationer er forskellige. For eksempel, for at teste nul-hypotesen, at de gennemsnitlige scoringer af mænd og kvinder på en test adskiller sig ikke, prøver af mænd og kvinder er tegnet, er testen gives til dem, og den gennemsnitlige score på en gruppe sammenlignet med den anden gruppe ved hjælp af en statistisk test, såsom z -testen med to prøver . Testens magt er sandsynligheden for, at testen finder en statistisk signifikant forskel mellem mænd og kvinder som en funktion af størrelsen af ​​den sande forskel mellem de to populationer.

Faktorer, der påvirker magten

Statistisk magt kan afhænge af en række faktorer. Nogle faktorer kan være særlige for en bestemt testsituation, men i det mindste afhænger strøm næsten altid af følgende tre faktorer:

Et signifikansekriterium er en erklæring om, hvor usandsynligt et positivt resultat skal være, hvis nulhypotesen om ingen virkning er sand, for at nulhypotesen afvises. De mest almindeligt anvendte kriterier er sandsynligheder på 0,05 (5%, 1 ud af 20), 0,01 (1%, 1 ud af 100) og 0,001 (0,1%, 1 ud af 1000). Hvis kriteriet er 0,05, skal sandsynligheden for, at dataene indebærer en effekt, der er mindst lige så stor som den observerede effekt, når nulhypotesen er sand, være mindre end 0,05, for at nulhypotesen om ingen effekt kan afvises. En let måde at øge effekten af ​​en test på er at udføre en mindre konservativ test ved at bruge et større signifikansekriterium, for eksempel 0,10 i stedet for 0,05. Dette øger chancen for at afvise nulhypotesen (opnå et statistisk signifikant resultat), når nulhypotesen er falsk; det vil sige, det reducerer risikoen for en type II -fejl (falsk negativ vedrørende, om der findes en effekt). Men det øger også risikoen for at opnå et statistisk signifikant resultat (afvisning af nulhypotesen), når nulhypotesen ikke er falsk; det vil sige, det øger risikoen for en type I -fejl (falsk positiv).

Den størrelsen af effekten af interesse i befolkningen kan kvantificeres i form af en effekt størrelse , hvor der er større magt til at opdage større effekter. En effektstørrelse kan være en direkte værdi af mængden af ​​interesse, eller det kan være et standardiseret mål, der også tegner sig for variationen i befolkningen. For eksempel i en analyse, der sammenligner resultater i en behandlet og kontrolpopulation, ville forskellen i resultatmidler være et direkte skøn over effektstørrelsen, hvorimod det ville være en estimeret standardiseret effektstørrelse, hvor er den almindelige standardafvigelse af resultaterne i behandlede og kontrolgrupper. Hvis den er konstrueret korrekt, vil en standardiseret effektstørrelse sammen med stikprøvestørrelsen helt bestemme effekten. En ustandardiseret (direkte) effektstørrelse er sjældent tilstrækkelig til at bestemme effekten, da den ikke indeholder oplysninger om variationen i målingerne.

Et eksempel på, hvordan prøvestørrelse påvirker effektniveauer

Den prøvestørrelse bestemmer mængden af prøveudtagning fejl forbundet med et testresultat. Alt andet lige er effekter sværere at opdage i mindre prøver. Forøgelse af prøvestørrelse er ofte den nemmeste måde at øge den statistiske effekt af en test på. Hvordan øget prøvestørrelse oversætter til højere effekt er et mål for testens effektivitet - for eksempel den prøve størrelse, der kræves for en given effekt.

Præcisionen, hvormed dataene måles, påvirker også den statistiske effekt. Derfor kan effekten ofte forbedres ved at reducere målefejlen i dataene. Et beslægtet koncept er at forbedre "pålideligheden" af det mål, der vurderes (som i psykometrisk pålidelighed ).

Den udformning af et forsøg eller observationsstudie ofte påvirker magt. For eksempel er det i en testprøvningssituation med to prøver med en given samlet stikprøvestørrelse n optimalt at have lige mange observationer fra de to populationer, der sammenlignes (så længe afvigelserne i de to populationer er de samme). I regressionsanalyse og variansanalyse er der omfattende teorier og praktiske strategier til forbedring af effekten baseret på optimalt at sætte værdierne for de uafhængige variabler i modellen.

Fortolkning

Selvom der ikke er nogen formelle standarder for strøm (nogle gange omtalt som π ), vurderer de fleste forskere kraften i deres test ved hjælp af π  = 0,80 som en standard for tilstrækkelighed. Denne konvention indebærer en fire -til -en afvejning mellem β -risiko og α -risiko. ( β er sandsynligheden for en type II -fejl, og α er sandsynligheden for en type I -fejl; 0,2 og 0,05 er konventionelle værdier for β og α ). Der vil dog være tidspunkter, hvor denne 4-til-1 vægtning er upassende. Inden for eksempel medicin er tests ofte designet på en sådan måde, at der ikke vil blive frembragt falske negativer (type II -fejl). Men dette øger uundgåeligt risikoen for at få et falsk positivt (en type I -fejl). Begrundelsen er, at det er bedre at fortælle en sund patient "vi har måske fundet noget - lad os teste videre", end at fortælle en syg patient "alt er godt."

Effektanalyse er passende, når bekymringen er med den korrekte afvisning af en falsk nulhypotese. I mange sammenhænge handler spørgsmålet mindre om at afgøre, om der er en forskel eller ikke, men snarere om at få et mere raffineret skøn over befolkningseffektstørrelsen. For eksempel, hvis vi havde forventet en befolkning sammenhæng mellem intelligens og arbejdsindsats på omkring 0,50, vil en stikprøve på 20 give os ca. 80% effekt ( α  = 0,05, to-tail) at afvise nulhypotesen på nul korrelation. Men ved at udføre denne undersøgelse er vi sandsynligvis mere interesserede i at vide, om korrelationen er 0,30 eller 0,60 eller 0,50. I denne sammenhæng ville vi have brug for en meget større stikprøvestørrelse for at reducere konfidensintervallet for vores estimat til et område, der er acceptabelt til vores formål. Teknikker, der ligner dem, der anvendes i en traditionel effektanalyse, kan bruges til at bestemme den prøvestørrelse, der kræves for, at bredden af ​​et konfidensinterval skal være mindre end en given værdi.

Mange statistiske analyser involverer estimering af flere ukendte størrelser. I enkle tilfælde er alle på nær en af ​​disse mængder generende parametre . I denne indstilling vedrører den eneste relevante effekt den enkelte mængde, der vil undergå formel statistisk inferens. I nogle indstillinger, især hvis målene er mere "undersøgende", kan der være en række mængder af interesse i analysen. For eksempel kan vi i en multiple regressionsanalyse inkludere flere kovariater af potentiel interesse. I situationer som denne, hvor flere hypoteser er under overvejelse, er det almindeligt, at de beføjelser, der er forbundet med de forskellige hypoteser, er forskellige. For eksempel i multipel regressionsanalyse er effekten til at detektere en effekt af en given størrelse relateret til variansen af ​​kovariatet. Da forskellige kovariater vil have forskellige afvigelser, vil deres kræfter også variere.

Enhver statistisk analyse, der involverer flere hypoteser, er genstand for inflation af type I -fejlprocenten, hvis der ikke træffes passende foranstaltninger. Sådanne foranstaltninger indebærer typisk anvendelse af en højere stringens for at afvise en hypotese for at kompensere for de mange sammenligninger, der foretages ( f.eks. Som ved Bonferroni -metoden ). I denne situation bør effektanalysen afspejle den multiple testmetode, der skal bruges. Således kan for eksempel en given undersøgelse være godt drevet til at detektere en bestemt effektstørrelse, når der kun skal foretages én test, men den samme effektstørrelse kan have meget lavere effekt, hvis der skal udføres flere tests.

Det er også vigtigt at overveje den statistiske effekt af en hypotesetest, når dens resultater fortolkes. En tests magt er sandsynligheden for korrekt at afvise nulhypotesen, når den er falsk; en tests effekt påvirkes af valget af signifikansniveau for testen, størrelsen af ​​den effekt, der måles, og mængden af ​​tilgængelige data. En hypotesetest kan muligvis ikke afvise nullet, for eksempel hvis der er en sand forskel mellem to populationer, der sammenlignes med en t-test, men effekten er lille, og stikprøvestørrelsen er for lille til at skelne effekten fra tilfældig tilfældighed. Mange kliniske forsøg har f.eks. Lav statistisk evne til at påvise forskelle i uønskede virkninger af behandlinger, da sådanne effekter kan være sjældne og antallet af berørte patienter lille.

A priori vs post hoc analyse

Effektanalyse kan enten foretages før ( a priori eller prospektiv effektanalyse) eller efter ( post hoc eller retrospektiv effektanalyse) data er indsamlet. En forudgående effektanalyse udføres forud for forskningsundersøgelsen og bruges typisk til at estimere tilstrækkelige stikprøver til at opnå tilstrækkelig effekt. Post-hoc analyse af "observeret effekt" udføres efter at en undersøgelse er afsluttet, og bruger den opnåede prøvestørrelse og effektstørrelse til at bestemme, hvad effekten var i undersøgelsen, forudsat at effektstørrelsen i prøven er lig med effektstørrelsen i befolkningen. Mens nytten af ​​potentiel effektanalyse i eksperimentelt design er universelt accepteret, er post hoc -effektanalyser grundlæggende fejlbehæftede. At falde for fristelsen til at bruge den statistiske analyse af de indsamlede data til at estimere effekten vil resultere i uinformative og vildledende værdier. Især er det blevet vist, at post-hoc "observeret effekt" er en en-til-en funktion af den opnåede p- værdi . Dette er blevet udvidet for at vise, at alle post-hoc -magtanalyser lider under det, der kaldes "power approach paradox" (PAP), hvor en undersøgelse med et nulresultat menes at vise flere beviser for, at nulhypotesen faktisk er sand, når den p -værdien er mindre, da den tilsyneladende effekt til at detektere en faktisk virkning ville være højere. Faktisk forstås en mindre p -værdi korrekt for at gøre nulhypotesen relativt mindre tilbøjelig til at være sand.

Ansøgning

Finansieringsbureauer, etiske bestyrelser og forskningsanalysepaneler anmoder ofte om, at en forsker udfører en effektanalyse, for eksempel for at bestemme det mindste antal dyrestestemner, der er nødvendige for, at et eksperiment er informativt. I frekvensstatistik er det usandsynligt, at en undersøgelse, der er underdreven, kan vælge mellem hypoteser på det ønskede signifikansniveau. I bayesiansk statistik udføres hypotesetestning af den type, der anvendes i klassisk effektanalyse. I de bayesiske rammer opdaterer man sine tidligere overbevisninger ved hjælp af dataene opnået i en given undersøgelse. I princippet kunne en undersøgelse, der ville betragtes som underbeføjet ud fra hypotesetestning, stadig bruges i en sådan opdateringsproces. Imidlertid er magt stadig et nyttigt mål for, hvor meget en given eksperimentstørrelse kan forventes at forfine ens tro. En undersøgelse med lav effekt vil sandsynligvis ikke føre til en stor ændring i troen.

Eksempel

Følgende er et eksempel, der viser, hvordan man beregner strøm til et randomiseret eksperiment: Antag, at målet med et eksperiment er at studere effekten af ​​en behandling på en vis mængde og sammenligne forskningsemner ved at måle mængden før og efter behandlingen, analysere data ved hjælp af en parret t-test . Lad og betegn henholdsvis forbehandlings- og efterbehandlingsforanstaltninger på emnet . Den mulige effekt af behandlingen bør være synlig i de forskelle, der antages at være uafhængigt fordelt, alle med samme forventede middelværdi og varians.

Behandlingens effekt kan analyseres ved hjælp af en ensidig t-test. Nul hypotesen om ingen effekt vil være, at den gennemsnitlige forskel vil være nul, dvs. i dette tilfælde, den alternative hypotese angiver en positiv effekt, der svarer til den teststørrelse er:

hvor

n er stikprøvestørrelsen og er standardfejlen. Teststatistikken under nulhypotesen følger en Student t-distribution med den yderligere antagelse, at dataene er identisk fordelt . Antag endvidere, at nulhypotesen vil blive afvist på signifikansniveauet for Da n er stor, kan man tilnærme t-fordelingen med en normalfordeling og beregne den kritiske værdi ved hjælp af den kvantile funktion , inversen af ​​den kumulative fordelingsfunktion for Normal fordeling. Det viser sig, at nulhypotesen vil blive afvist hvis

Antag nu, at den alternative hypotese er sand og . Så er strømmen

For store n , omtrent følger en standard normalfordeling når den alternative hypotese er sand, kan den omtrentlige magt beregnes som

Ifølge denne formel øges effekten med parameterværdierne For en specifik værdi af en højere effekt kan opnås ved at øge prøvestørrelsen n .

Det er ikke muligt at garantere en tilstrækkelig stor effekt til alle værdier på, som kan være meget tæt på 0. Den mindste ( infimum ) værdi af effekten er lig med testens konfidensniveau, i dette eksempel 0,05. Det er imidlertid uden betydning at skelne mellem og små positive værdier. Hvis det er ønskeligt at have nok strøm, f.eks. Mindst 0,90, til at detektere værdier af den nødvendige prøve størrelse kan beregnes cirka:

hvoraf det følger det

Derfor ved hjælp af den kvantile funktion

hvor er en standard normal kvantil; se Probit- artiklen for en forklaring af forholdet mellem og z-værdier.

Udvidelse

Bayesisk magt

I frekvensindstillingen antages parametre at have en specifik værdi, som sandsynligvis ikke er sand. Dette problem kan løses ved at antage, at parameteren har en distribution. Den resulterende effekt kaldes undertiden Bayesiansk magt, som almindeligvis bruges i design af kliniske forsøg .

Forudsigelig sandsynlighed for succes

Både frequentistmagt og bayesisk magt bruger statistisk signifikans som succeskriteriet. Imidlertid er statistisk signifikans ofte ikke nok til at definere succes. For at løse dette problem kan magtbegrebet udvides til begrebet forudsigelig sandsynlighed for succes (PPOS). Succeskriteriet for PPOS er ikke begrænset til statistisk signifikans og bruges ofte i design af kliniske forsøg .

Software til beregning af effekt og prøve størrelse

Talrige gratis og/eller open source -programmer er tilgængelige til at udføre strøm- og stikprøveberegninger. Disse omfatter

  • G*Power ( https://www.gpower.hhu.de/ )
  • WebPower Gratis online statistisk effektanalyse ( https://webpower.psychstat.org )
  • Gratis og open source online regnemaskiner ( https://powerandsamplesize.com )
  • Opstart! giver praktiske excel-baserede funktioner til at bestemme minimum påviselig effektstørrelse og minimum påkrævet prøvestørrelse til forskellige eksperimentelle og kvasi-eksperimentelle designs.
  • PowerUpR er R -pakkeversionen af ​​PowerUp! og indeholder desuden funktioner til at bestemme stikprøvestørrelse for forskellige randomiserede multilevel -eksperimenter med eller uden budgetmæssige begrænsninger.
  • R -pakke pwr
  • R -pakke WebPower
  • Python -pakke statsmodels ( https://www.statsmodels.org/ )

Se også

Referencer

Kilder

eksterne links