Estimationsstatistikker - Estimation statistics

Fra Wikipedia, den gratis encyklopædi

Estimeringsstatistikker eller simpelthen estimering er en dataanalyseramme, der bruger en kombination af effektstørrelser , konfidensintervaller , præcisionsplanlægning og metaanalyse til at planlægge eksperimenter, analysere data og fortolke resultater. Det adskiller sig fra nulhypotese-signifikant test (NHST), som anses for at være mindre informativ. Estimeringsstatistikker er også kendt som de nye statistikker inden for psykologi , medicinsk forskning , biovidenskab og andre eksperimentelle videnskaber, hvor NHST stadig er fremherskende på trods af modsatte anbefalinger i flere årtier.

Det primære mål med estimeringsmetoder er at rapportere en effektstørrelse (et pointestimat ) sammen med dets konfidensinterval , hvor sidstnævnte er relateret til estimatets præcision. Konfidensintervallet opsummerer en række sandsynlige værdier for den underliggende befolkningseffekt. Tilhængere af estimering ser rapportering af en P- værdi som en uhensigtsmæssig distraktion fra den vigtige forretning med at rapportere en effektstørrelse med dens konfidensintervaller og mener, at estimering bør erstatte signifikansprøvning til dataanalyse.

Historie

Fysik har længe anvendt en metode til vægtet gennemsnit, der svarer til metaanalyse .

Estimeringsstatistikker i den moderne æra startede med udviklingen af ​​den standardiserede effektstørrelse af Jacob Cohen i 1960'erne. Forskningssyntese ved hjælp af estimeringsstatistikker blev banebrydende af Gene V. Glass med udviklingen af metaanalysemetoden i 1970'erne. Estimeringsmetoder er blevet forbedret siden af Larry Hedges , Michael Borenstein, Doug Altman , Martin Gardner, Geoff Cumming og andre. Den systematiske gennemgang i forbindelse med metaanalyse er en relateret teknik med udbredt anvendelse inden for medicinsk forskning. Der er nu over 60.000 citater til "meta-analyse" i PubMed . På trods af den udbredte vedtagelse af metaanalyse anvendes estimeringsrammen stadig ikke rutinemæssigt i primær biomedicinsk forskning.

I 1990'erne forbød redaktør Kenneth Rothman brugen af ​​p-værdier fra tidsskriftet Epidemiology ; overholdelse var høj blandt forfattere, men dette ændrede ikke deres analytiske tænkning væsentligt.

For nylig vedtages estimeringsmetoder inden for områder som neurovidenskab, psykologiundervisning og psykologi.

Publikationsmanualen fra American Psychological Association anbefaler estimering i forhold til hypotesetest. De ensartede krav til manuskripter, der indsendes til biomedicinske tidsskrifter, giver en lignende anbefaling: "Undgå at stole udelukkende på statistisk hypotesetest, såsom P-værdier, der ikke formidler vigtig information om effektstørrelse."

I 2019 indførte tidsskriftet Society for Neuroscience eNeuro en politik, der anbefalede brugen af ​​estimeringsgrafik som den foretrukne metode til præsentation af data

Metodologi

Mange signifikansprøver har en estimeringsmodstykke i næsten alle tilfælde kan testresultatet (eller dets p-værdi ) simpelthen erstattes med effektstørrelsen og et præcisionsestimat. For eksempel kan analytikeren i stedet for at bruge Students t-test sammenligne to uafhængige grupper ved at beregne gennemsnitsforskellen og dens 95% konfidensinterval . Tilsvarende metoder kan bruges til en parret t-test og flere sammenligninger. Tilsvarende for en regressionsanalyse, ville en analytiker rapportere determinationskoefficienten (R 2 ) og modelligningen stedet for modellens p-værdi.

Imidlertid advarer tilhængere af estimationsstatistikker mod at rapportere kun et par tal. Det tilrådes snarere at analysere og præsentere data ved hjælp af datavisualisering. Eksempler på passende visualiseringer inkluderer Scatter-plot til regression og Gardner-Altman-plot for to uafhængige grupper. Mens historiske datagruppediagrammer (søjlediagrammer, boksdiagrammer og violindiagrammer) ikke viser sammenligningen, tilføjer estimeringsdiagrammer en anden akse for eksplicit at visualisere effektstørrelsen.

Plottet Gardner – Altman. Venstre: Et konventionelt søjlediagram, der bruger stjerner for at vise, at forskellen er 'statistisk signifikant'. Til højre: Et Gardner – Altman-plot, der viser alle datapunkter sammen med den gennemsnitlige forskel og dens konfidensintervaller.

Gardner – Altman plot

Den gennemsnitlige forskel på Gardner – Altman blev først beskrevet af Martin Gardner og Doug Altman i 1986; det er en statistisk graf designet til at vise data fra to uafhængige grupper. Der er også en version, der passer til parrede data . Nøgleinstruktionerne til at lave dette diagram er som følger: (1) viser alle observerede værdier for begge grupper side om side; (2) placer en anden akse til højre, forskudt for at vise den gennemsnitlige forskel skala; og (3) plot den gennemsnitlige forskel med dens konfidensinterval som en markør med fejlstænger. Gardner-Altman-plot kan genereres med DABEST-Python eller dabestr ; alternativt kan analytikeren bruge GUI-software som appen Estimation Stats .

Cumming-plottet. Et Cumming-plot som gengivet af EstimationStats-webapplikationen . I det øverste panel vises alle observerede værdier. Effektstørrelser, samplingsfordeling og 95% konfidensintervaller er afbildet på separate akser under rådataene. For hver gruppe er kortfattede målinger (gennemsnit ± standardafvigelse) tegnet som mellemrum.

Cumming plot

For flere grupper introducerede Geoff Cumming brugen af ​​et sekundært panel til at plotte to eller flere gennemsnitlige forskelle og deres konfidensintervaller, placeret under panelet observerede værdier; dette arrangement muliggør nem sammenligning af gennemsnitlige forskelle ('deltas') over flere datagrupper. Cumming-plots kan genereres med ESCI-pakken , DABEST eller appen Estimation Stats .

Andre metoder

Ud over den gennemsnitlige forskel er der adskillige andre effektstørrelsestyper , alle med relative fordele. Hovedtyper omfatter effektstørrelser i Cohen d klasse af standardiserede målinger, og determinationskoefficienten (R 2 ) til regressionsanalyse . For ikke-normale distributioner er der en række mere robuste effektstørrelser , herunder Cliff's delta og Kolmogorov-Smirnov-statistikken .

Fejl ved hypotesetest

I hypotesetestning er det primære mål med statistiske beregninger at opnå en p-værdi , sandsynligheden for at se et opnået resultat eller et mere ekstremt resultat, når man antager, at nulhypotesen er sand. Hvis p-værdien er lav (normalt <0,05), tilskyndes den statistiske praktiserende læge derefter til at afvise nulhypotesen. Tilhængere af estimering afviser gyldigheden af ​​hypotesetest af bl.a. følgende årsager:

  • P-værdier fortolkes let og ofte fejlagtigt. For eksempel betragtes ofte p-værdien fejlagtigt som 'sandsynligheden for, at nulhypotesen er sand.'
  • Nulhypotesen er altid forkert for hvert sæt observationer: der er altid en eller anden effekt, selvom den er lille.
  • Hypotesetest producerer vilkårligt dikotome ja-nej-svar, mens man kasserer vigtige oplysninger om størrelsen.
  • Enhver bestemt p-værdi opstår gennem interaktionen mellem effektstørrelsen , stikprøvestørrelsen (alt andet lige en større stikprøvestørrelse producerer en mindre p-værdi) og prøveudtagningsfejl.
  • Ved lav effekt afslører simulering, at prøveudtagningsfejl gør p-værdier ekstremt ustabile.

Fordele ved estimationsstatistikker

Fordele ved tillidsintervaller

Tillidsintervaller opfører sig på en forudsigelig måde. Per definition har 95% konfidensintervaller en 95% chance for at indfange det underliggende populationsgennemsnit (μ). Denne funktion forbliver konstant med stigende stikprøvestørrelse; hvad der ændrer sig er, at intervallet bliver mindre (mere præcist). Derudover er 95% konfidensintervaller også 83% forudsigelsesintervaller: et eksperiments konfidensinterval har en 83% chance for at opfange et fremtidigt eksperiments gennemsnit. Som sådan, at kende et enkelt eksperiment 95% konfidensintervaller giver analytikeren et sandsynligt interval for populationsgennemsnittet og sandsynlige resultater af eventuelle efterfølgende replikationseksperimenter.

Bevisbaseret statistik

Psykologiske undersøgelser af opfattelsen af ​​statistikker afslører, at rapporteringsintervallestimater efterlader en mere nøjagtig opfattelse af dataene end rapportering af p-værdier.

Præcisionsplanlægning

Præcisionen i et estimat er formelt defineret som 1 / varians , og øges (forbedres) ligesom effekt med stigende stikprøvestørrelse. Ligesom magt er et højt præcisionsniveau dyrt; ansøgninger om forskningsstøtte ville ideelt omfatte præcisions- / omkostningsanalyser. Tilhængere af estimering mener, at præcisionsplanlægning skal erstatte magt, da selve den statistiske magt er konceptuelt knyttet til signifikant test.

Se også

Referencer