p -værdi - p-value

Ved nulhypotesetestningstest er p -værdien sandsynligheden for at opnå testresultater mindst lige så ekstreme som de resultater, der faktisk blev observeret , under antagelsen om, at nulhypotesen er korrekt. En meget lille p -værdi betyder, at et så ekstremt observeret resultat ville være meget usandsynligt under nulhypotesen. Rapportering af p -værdier af statistiske test er almindelig praksis i akademiske publikationer på mange kvantitative områder. Da den nøjagtige betydning af p -værdi er svær at forstå, er misbrug udbredt og har været et stort emne inden for metavidenskab .

Basale koncepter

I statistik kaldes enhver formodning om den ukendte sandsynlighedsfordeling af en samling af tilfældige variabler, der repræsenterer de observerede data i nogle undersøgelser, en statistisk hypotese . Hvis vi kun angiver en hypotese, og formålet med den statistiske test er at se, om denne hypotese er holdbar, men ikke at undersøge andre specifikke hypoteser, så kaldes en sådan test en nulhypotesetest .

Da vores statistiske hypotese pr. Definition vil angive en egenskab ved fordelingen, er nulhypotesen standardhypotesen, under hvilken denne egenskab ikke eksisterer. Nulhypotesen er typisk, at en eller anden parameter (f.eks. En korrelation eller en forskel mellem midler) i interessepopulationerne er nul. Bemærk, at vores hypotese muligvis angiver sandsynlighedsfordelingen for nøjagtigt, eller at den kun angiver, at den tilhører en eller anden fordelingsklasse. Ofte reducerer vi dataene til en enkelt numerisk statistik, f.eks. Hvis marginal sandsynlighedsfordeling er tæt forbundet med et hovedspørgsmål af interesse i undersøgelsen.

Den p -værdi anvendes i forbindelse med nulhypotesen testning for at kvantificere statistiske signifikans af et resultat, idet resultatet er den observerede værdi af den valgte statistik . Jo lavere p -værdi er, jo lavere er sandsynligheden for at få det resultat, hvis nulhypotesen var sand. Et resultat siges at være statistisk signifikant, hvis det tillader os at afvise nulhypotesen. Alt andet lige tages mindre p-værdier som stærkere beviser mod nulhypotesen

Løst sagt indebærer afvisning af nulhypotesen, at der er tilstrækkeligt bevis mod den.

Som et særligt eksempel, hvis en nulhypotese siger, at en bestemt summarisk statistik følger standard normalfordelingen N (0,1), kan afvisningen af ​​denne nulhypotese betyde, at (i) middelværdien af ikke er 0, eller (ii ) variansen på ikke er 1, eller (iii) ikke er normalt fordelt. Forskellige test af den samme nulhypotese ville være mere eller mindre følsomme over for forskellige alternativer. Selvom vi dog formår at afvise nulhypotesen for alle 3 alternativer, og selvom vi ved, at fordelingen er normal, og variansen er 1, fortæller nulhypotesetesten os ikke, hvilke ikke-nulværdier af middelværdien nu er mest sandsynlig. Jo mere uafhængige observationer fra den samme sandsynlighedsfordeling man har, desto mere nøjagtig vil testen være, og jo højere præcision, hvormed man vil kunne bestemme middelværdien og vise, at den ikke er lig med nul; men dette vil også øge betydningen af ​​at evaluere denne afvigelses virkelige eller videnskabelige relevans.

Definition og fortolkning

Generel

P-værdi i statistisk signifikans test.svg

Overvej en observeret teststatistik fra ukendt distribution . Så er p -værdien , hvad den tidligere sandsynlighed ville være for at observere en teststatistisk værdi mindst lige så "ekstrem", som hvis nulhypotesen var sand. Det er:

  • til en ensidig højrehale test,
  • til en ensidig venstrehale test,
  • til en tosidet test. Hvis fordelingen er symmetrisk omkring nul, så

Hvis p -værdien er meget lille, er enten nulhypotesen falsk, eller der er sket noget usandsynligt. I en formel signifikant test afvises nulhypotesen, hvis p -værdien er mindre end en foruddefineret tærskelværdi , som omtales som alfa -niveau eller signifikansniveau . Værdien af sættes i stedet af forskeren, før dataene undersøges. definerer andelen af ​​fordelingen,, der siges at definere en så snæver rækkevidde af alle de mulige resultater af, at hvis værdien er inden for dette område, er dens værdi usandsynligt at have fundet sted ved en tilfældighed. Intuitivt betyder dette, at hvis det er sat til at være 0,10, er kun 1/10 af fordelingen af defineret af , så hvis det falder inden for dette område, sker det allerede over en række resultater, der sker en sjælden 1/10 af tiden, hvilket tyder på, at dette usandsynligt vil ske tilfældigt. Efter konventionen er det sædvanligvis indstillet til 0,05, selvom der undertiden bruges lavere alfa -niveauer. Det er imidlertid vigtigt at huske en række faktorer-sådan varians, målefejl, specifikationsfejl, problemer med flere sammenligninger osv.-kan betyde, at bare fordi det falder inden for det område, der er angivet ved det, ikke automatisk betyder en overraskende værdi af er faktisk statistisk signifikant.

Den p -værdien er en funktion af den valgte teststørrelse og er derfor en tilfældig variabel . Hvis nulhypotesen fastsætter sandsynlighedsfordelingen for nøjagtigt, og hvis denne fordeling er kontinuerlig, så når nulhypotesen er sand, er p-værdien ensartet fordelt mellem 0 og 1. Således er p- værdien ikke fast. Hvis den samme test gentages uafhængigt med friske data (altid med den samme sandsynlighedsfordeling), vil man opnå en anden p -værdi i hver iteration. Hvis nulhypotesen er sammensat, eller fordelingen af ​​statistikken er diskret, er sandsynligheden for at opnå en p- værdi mindre end eller lig med et tal mellem 0 og 1 mindre end eller lig med det tal, hvis nulhypotesen er sandt. Det er fortsat sådan, at meget små værdier er relativt usandsynlige, hvis nulhypotesen er sand, og at en signifikansprøve på niveau opnås ved at afvise nulhypotesen, hvis signifikansniveauet er mindre end eller lig med .

Forskellige p -værdier baseret på uafhængige datasæt kan kombineres, f.eks. Ved hjælp af Fishers kombinerede sandsynlighedstest .

Fordeling

Når nulhypotesen er sand, hvis den tager form , og den underliggende tilfældige variabel er kontinuerlig, så er sandsynlighedsfordelingen for p -værdien ensartet på intervallet [0,1]. Hvis den alternative hypotese derimod er sand, er fordelingen afhængig af stikprøvestørrelse og den sande værdi af den parameter, der undersøges.

Fordelingen af p -værdier for en gruppe undersøgelser kaldes undertiden en p -kurve. En p -kurve kan bruges til at vurdere pålideligheden af ​​videnskabelig litteratur, f.eks. Ved at detektere publikationsbias eller p -hacking .

For sammensat hypotese

I parametriske hypotesetestproblemer refererer en simpel eller punkthypotese til en hypotese, hvor parameterens værdi antages at være et enkelt tal. I modsætning hertil er parameterens værdi i en sammensat hypotese givet ved et sæt tal. For eksempel, når man tester nulhypotesen om, at en fordeling er normal med et middelværdi mindre end eller lig med nul mod alternativet, at middelværdien er større end nul (kendt varians), angiver nulhypotesen ikke sandsynlighedsfordelingen for den relevante test statistik. I det netop nævnte eksempel ville det være Z -statistikken, der tilhører den ensidige ens -prøve Z -test. For hver mulig værdi af det teoretiske middel har Z -teststatistikken en anden sandsynlighedsfordeling. Under disse omstændigheder (i tilfælde af en såkaldt sammensat nulhypotese) defineres p- værdien ved at tage det mindst gunstige nul-hypotesetilfælde, som typisk er på grænsen mellem nul og alternativ.

Denne definition sikrer komplementaritet mellem p-værdier og alfa-niveauer. Hvis vi indstiller signifikansniveauet alfa til 0,05 og kun afviser nulhypotesen, hvis p-værdien er mindre end eller lig med 0,05, så vil vores hypotesetest faktisk have et signifikansniveau (maksimal type 1 fejlrate) 0,05. Som Neyman skrev: ”Den fejl, som en praktiserende statistiker ville betragte som vigtigere at undgå (hvilket er en subjektiv dom) kaldes den første slags fejl. Den matematiske teoris første krav er at udlede sådanne testkriterier, som ville sikre, at sandsynligheden for at begå en fejl af den første slags ville være lig med (eller omtrentlig lig med eller ikke overstige) et forud tildelt tal α, såsom α = 0,05 eller 0,01 osv. Dette tal kaldes niveauet for betydning ”; Neyman 1976, s. 161 i "Fremkomsten af ​​matematisk statistik: en historisk skitse med særlig henvisning til USA", "Om statistikkens og sandsynlighedens historie", red. DB Owen, New York: Marcel Dekker, s. 149-193. Se også "Confusion About Measuring of Evidence (p's) Versus Errors (a's) in Classical Statistical Testing", Raymond Hubbard og MJ Bayarri, The American Statistician, august 2003, bind. 57, nr. 3, 171-182 (med diskussion). For en kortfattet moderne redegørelse, se kapitel 10 i "All of Statistics: A Concise Course in Statistical Inference", Springer; 1. Korrigeret udg. 20 udgave (17. september 2004). Larry Wasserman.

Anvendelse

Den p -værdi er meget udbredt i hypoteseprøvning , specielt i nulhypotesen signifikans test. I denne metode, som en del af eksperimentelt design , inden eksperimentet udføres, vælger man først en model ( nulhypotesen ) og en tærskelværdi for p , kaldet testens signifikansniveau , traditionelt 5% eller 1% og betegnet som α . Hvis p -værdien er mindre end det valgte signifikansniveau ( α ), tyder det på, at de observerede data er tilstrækkeligt uforenelige med nulhypotesen, og at nulhypotesen kan blive afvist. Det beviser imidlertid ikke, at den testede hypotese er falsk. Når p -værdien er beregnet korrekt, garanterer denne test, at type I -fejlprocenten højst er α . For typisk analyse ved hjælp af standard α  = 0,05 cutoff afvises nulhypotesen når p ≤ 0,05 og ikke afvises når p > 0,05. Den p -værdi, ikke i sig selv, støtte ræsonnement om sandsynlighederne for hypoteser, men er kun et værktøj til at beslutte, om at afvise nulhypotesen.

Misbruge

Ifølge ASA er der udbredt enighed om, at p -værdier ofte misbruges og fejlfortolkes. En praksis, der er blevet særligt kritiseret, er at acceptere den alternative hypotese for enhver p -værdi nominelt mindre end .05 uden andre understøttende beviser. Selvom p -værdier er nyttige til at vurdere, hvor inkompatible dataene er med en specificeret statistisk model, skal kontekstuelle faktorer også overvejes, såsom "en undersøgelses design, målingernes kvalitet, det eksterne bevis for det undersøgte fænomen, og gyldigheden af ​​antagelser, der ligger til grund for dataanalysen ". En anden bekymring er, at p -værdien ofte misforstås som sandsynligheden for, at nulhypotesen er sand.

Nogle statistikere har foreslået at opgive p -værdier og fokusere mere på andre inferentielle statistikker, såsom konfidensintervaller , sandsynlighedsforhold eller Bayes -faktorer , men der er en heftig debat om gennemførligheden af ​​disse alternativer. Andre har foreslået at fjerne faste signifikansgrænser og fortolke p -værdier som kontinuerlige indeks for bevisstyrken mod nulhypotesen. Endnu andre foreslog at sammen med p-værdier rapportere den tidligere sandsynlighed for en reel effekt, der ville være nødvendig for at opnå en falsk positiv risiko (dvs. sandsynligheden for, at der ikke er nogen reel effekt) under en på forhånd specificeret tærskel (f.eks. 5%).

Beregning

Normalt er det en teststatistik . En teststatistik er output fra en skalarfunktion af alle observationer. Denne statistik giver et enkelt tal, f.eks. En t-statistik eller en F-statistik. Som sådan følger teststatistikken en fordeling bestemt af den funktion, der bruges til at definere denne teststatistik og fordelingen af ​​inputobservationsdataene.

For det vigtige tilfælde, hvor dataene antages at være en tilfældig stikprøve fra en normalfordeling, afhængigt af teststatistikens art og hypoteserne af interesse om dens fordeling, er forskellige nulhypotesetest blevet udviklet. Nogle sådanne tests er z-testen for hypoteser vedrørende middelværdien af ​​en normalfordeling med kendt varians, t-testen baseret på Elevens t-fordeling af en passende statistik for hypoteser vedrørende middelværdien af ​​en normalfordeling, når variansen er ukendt, den F-testen er baseret på F-fordeling af endnu en statistik for hypoteser vedrørende varians. For data af anden art, f.eks. Kategoriske (diskrete) data, kan der konstrueres teststatistik, hvis nulhypothesefordeling er baseret på normale tilnærmelser til passende statistik opnået ved at påberåbe den centrale grænsesætning for store prøver, som i tilfælde af Pearsons chi- firkantet test .

Således kræver beregning af en p- værdi en nulhypotese, en teststatistik (sammen med at afgøre, om forskeren udfører en ensidig test eller en tohalet test ) og data. Selvom det kan være let at beregne teststatistikken på givne data, er beregningen af ​​samplingsfordelingen under nulhypotesen og derefter beregning af dens kumulative fordelingsfunktion (CDF) ofte et vanskeligt problem. I dag udføres denne beregning ved hjælp af statistisk software, ofte via numeriske metoder (snarere end nøjagtige formler), men i begyndelsen og midten af ​​det 20. århundrede blev dette i stedet gjort via værditabeller, og en interpoleret eller ekstrapoleret p -værdier fra disse diskrete værdier. I stedet for at bruge en tabel med p -værdier, vendte Fisher i stedet CDF'en og udgav en liste over værdier for teststatistikken for givne faste p -værdier; dette svarer til beregning af den kvantile funktion (invers CDF).

Eksempel

Som et eksempel på en statistisk test udføres et eksperiment for at afgøre, om en møntvending er fair (lige chance for at lande hoveder eller haler) eller uretfærdigt forudindtaget (det ene resultat er mere sandsynligt end det andet).

Antag, at de eksperimentelle resultater viser, at mønten vender hoveder op 14 gange ud af 20 samlede vendinger. De fulde data ville være en sekvens på tyve gange symbolet "H" eller "T". Den statistik, som man kan fokusere på, kan være det samlede antal hoveder. Nulhypotesen er, at mønten er fair, og møntkast er uafhængige af hinanden. Hvis en højrehåret test overvejes, hvilket ville være tilfældet, hvis man faktisk er interesseret i muligheden for, at mønten er forudindtaget mod faldende hoveder, så er p -værdien af ​​dette resultat chancen for en fair mønt, der lander på hoveder kl. mindst 14 gange ud af 20 vendinger. Denne sandsynlighed kan beregnes ud fra binomiske koefficienter som

Denne sandsynlighed er p -værdien, kun i betragtning af ekstreme resultater, der favoriserer hoveder. Dette kaldes en ensidig test . Imidlertid kan man være interesseret i afvigelser i begge retninger, hvilket favoriserer enten hoveder eller haler. Den to -halede p -værdi, der anser afvigelser, der favoriserer enten hoveder eller haler, kan i stedet beregnes. Da binomialfordelingen er symmetrisk for en fair mønt, er den tosidede p -værdi simpelthen det dobbelte af den ovennævnte beregnede ensidige p -værdi: den tosidige p -værdi er 0,115.

I ovenstående eksempel:

  • Nulhypotese (H 0 ): Mønten er fair, med Prob (hoveder) = 0,5
  • Teststatistik: Antal hoveder
  • Alfaniveau (angivet grænse for betydning): 0,05
  • Observation O: 14 hoveder ud af 20 vendinger; og
  • To -halet p -værdi for observation O givet H 0 = 2*min (Prob (antal hoveder ≥ 14 hoveder), Prob (antal hoveder ≤ 14 hoveder)) = 2*min (0,058, 0,978) = 2 *0,058 = 0,115.

Bemærk, at Prob (antal hoveder ≤ 14 hoveder) = 1 - Prob (antal hoveder ≥ 14 hoveder) + Prob (antal hoved = 14) = 1 - 0,058 + 0,036 = 0,978; symmetri af den binomiske fordeling gør det imidlertid en unødvendig beregning at finde den mindste af de to sandsynligheder. Her overstiger den beregnede p -værdi 0,05, hvilket betyder, at dataene falder inden for det område, der ville ske 95% af tiden, hvis mønten faktisk var fair. Derfor afvises nulhypotesen ikke på .05 -niveau.

Men hvis der var opnået et hoved mere, ville den resulterende p -værdi (to -halet) have været 0,0414 (4,14%), i hvilket tilfælde nulhypotesen ville blive afvist på 0,05 -niveau.

Historie

Beregninger af p -værdier dateres tilbage til 1700 -tallet, hvor de blev beregnet til forholdet mellem kønnene ved fødslen og brugt til at beregne statistisk signifikans sammenlignet med nulhypotesen om lige sandsynlighed for mandlige og kvindelige fødsler. John Arbuthnot studerede dette spørgsmål i 1710 og undersøgte fødselsregistre i London for hvert af de 82 år fra 1629 til 1710. I hvert år oversteg antallet af mænd født i London antallet af hunner. I betragtning af flere mandlige eller flere kvindelige fødsler som lige så sandsynlige, er sandsynligheden for det observerede resultat 1/2 82 , eller cirka 1 ud af 4.836.000.000.000.000.000.000.000.000; i moderne termer, p -værdien. Dette er forsvindende lille, førende Arbuthnot, at dette ikke skyldtes tilfældigheder, men af ​​guddommelig forsyn: "Herfra følger det, at det er kunst, ikke tilfældighed, der styrer." I moderne termer afviste han nulhypotesen om lige så sandsynlige mandlige og kvindelige fødsler på p  = 1/2 82 signifikansniveau. Dette og andet arbejde af Arbuthnot krediteres som "... den første brug af signifikansundersøgelser ..." det første eksempel på begrundelse om statistisk signifikans og "... måske den første offentliggjorte rapport om en ikke -parametrisk test ...", nærmere bestemt skiltesten ; se detaljer ved Skiltest § Historik .

Det samme spørgsmål blev senere behandlet af Pierre-Simon Laplace , der i stedet brugte en parametrisk test, der modellerede antallet af mandlige fødsler med en binomisk fordeling :

I 1770'erne betragtede Laplace statistikken over næsten en halv million fødsler. Statistikken viste et overskud af drenge sammenlignet med piger. Han konkluderede ved beregning af en p -værdi, at overskuddet var en reel, men uforklarlig, effekt.

Den p -værdi blev først formelt introduceret af Karl Pearson , i sin Pearsons chi-square test , ved hjælp af chi-squared fordeling og noteret som kapital P. p -værdier for chi-squared fordeling (for forskellige værdier af χ 2 og frihedsgrader), nu noteret som P, blev beregnet i ( Elderton 1902 ), indsamlet i ( Pearson 1914 , s. xxxi – xxxiii, 26–28, tabel XII) .

Brugen af p -værdien i statistik blev populær af Ronald Fisher , og den spiller en central rolle i hans tilgang til emnet. I sin indflydelsesrige bog Statistical Methods for Research Workers (1925) foreslog Fisher niveauet p = 0,05, eller en 1 ud af 20 chance for at blive overskredet ved et tilfælde, som en grænse for statistisk signifikans , og anvendte dette på en normal fordeling (som en tohalet test), hvilket giver reglen om to standardafvigelser (på en normalfordeling) for statistisk signifikans (se 68-95-99.7-reglen ).

Derefter beregnede han en værditabel, der lignede Elderton, men vigtigst af alt vendte rollerne χ 2 og s. Det vil sige, at han i stedet for at beregne p for forskellige værdier på χ 2 (og frihedsgrader n ) beregner værdier for χ 2, der giver specificerede p -værdier, specifikt 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50 , 0,30, 0,20, 0,10, 0,05, 0,02 og 0,01. Det gjorde det muligt at sammenligne beregnede værdier på χ 2 med cutoffs og tilskyndede til brug af p -værdier (især 0,05, 0,02 og 0,01) som cutoffs i stedet for selv at beregne og rapportere p -værdier. Den samme type borde blev derefter samlet i ( Fisher & Yates 1938 ), hvilket cementerede tilgangen.

Som en illustration af anvendelsen af p -værdier til design og fortolkning af eksperimenter præsenterede Fisher i sin følgende bog The Design of Experiments (1935) damens smagende te -eksperiment, som er det arketypiske eksempel på p -værdien.

For at vurdere en dames påstand om, at hun ( Muriel Bristol ) ved smag kunne skelne mellem, hvordan te tilberedes (først tilsætte mælken til koppen, derefter te eller først te, derefter mælk), blev hun sekventielt præsenteret med 8 kopper: 4 tilberedt på den ene måde forberedte 4 den anden og bad om at bestemme tilberedningen af ​​hver kop (vel vidende at der var 4 af hver). I så fald var nulhypotesen, at hun ikke havde nogen særlig evne, testen var Fishers nøjagtige test , og p -værdien var så Fisher var villig til at afvise nulhypotesen (betragter resultatet som meget usandsynligt at skyldes tilfældigheder) hvis alle blev klassificeret korrekt. (I selve eksperimentet klassificerede Bristol alle 8 kopper korrekt.)

Fisher gentog tærsklen p = 0,05 og forklarede dens begrundelse med følgende:

Det er sædvanligt og bekvemt for eksperimenter at tage 5 procent som et standardniveau af betydning, i den forstand at de er parate til at ignorere alle resultater, der ikke når denne standard, og på den måde fjerne den større diskussion fra den videre diskussion del af de udsving, som tilfældige årsager har indført i deres eksperimentelle resultater.

Han anvender også denne tærskel til design af eksperimenter og bemærker, at hvis der kun var blevet præsenteret 6 kopper (3 af hver), ville en perfekt klassificering kun have givet en p -værdi, som ikke ville have opfyldt dette niveau af betydning. Fisher understregede også fortolkningen af p, som den langsigtede andel af værdier, der er mindst lige så ekstreme som dataene, forudsat at nulhypotesen er sand.

I senere udgaver kontraherede Fisher eksplicit brugen af p -værdien til statistisk inferens i videnskaben med Neyman -Pearson -metoden, som han betegner "Acceptance Procedures". Fisher understreger, at selvom faste niveauer såsom 5%, 2%og 1%er bekvemme, kan den nøjagtige p -værdi bruges, og bevisstyrken kan og vil blive revideret med yderligere eksperimenter. I modsætning hertil kræver beslutningsprocedurer en klar beslutning, der giver en irreversibel handling, og proceduren er baseret på omkostninger ved fejl, som han hævder ikke finder anvendelse på videnskabelig forskning.

Relaterede mængder

Et nært beslægtet begreb er E -værdien , som er det forventede antal gange ved flere test, som man forventer at opnå en teststatistik, der er mindst lige så ekstrem som den, der faktisk blev observeret, hvis man antager, at nulhypotesen er sand. Den E -værdi er produktet af antallet af tests og p -værdien.

Den q -værdien er analog af p -værdi i forhold til den positive falske opdagelse sats . Det bruges i flere hypotesetests for at opretholde statistisk effekt, samtidig med at den falske positive rate minimeres .

Se også

Noter

Referencer

Yderligere læsning

eksterne links