Misbrug af p -værdier -Misuse of p-values

Misbrug af p -værdier er almindeligt inden for videnskabelig forskning og videnskabelig uddannelse . p -værdier bruges ofte eller fortolkes forkert; den amerikanske Statistical Association hedder det, at p -værdier kan angive, hvor uforenelig dataene er med en specificeret statistisk model. Fra en Neyman -Pearson -hypotesetestmetode til statistiske slutninger vil dataene opnået ved at sammenligne p -værdien med et signifikansniveau give et af to resultater: enten nulhypotesen afvises (hvilket dog ikke beviser, at nulhypotesen er falsk ), eller nulhypotesen kan ikke afvises på dette signifikansniveau (hvilket dog ikke beviser, at nulhypotesen er sand ). Fra en Fisherian statistisk testmetode til statistiske slutninger betyder en lav p -værdi enten , at nulhypotesen er sand, og at der er sket en meget usandsynlig hændelse, eller at nulhypotesen er falsk.

Afklaringer om p -værdier

Følgende liste tydeliggør nogle spørgsmål, der normalt misforstås vedrørende p -værdier:

  1. Den p -værdi er ikke sandsynligheden for, at nulhypotesen er sand, eller sandsynligheden for, at den alternative hypotese er falsk. En p -værdi kan angive graden af ​​kompatibilitet mellem et datasæt og en bestemt hypotetisk forklaring (f.eks. En nulhypotese). Specifikt kan p -værdien tages som den tidligere sandsynlighed for at opnå en effekt, der er mindst lige så ekstrem som den observerede effekt, da nulhypotesen er sand. Dette skal ikke forveksles med den bageste sandsynlighed for, at nulhypotesen er sand i betragtning af den observerede effekt (se anklagerens fejlslutning ). Faktisk knytter hyppige statistikker ikke sandsynligheder til hypoteser.
  2. Den p -værdi er ikke sandsynligheden for, at de observerede virkninger blev fremstillet ved tilfældig chance alene. Den p -værdi beregnes i henhold til den antagelse, at en bestemt model, som regel nul-hypotesen, er sandt. Det betyder, at p -værdien er en erklæring om dataens relation til denne hypotese.
  3. 0,05 signifikansniveauet er blot en konvention. 0,05 -signifikansniveauet (alfa -niveau) bruges ofte som grænsen mellem en statistisk signifikant og en statistisk ikke -signifikant p -værdi. Dette betyder imidlertid ikke, at der generelt er en videnskabelig grund til at betragte resultater på modsatte sider af en tærskel som kvalitativt forskellige.
  4. Den p -værdi angiver ikke størrelsen eller betydningen af den observerede effekt. En lille p -værdi kan observeres for en effekt, der ikke er meningsfuld eller vigtig. Faktisk, jo større stikprøvestørrelse, jo mindre minimumseffekt er nødvendig for at producere en statistisk signifikant p -værdi (se effektstørrelse ). Visualisering af effektstørrelser er en kritisk komponent i en dataanalysemetode kaldet estimationsstatistik .

Repræsenterer sandsynligheder for hypoteser

En frequentist tilgang afviser gyldigheden af ​​at repræsentere sandsynligheder for hypoteser: hypoteser er sande eller falske, ikke noget der kan repræsenteres med en sandsynlighed.

Bayesiansk statistik modellerer aktivt sandsynligheden for hypoteser. Den p -værdi ikke i sig selv tillader ræsonnere om sandsynlighederne for hypoteser, som kræver flere hypoteser eller en række hypoteser, med en forudgående fordeling af sandsynligheder mellem dem, i hvilket tilfælde Bayesian statistik kunne anvendes. Der bruger man en sandsynlighedsfunktion for alle mulige værdier af prioret i stedet for p -værdien for en enkelt nulhypotese. Den p -værdien beskriver en egenskab af data i forhold til en bestemt nulhypotesen; det er ikke en egenskab ved selve hypotesen. Af samme grund giver p -værdier ikke sandsynligheden for, at dataene blev frembragt tilfældigt alene.

Problem med flere sammenligninger

Problemet med flere sammenligninger opstår, når man overvejer et sæt statistiske slutninger samtidigt eller udleder et delsæt af parametre valgt ud fra de observerede værdier. Det er også kendt som look-else-effekten . Fejl i slutning, herunder konfidensintervaller, der ikke inkluderer deres tilsvarende befolkningsparametre eller hypotesetest, der forkert afviser nulhypotesen , er mere tilbøjelige til at forekomme, når man betragter sættet som en helhed. Flere statistiske teknikker er blevet udviklet for at forhindre dette i at ske, hvilket gør det muligt at sammenligne signifikansniveauer for enkelt- og flere sammenligninger direkte. Disse teknikker kræver generelt en højere signifikansgrænse for individuelle sammenligninger for at kompensere for antallet af konklusioner, der foretages.

Den webkomiske xkcd satiriserede misforståelser af p -værdier ved at skildre forskere, der undersøgte påstanden om at spise gelébønner forårsagede acne . Efter ikke at have fundet en signifikant ( p <0,05) sammenhæng mellem at spise jellybeans og acne, undersøger forskerne 20 forskellige farver jellybeans individuelt uden at justere for flere sammenligninger. De finder en farve (grøn) nominelt forbundet med acne ( p <0,05). Resultaterne rapporteres derefter af en avis som tegn på, at grønne gelébønner er forbundet med acne på et konfidensniveau på 95% - som om grøn var den eneste farve, der blev testet. Faktisk, hvis 20 uafhængige tests udføres på 0,05 signifikansniveau og alle nulhypoteser er sande, er der 64,2% chance for at opnå mindst én falsk positiv, og det forventede antal falske positiver er 1 (dvs. 0,05 × 20).

Generelt øges den familiemæssige fejlprocent (FWER)-sandsynligheden for at opnå mindst én falsk positiv-med antallet af udførte tests. FWER når alle nulhypoteser er sande for m uafhængige tests, der hver udføres på signifikansniveau α, er:

Se også

Referencer

Yderligere læsning