Familiemæssig fejlprocent - Family-wise error rate

I statistik er familiemæssig fejlprocent ( FWER ) sandsynligheden for at foretage en eller flere falske opdagelser eller type I-fejl, når der udføres flere hypotesetest .

Familie- og eksperimentelt fejlrater

Tukey (1953) udviklede konceptet om en familiær fejlfrekvens som sandsynligheden for at lave en type I -fejl blandt en bestemt gruppe eller "familie" af test. Ryan (1959) foreslog det relaterede koncept om en eksperimentelt fejlrate , hvilket er sandsynligheden for at lave en type I -fejl i et givet eksperiment. Derfor er en eksperimentelt fejlfrekvens en familievenlig fejlprocent for alle de tests, der udføres inden for et eksperiment.

Som Ryan (1959, fodnote 3) forklarede, kan et eksperiment indeholde to eller flere familier med flere sammenligninger, som hver især vedrører en bestemt statistisk slutning, og som hver har sin egen separate familievise fejlprocent. Derfor er familiemæssige fejlprocenter normalt baseret på teoretisk informative samlinger af flere sammenligninger. I modsætning hertil kan en eksperimentelt fejlprocent være baseret på en samtidig hændelig samling af sammenligninger, der refererer til en række forskellige separate slutninger. Derfor har nogle argumenteret for, at det måske ikke er nyttigt at kontrollere den eksperimentelt fejlfrekvens. Faktisk var Tukey imod ideen om eksperimentelt fejlfrekvenser (Tukey, 1956, personlig kommunikation, i Ryan, 1962, s. 302). For nylig kritiserede Rubin (2021) den automatiske overvejelse af fejlmængder eksperimentelt og hævdede, at "i mange tilfælde har den fælles undersøgelsesmæssige [eksperimentelt] hypotese ingen relevans for forskeres specifikke forskningsspørgsmål, fordi dens konstituerende hypoteser refererer til sammenligninger og variabler, der ikke har noget teoretisk eller praktisk grundlag for fælles overvejelse. ”

Baggrund

Inden for de statistiske rammer er der flere definitioner af udtrykket "familie":

Hochberg & Tamhane (1987) definerede "familie" som "enhver samling af slutninger, som det er meningsfuldt at tage højde for et kombineret måling af fejl".
Ifølge Cox (1982) skal et sæt konklusioner betragtes som en familie:

For at tage højde for selektionseffekten på grund af dataudgravning
For at sikre samtidig korrekthed af et sæt af slutninger for at garantere en korrekt samlet beslutning

For at opsummere kunne en familie bedst defineres ved den potentielle selektive slutning , der står over for: En familie er det mindste sæt af slutpunkter i en analyse, der kan udskiftes om deres betydning for forskningens mål, hvorfra valg af resultater til handling , præsentation eller fremhævelse kunne foretages ( Yoav Benjamini ).

Klassificering af flere hypotesetest

Følgende tabel definerer de mulige resultater ved test af flere nulhypoteser. Antag, at vi har et antal m nulhypoteser, betegnet med: $H 1, H 2, ..., H m .$ Ved hjælp af en statistisk test afviser vi nulhypotesen, hvis testen erklæres signifikant. Vi afviser ikke nulhypotesen, hvis testen ikke er signifikant. Sammenfatning af hver type udfald over alle H _i giver følgende tilfældige variabler:

	Nulhypotesen er sand (H ₀ )	Alternativ hypotese er sand (H _A )	i alt
Test erklæres signifikant	$V$	$S$	$R$
Test erklæres ikke-signifikant	$U$	$T$	${\ displaystyle mR}$
i alt	${\ displaystyle m_ {0}}$	${\ displaystyle m-m_ {0}}$	$m$

$m$ er det samlede antal testede hypoteser
${\ displaystyle m_ {0}}$ er antallet af sande nulhypoteser , en ukendt parameter
${\ displaystyle m-m_ {0}}$ er antallet af sande alternative hypoteser
$V$ er antallet af falske positiver (type I -fejl) (også kaldet "falske opdagelser")
$S$ er antallet af sande positive (også kaldet "sande opdagelser")
$T$ er antallet af falske negativer (type II fejl)
$U$ er antallet af sande negativer
${\ displaystyle R = V+S}$ er antallet af afviste nulhypoteser (også kaldet "opdagelser", enten sande eller falske)

I $m$ hypotesetest, som er sande nulhypoteser, er $R$ en observerbar tilfældig variabel, og $S$ , $T$ , $U$ og $V$ er ikke -observerbare tilfældige variabler . ${\ displaystyle m_ {0}}$

Definition

FWER er sandsynligheden for at lave mindst en type I -fejl i familien,

{\ displaystyle \ mathrm {FWER} = \ Pr (V \ geq 1), \,}

eller tilsvarende,

{\ displaystyle \ mathrm {FWER} = 1- \ Pr (V = 0).}

Ved at sikre , kontrolleres sandsynligheden for at lave en eller flere type I -fejl i familien på niveau . ${\ displaystyle \ mathrm {FWER} \ leq \ alpha \, \! \,}$ ${\ displaystyle \ alpha \, \!}$

En procedure styrer FWER i svag forstand, hvis FWER -kontrollen på niveau kun er garanteret , når alle nulhypoteser er sande (dvs. når , hvilket betyder, at den "globale nulhypotese" er sand). ${\ displaystyle \ alpha \, \!}$ ${\ displaystyle m_ {0} = m}$

En procedure styrer FWER i stærk forstand, hvis FWER-kontrollen på niveau er garanteret for enhver konfiguration af sande og ikke-sande nulhypoteser (uanset om den globale nulhypotese er sand eller ej). ${\ displaystyle \ alpha \, \!}$

Kontrollerende procedurer

Nogle klassiske løsninger, der sikrer en stærk FWER -kontrol, og nogle nyere løsninger findes. ${\ displaystyle \ alpha}$

Bonferroni -proceduren

Betegner ved den p -værdi til test ${\ displaystyle p_ {i}}$ ${\ displaystyle H_ {i}}$
afvise hvis ${\ displaystyle H_ {i}}$ ${\ displaystyle p_ {i} \ leq {\ frac {\ alpha} {m}}}$

Šidák -proceduren

At teste hver hypotese på niveau er Sidaks multiple testprocedure. ${\ displaystyle \ alpha _ {SID} = 1- (1- \ alpha)^{\ frac {1} {m}}}$
Denne procedure er mere kraftfuld end Bonferroni, men gevinsten er lille.
Denne procedure kan undlade at kontrollere FWER, når testene er negativt afhængige.

Tukey's procedure

Tukey's procedure gælder kun for parvise sammenligninger .
Det forudsætter uafhængighed af de observationer, der testes, samt lige variation på tværs af observationer ( homoscedasticitet ).
Proceduren beregner for hvert par den statistiserede områdestatistik : hvor er den største af de to midler, der sammenlignes, er den mindre og er standardfejl for de pågældende data. ${\ displaystyle {\ frac {Y_ {A} -Y_ {B}} {SE}}}$ ${\ displaystyle Y_ {A}}$ ${\ displaystyle Y_ {B}}$ ${\ displaystyle SE}$
Tukey's test er i det væsentlige en Students t-test , bortset fra at den korrigerer for familiemæssig fejlprocent .

Holms nedtrapningsprocedure (1979)

Start med at bestille p -værdierne (fra laveste til højeste) og lad de tilhørende hypoteser være ${\ displaystyle P _ {(1)} \ ldots P _ {(m)}}$ ${\ displaystyle H _ {(1)} \ ldots H _ {(m)}}$
Lad være det minimale indeks sådan ${\ displaystyle k}$ ${\ displaystyle P _ {(k)}> {\ frac {\ alpha} {m+1-k}}}$
Afvis nulhypoteserne . Hvis så ingen af hypoteserne afvises. ${\ displaystyle H _ {(1)} \ ldots H _ {(k-1)}}$ ${\ displaystyle k = 1}$

Denne procedure er ensartet mere kraftfuld end Bonferroni -proceduren. Grunden til, at denne procedure styrer den familiemæssige fejlprocent for alle m-hypoteser på niveau α i stærk forstand, er, fordi det er en lukket testprocedure . Som sådan testes hvert kryds ved hjælp af den enkle Bonferroni -test.

Hochbergs trin-up procedure

Hochbergs trin-up procedure (1988) udføres ved hjælp af følgende trin:

Start med at bestille p -værdierne (fra laveste til højeste) og lad de tilhørende hypoteser være ${\ displaystyle P _ {(1)} \ ldots P _ {(m)}}$ ${\ displaystyle H _ {(1)} \ ldots H _ {(m)}}$
For en given , lad være den største sådan ${\ displaystyle \ alpha}$ ${\ displaystyle R}$ ${\ displaystyle k}$ ${\ displaystyle P _ {(k)} \ leq {\ frac {\ alpha} {m-k+1}}}$
Afvis nulhypoteserne ${\ displaystyle H _ {(1)} \ ldots H _ {(R)}}$

Hochbergs procedure er mere kraftfuld end Holms. Ikke desto mindre, mens Holms er en lukket testprocedure (og dermed, ligesom Bonferroni, ikke har nogen begrænsning i den fælles fordeling af teststatistikkerne), er Hochbergs baseret på Simes-testen, så den holder kun under ikke-negativ afhængighed.

Dunnetts korrektion

Charles Dunnett (1955, 1966) beskrev en alternativ alfa -fejljustering, når k -grupper blev sammenlignet med den samme kontrolgruppe. Nu kendt som Dunnetts test, er denne metode mindre konservativ end Bonferroni -justeringen.

Scheffés metode

Omprøveprocedurer

Bonferronis og Holms procedurer styrer FWER under enhver afhængighedsstruktur af p -værdierne (eller tilsvarende de individuelle teststatistikker). I det væsentlige opnås dette ved at rumme en 'worst-case' afhængighedsstruktur (som er tæt på uafhængighed for de fleste praktiske formål). Men en sådan tilgang er konservativ, hvis afhængigheden faktisk er positiv. For at give et ekstremt eksempel, under perfekt positiv afhængighed, er der faktisk kun en test, og dermed er FWER oppustet.

Regnskab for afhængighedsstrukturen for p -værdierne (eller for de enkelte teststatistikker) producerer mere effektive procedurer. Dette kan opnås ved at anvende resamplingsmetoder, såsom bootstrapping og permutationsmetoder. Proceduren for Westfall og Young (1993) kræver en bestemt betingelse, der ikke altid holder i praksis (nemlig subset -pivotalitet). Procedurerne for Romano og Wolf (2005a, b) undlader denne betingelse og er således mere generelt gyldige.

Harmonisk middelværdi p -værdi procedure

Den harmoniske middelværdi p- værdi (HMP) -procedure tilvejebringer en test på flere niveauer, der forbedrer effekten af Bonferroni-korrektion ved at vurdere betydningen af grupper af hypoteser, samtidig med at man kontrollerer den stærkt forstandne familiemæssige fejlprocent. Betydningen af enhver delmængde af testene vurderes ved at beregne HMP for delsættet, ${\ textstyle {\ mathcal {R}}}$ ${\ textstyle m}$

{\ displaystyle {\ overset {\ circ} {p}} _ {\ mathcal {R}} = {\ frac {\ sum _ {i \ in {\ mathcal {R}}} w_ {i}} {\ sum _ {i \ i {\ mathcal {R}}} w_ {i}/p_ {i}}},}

hvor er vægte, der summerer til en (dvs. ). En omtrentlig procedure, der styrer den stærkt forstandne familiemæssige fejlprocent på niveau, afviser omtrent nulhypotesen om, at ingen af p- værdierne i delmængden er signifikante, når (hvor ). Denne tilnærmelse er rimelig for små (f.eks. ) Og bliver vilkårligt god, når den nærmer sig nul. En asymptotisk nøjagtig test er også tilgængelig (se hovedartiklen ).

{\ textstyle w_ {1}, \ dots, w_ {m}}

{\ textstyle \ sum _ {i = 1}^{m} w_ {i} = 1}

{\ textstyle \ alpha}

{\ textstyle {\ mathcal {R}}}

{\ textstyle {\ overset {\ circ} {p}} _ {\ mathcal {R}} \ leq \ alpha \, w _ {\ mathcal {R}}}

{\ textstyle w _ {\ mathcal {R}} = \ sum _ {i \ in {\ mathcal {R}}} w_ {i}}

{\ textstyle \ alpha}

{\ textstyle \ alpha <0,05}

{\ textstyle \ alpha}

Alternative tilgange

FWER -kontrol udøver en mere streng kontrol over falsk opdagelse sammenlignet med procedurer for falsk opdagelsesfrekvens (FDR). FWER -kontrol begrænser sandsynligheden for mindst én falsk opdagelse, hvorimod FDR -kontrol begrænser (i løs forstand) den forventede andel af falske fund. Således har FDR -procedurer større magt på bekostning af øgede satser for type I -fejl, dvs. at afvise nulhypoteser, der faktisk er sande.

På den anden side er FWER-kontrol mindre streng end fejlfrekvensstyring pr. Familie, hvilket begrænser det forventede antal fejl pr. Familie. Fordi FWER-kontrol er bekymret for mindst én falsk opdagelse, i modsætning til per-familie fejlfrekvensstyring, behandler den ikke flere samtidige falske opdagelser som værre end én falsk opdagelse. Den Bonferroni korrektion er ofte betragtes som blot kontrollerer FWER, men i virkeligheden også styrer pr-familien fejlprocent.

Referencer

eksterne links

Forståelse af Family Wise Error Rate - blogindlæg inklusive dets nytteværdi i forhold til False Discovery Rate

Languages

In other projects