Bayes faktor - Bayes factor

I statistik er brugen af Bayes -faktorer et bayesisk alternativ til klassisk hypotesetest . Bayesiansk model sammenligning er en metode til modelvalg baseret på Bayes faktorer. De modeller, der overvejes, er statistiske modeller . Formålet med Bayes -faktoren er at kvantificere understøttelsen af ​​en model frem for en anden, uanset om disse modeller er korrekte. Den tekniske definition af "support" i forbindelse med Bayesian inferens er beskrevet nedenfor.

Definition

Bayes -faktoren er et sandsynlighedsforhold mellem den marginale sandsynlighed for to konkurrerende hypoteser, normalt et nul og et alternativ.

Den bageste sandsynlighed for en model M givet data D er givet ved Bayes 'sætning :

Det centrale dataafhængige udtryk repræsenterer sandsynligheden for, at nogle data produceres under antagelsen af ​​modellen M ; at evaluere det korrekt er nøglen til Bayesiansk model sammenligning.

I betragtning af et modelvalgsproblem, hvor vi skal vælge mellem to modeller på grundlag af observerede data D , vurderes plausibiliteten af ​​de to forskellige modeller M 1 og M 2 , parametriseret af modelparametervektorer og , vurderet af Bayes -faktor K givet ved

Når de to modeller har lige tidligere sandsynlighed, så Bayes -faktoren er lig med forholdet mellem de bageste sandsynligheder for M 1 og M 2 . Hvis der i stedet for Bayes-faktorintegralen bruges sandsynligheden svarende til det maksimale sandsynlighedsestimat for parameteren for hver statistisk model, så bliver testen til en klassisk sandsynlighedsforholdstest . I modsætning til en sandsynlighedsforholdstest afhænger denne Bayesianske model sammenligning ikke af et enkelt sæt parametre, da den integreres over alle parametre i hver model (med hensyn til de respektive priors). En fordel ved brugen af ​​Bayes -faktorer er imidlertid, at den automatisk og ganske naturligt indeholder en straf for at inkludere for meget modelstruktur. Det beskytter dermed mod overmontering . For modeller, hvor en eksplicit version af sandsynligheden ikke er tilgængelig eller for dyr at evaluere numerisk, kan omtrentlig Bayesiansk beregning bruges til modelvalg i en bayesisk ramme, med forbehold om, at omtrentlige Bayesiske skøn over Bayes-faktorer ofte er forudindtaget.

Andre tilgange er:

  • at behandle modelsammenligning som et beslutningsproblem , beregne den forventede værdi eller pris for hvert modelvalg;
  • for at bruge minimum beskedlængde (MML).

Fortolkning

En værdi på K > 1 betyder, at M 1 er stærkere understøttet af de pågældende data end M 2 . Bemærk, at klassisk hypotesetest giver en hypotese (eller model) foretrukken status ('nulhypotesen'), og kun overvejer beviser imod den. Harold Jeffreys gav en skala til fortolkning af K :

K dHart bits Bevisstyrke
<10 0 <0 <0 Negativ (understøtter M 2 )
10 0 til 10 1/2 0 til 5 0 til 1,6 Næppe værd at nævne
10 1/2 til 10 1 5 til 10 1,6 til 3,3 Betydelig
10 1 til 10 3/2 10 til 15 3,3 til 5,0 Stærk
10 3/2 til 10 2 15 til 20 5,0 til 6,6 Meget stærk
> 10 2 > 20 > 6,6 Afgørende

Den anden kolonne giver de tilsvarende bevismængder i decihartleys (også kendt som decibans ); bits tilføjes i den tredje kolonne for klarheds skyld. Ifølge IJ Good er en ændring i vægten af ​​beviser for 1 deciban eller 1/3 af en bit (dvs. en ændring i et oddsforhold fra lige til ca. 5: 4) omtrent lige så fint, som mennesker med rimelighed kan opfatte deres grad af tro i en hypotese i daglig brug.

En alternativ tabel, bredt citeret, leveres af Kass og Raftery (1995):

log 10 K K Bevisstyrke
0 til 1/2 1 til 3.2 Ikke mere værd end en ren omtale
1/2 til 1 3,2 til 10 Betydelig
1 til 2 10 til 100 Stærk
> 2 > 100 Afgørende

Eksempel

Antag, at vi har en tilfældig variabel, der enten producerer en succes eller en fiasko. Vi vil sammenligne en model M 1, hvor sandsynligheden for succes er q = ½, og en anden model M 2, hvor q er ukendt, og vi tager en forudgående fordeling for q, der er ensartet på [0,1]. Vi tager en prøve på 200 og finder 115 succeser og 85 fejl. Sandsynligheden kan beregnes i henhold til den binomiske fordeling :

Således har vi for M 1

hvorimod vi har for M 2

Forholdet er derefter 1,2, hvilket er "næppe værd at nævne", selvom det peger meget let mod M 1 .

En hyppig hypotesetest af M 1 (her betragtet som en nulhypotese ) ville have frembragt et meget anderledes resultat. En sådan test siger, at M 1 bør afvises ved signifikansniveauet på 5%, da sandsynligheden for at få 115 eller flere succeser fra en prøve på 200, hvis q = ½ er 0,02, og som en tosidet test for at få et tal som ekstrem som eller mere ekstrem end 115 er 0,04. Bemærk, at 115 er mere end to standardafvigelser væk fra 100. Selvom en hyppig hypotesetest ville give betydelige resultater på 5% signifikansniveau, anser Bayes -faktoren næppe dette for at være et ekstremt resultat. Bemærk dog, at en ikke-ensartet prior (f.eks. En, der afspejler det faktum, at du forventer, at antallet af succes og fiaskoer er af samme størrelsesorden) kan resultere i en Bayes-faktor, der er mere enig med frekvensisten hypotesetest.

En klassisk sandsynlighedsforholdstest ville have fundet det maksimale sandsynlighedsestimat for q , nemlig 115200 = 0,575, hvorfra

(frem for at beregne et gennemsnit over alle mulige q ). Det giver et sandsynlighedsforhold på 0,1 og peger mod M 2 .

M 2 er en mere kompleks model end M 1, fordi den har en gratis parameter, som gør det muligt at modellere dataene tættere. Bayes -faktorers evne til at tage højde for dette er en grund til, at Bayesisk slutning er blevet fremsat som en teoretisk begrundelse for og generalisering af Occams barbermaskine , hvilket reducerer Type I -fejl .

På den anden side tager den moderne metode til relativ sandsynlighed hensyn til antallet af gratis parametre i modellerne, i modsætning til det klassiske sandsynlighedsforhold. Den relative sandsynlighedsmetode kan anvendes som følger. Model M 1 har 0 parametre, så dens AIC -værdi er 2 · 0 - 2 · ln (0,005956) = 10,2467. Model M 2 har 1 parameter, så dens AIC -værdi er 2 · 1 - 2 · ln (0,056991) = 7,7297. Derfor er M 1 omkring exp ((7.7297 - 10.2467)/2) = 0,284 gange så sandsynligt som M 2 for at minimere informationstabet. Således M 2 er lidt foretrækkes, men M 1 kan ikke udelukkes.

Se også

Statistiske forhold

Referencer

Yderligere læsning

  • Bernardo, J .; Smith, AFM (1994). Bayesiansk teori . John Wiley. ISBN 0-471-92416-4.
  • Denison, DGT; Holmes, CC; Mallick, BK; Smith, AFM (2002). Bayesianske metoder til ikke -lineær klassificering og regression . John Wiley. ISBN 0-471-49036-9.
  • Dienes, Z. (2019). Hvordan ved jeg, hvad min teori forudsiger? Fremskridt inden for metoder og praksis inden for psykologisk videnskab doi : 10.1177/2515245919876960
  • Duda, Richard O .; Hart, Peter E .; Stork, David G. (2000). "Afsnit 9.6.5". Mønsterklassificering (2. udgave). Wiley. s. 487–489. ISBN 0-471-05669-3.
  • Gelman, A .; Carlin, J .; Stern, H .; Rubin, D. (1995). Bayesiansk dataanalyse . London: Chapman & Hall . ISBN 0-412-03991-5.
  • Jaynes, ET (1994), Sandsynlighedsteori: videnskabens logik , kapitel 24.
  • Lee, PM (2012). Bayesiansk statistik: en introduktion . Wiley. ISBN 9781118332573.
  • Winkler, Robert (2003). Introduktion til Bayesian Inference and Decision (2. udgave). Sandsynlighed. ISBN 0-9647938-4-9.

eksterne links