Statistisk hypotesetest - Statistical hypothesis testing

En statistisk hypotese er en hypotese, der kan testes på grundlag af observerede data modelleret som de realiserede værdier taget af en samling af tilfældige variabler . Et sæt data er modelleret som værende realiserede værdier for en samling af tilfældige variabler, der har en fælles sandsynlighedsfordeling i nogle sæt mulige fællesfordelinger. Den hypotese, der testes, er præcis det sæt af mulige sandsynlighedsfordelinger. En statistisk hypotesetest er en metode til statistisk slutning . Der foreslås en alternativ hypotese for sandsynlighedsfordelingen af ​​dataene, enten eksplicit eller kun uformelt. Sammenligningen af ​​de to modeller anses for statistisk signifikant, hvis dataene ifølge en tærskel sandsynlighed - signifikansniveauet - sandsynligvis ikke ville forekomme, hvis nulhypotesen var sand. En hypotesetest angiver, hvilke resultater af en undersøgelse der kan føre til afvisning af nulhypotesen på et på forhånd specificeret niveau af betydning, mens der bruges et på forhånd valgt mål for afvigelse fra denne hypotese (teststatistikken eller godhed-af-pasform) måle). Det på forhånd valgte signifikansniveau er den maksimalt tilladte "falsk positive rate". Man vil kontrollere risikoen for forkert at afvise en sand nulhypotese.

Processen med at skelne mellem nulhypotesen og den alternative hypotese understøttes af at overveje to typer fejl. En type I -fejl opstår, når en sand nulhypotese afvises. En type II -fejl opstår, når en falsk nulhypotese ikke afvises.

Hypotesetest baseret på statistisk signifikans er en anden måde at udtrykke konfidensintervaller (mere præcist konfidenssæt). Med andre ord kan hver hypotesetest baseret på signifikans opnås via et konfidensinterval, og hvert konfidensinterval kan opnås via en hypotesetest baseret på signifikans.

Signifikansbaseret hypotesetest er den mest almindelige ramme for statistisk hypotesetest. En alternativ ramme for statistisk hypotesetest er at specificere et sæt statistiske modeller , en for hver kandidathypotese, og derefter bruge modeludvælgelsesteknikker til at vælge den mest passende model. De mest almindelige selektionsteknikker er baseret på enten Akaike -informationskriterium (= AIC) eller Bayesiansk informationskriterium (= BIC).

Testprocessen

I statistiklitteraturen spiller statistisk hypotesetest en grundlæggende rolle. Der er to matematisk ækvivalente processer, der kan bruges.

Den sædvanlige begrundelse er som følger:

  1. Der er en indledende forskningshypotese, som sandheden er ukendt om.
  2. Det første trin er at angive de relevante nul- og alternative hypoteser . Dette er vigtigt, da en forkert angivelse af hypoteserne vil mudre resten af ​​processen.
  3. Det andet trin er at overveje de statistiske antagelser, der gøres om prøven ved udførelsen af ​​testen; for eksempel antagelser om den statistiske uafhængighed eller om formen for observationernes fordelinger. Dette er lige så vigtigt, da ugyldige antagelser vil betyde, at testens resultater er ugyldige.
  4. Beslut hvilke test er hensigtsmæssig, og angive den relevante teststørrelse T .
  5. Afled fordelingen af ​​teststatistikken under nulhypotesen fra antagelserne. I standard tilfælde vil dette være et velkendt resultat. For eksempel kan teststatistikken følge en elevs t -fordeling med kendte frihedsgrader eller en normal fordeling med kendt middel og varians. Hvis fordelingen af ​​teststatistikken er fuldstændig fastsat af nulhypotesen kalder vi hypotesen enkel, ellers kaldes den sammensat.
  6. Vælg et signifikansniveau ( α ), en sandsynlighedsgrænse, under hvilken nulhypotesen vil blive afvist. Fælles værdier er 5% og 1%.
  7. Fordelingen af ​​teststatistikken under nulhypotesen opdeler de mulige værdier af T i de værdier, som nulhypotesen afvises for-den såkaldte kritiske region- og dem, for hvilke den ikke er. Sandsynligheden for den kritiske region er α . I tilfælde af en sammensat nulhypotese er den maksimale sandsynlighed for den kritiske region α .
  8. Compute af de indlæg, de observerede værdi t obs af det statistiske T .
  9. Beslut dig for enten at afvise nulhypotesen til fordel for alternativet eller ikke afvise den. Beslutningsreglen er at afvise nulhypotesen H 0, hvis den observerede værdi t obs er i det kritiske område, og ikke at forkaste nulhypotesen på anden måde.

En almindelig alternativ formulering af denne proces går som følger:

  1. Compute af de indlæg, de observerede værdi t obs af det statistiske T .
  2. Beregn p -værdien . Dette er sandsynligheden under nulhypotesen for at prøve en teststatistik, der er mindst lige så ekstrem som den, der blev observeret (den maksimale sandsynlighed for denne begivenhed, hvis hypotesen er sammensat).
  3. Afvis nulhypotesen til fordel for den alternative hypotese, hvis og kun hvis p -værdien er mindre end (eller lig med) signifikansniveauet (den valgte sandsynlighed) tærskel ( α ), for eksempel 0,05 eller 0,01.

Den tidligere proces var tidligere fordelagtig, da der kun var tabeller med teststatistikker med fælles sandsynlighedsgrænser. Det gjorde det muligt at træffe en beslutning uden beregning af en sandsynlighed. Det var tilstrækkeligt til klassearbejde og til operationel brug, men det var mangelfuldt til rapportering af resultater. Sidstnævnte proces var afhængig af omfattende tabeller eller beregningsunderstøttelse, der ikke altid er tilgængelig. Den eksplicitte beregning af en sandsynlighed er nyttig til rapportering. Beregningerne udføres nu trivielt med passende software.

Forskellen i de to processer, der anvendes på eksemplet på radioaktiv kuffert (nedenfor):

  • "Geiger-tælleraflæsning er 10. Grænsen er 9. Kontroller kufferten."
  • "Geiger-tælleraflæsning er høj; 97% af sikre kufferter har lavere aflæsninger. Grænsen er 95%. Tjek kufferten."

Den tidligere rapport er tilstrækkelig, sidstnævnte giver en mere detaljeret forklaring af dataene og årsagen til, at kufferten bliver kontrolleret.

At ikke afvise nulhypotesen betyder ikke, at nulhypotesen er "accepteret" (se afsnittet Fortolkning ).

De her beskrevne processer er helt passende til beregning. De forsømmer alvorligt designet af eksperimenthensyn .

Det er særligt kritisk, at passende prøvestørrelser estimeres, før eksperimentet udføres.

Udtrykket "test af betydning" blev opfundet af statistikeren Ronald Fisher .

Fortolkning

Den p -værdi er sandsynligheden for, at et bestemt resultat (eller en mere markant resultat) ville forekomme under nul-hypotesen. Ved et signifikansniveau på 0,05 forventes den rimelige mønt (forkert) at afvise nulhypotesen i cirka 1 ud af hver 20 test. Den p -værdi giver ikke sandsynligheden for, at enten hypotese er korrekt (en almindelig kilde til forvirring).

Hvis p -værdien er mindre end den valgte signifikansgrænse (tilsvarende, hvis den observerede teststatistik er i det kritiske område), siger vi, at nulhypotesen afvises på det valgte signifikansniveau. Hvis p -værdien ikke er mindre end den valgte signifikansgrænse (tilsvarende, hvis den observerede teststatistik er uden for det kritiske område), afvises nulhypotesen ikke.

I eksempelet Lady smagende te (nedenfor) krævede Fisher, at damen korrekt kategoriserede alle kopperne te for at retfærdiggøre den konklusion, at resultatet sandsynligvis ikke var et tilfælde. Hans test viste, at hvis damen effektivt gættede tilfældigt (nulhypotesen), var der 1,4% chance for, at de observerede resultater (perfekt bestilt te) ville forekomme.

At afvise hypotesen om, at et stort potetryk stammer fra en bjørn, beviser ikke umiddelbart eksistensen af Bigfoot . Hypotesetestning understreger afvisningen, som er baseret på en sandsynlighed, snarere end accept.

"Sandsynligheden for at afvise nulhypotesen er en funktion af fem faktorer: uanset om testen er en- eller tohale, betydningsniveauet, standardafvigelsen, mængden af ​​afvigelse fra nulhypotesen og antallet af observationer. "

Brug og betydning

Statistik er nyttig til at analysere de fleste datasamlinger. Dette gælder lige så godt for hypotesetest, der kan begrunde konklusioner, selv når der ikke findes nogen videnskabelig teori. I Lady -smagningen af ​​te var det "indlysende", at der ikke var nogen forskel mellem (mælk hældt i te) og (te hældt i mælk). Dataene modsagde det "indlysende".

Den virkelige verden af ​​hypotesetest omfatter:

  • Test om flere mænd end kvinder lider af mareridt
  • Etablering af forfatterskab til dokumenter
  • Evaluering af fuldmånens effekt på adfærd
  • Bestemmelse af det område, hvorunder en flagermus kan detektere et insekt ved ekko
  • Beslutning om hospitalstæpper resulterer i flere infektioner
  • Valg af de bedste midler til at stoppe med at ryge
  • Kontrol af, om klistermærker afspejler bilejers adfærd
  • Test af håndskriftanalytikeres påstande

Statistisk hypotesetest spiller en vigtig rolle i hele statistikken og i statistisk slutning . For eksempel siger Lehmann (1992) i en gennemgang af det grundlæggende papir af Neyman og Pearson (1933): "Ikke desto mindre, trods deres mangler, er det nye paradigme, der blev formuleret i papiret fra 1933, og de mange udviklinger, der blev gennemført inden for dets rammer, fortsat spiller en central rolle i både teori og praksis i statistik og kan forventes at gøre det i en overskuelig fremtid ".

Betydningstest har været det foretrukne statistiske værktøj i nogle eksperimentelle samfundsvidenskaber (over 90% af artiklerne i Journal of Applied Psychology i begyndelsen af ​​1990'erne). Andre felter har foretrukket estimering af parametre (f.eks. Effektstørrelse ). Betydningstest bruges som en erstatning for den traditionelle sammenligning af forudsagt værdi og eksperimentelt resultat i kernen i den videnskabelige metode . Når teori kun er i stand til at forudsige tegn på et forhold, kan en retningsbestemt (ensidig) hypotesetest konfigureres, så kun et statistisk signifikant resultat understøtter teori. Denne form for teorivurdering er den mest kritiserede anvendelse af hypotesetest.

Forsigtig

"Hvis regeringen krævede statistiske procedurer for at bære advarselsmærker som dem på stoffer, ville de fleste slutningsmetoder faktisk have lange etiketter." Denne forsigtighed gælder for hypotesetest og alternativer til dem.

Den vellykkede hypotesetest er forbundet med en sandsynlighed og en type-I fejlrate. Konklusionen kan være forkert.

Testens konklusion er kun lige så solid som prøven, den er baseret på. Forsøgets design er kritisk. En række uventede effekter er blevet observeret, herunder:

  • Den smarte Hans -effekt . En hest syntes at være i stand til at lave simpel regning.
  • Den Hawthorne effekt . Industriarbejdere var mere produktive i bedre belysning og mest produktive i dårligere.
  • Den placebo-effekt . Piller uden medicinsk aktive ingredienser var bemærkelsesværdigt effektive.

En statistisk analyse af vildledende data giver misvisende konklusioner. Spørgsmålet om datakvalitet kan være mere subtilt. I f.eks. Prognoser er der ikke enighed om et mål for prognosens nøjagtighed. I mangel af en konsensusmåling vil ingen beslutning baseret på målinger være uden kontroverser.

Bogen How to Lie with Statistics er den mest populære statistikbog, der nogensinde er udgivet. Det overvejer ikke meget hypotesetest, men dets advarsler er gældende, herunder: Mange påstande fremsættes på grundlag af prøver, der er for små til at overbevise. Hvis en rapport ikke nævner stikprøvestørrelse, skal du være i tvivl.

Hypotesetest fungerer som et filter af statistiske konklusioner; kun de resultater, der opfylder en sandsynlighedsgrænse, kan offentliggøres. Økonomi fungerer også som et publikationsfilter; kun de resultater, der er gunstige for forfatteren og finansieringskilden, kan indsendes til offentliggørelse. Filtreringens indvirkning på offentliggørelse kaldes publikationsbias . Et relateret problem er multipel testning (undertiden knyttet til data mining ), hvor en række tests for en række mulige effekter anvendes på et enkelt datasæt, og kun dem, der giver et betydeligt resultat, rapporteres. Disse behandles ofte ved hjælp af procedurer til korrektion af multiplicitet, der styrer den familiære fejlrate (FWER) eller den falske opdagelsesrate (FDR).

Dem, der tager kritiske beslutninger baseret på resultaterne af en hypotesetest, er kloge at se på detaljerne frem for konklusionen alene. I de fysiske videnskaber accepteres de fleste resultater kun fuldt ud, når de bekræftes uafhængigt af hinanden. Det generelle råd vedrørende statistik er, "Tal lyver aldrig, men løgnere figurerer" (anonymt).

Eksempler

Menneskelig kønsforhold

Den tidligste brug af statistisk hypotesetest krediteres generelt spørgsmålet om, hvorvidt mandlige og kvindelige fødsler er lige sandsynlige (nulhypotese), som blev behandlet i 1700'erne af John Arbuthnot (1710) og senere af Pierre-Simon Laplace (1770'erne) .

Arbuthnot undersøgte fødselsregistre i London for hvert af de 82 år fra 1629 til 1710 og anvendte tegnprøven , en simpel ikke-parametrisk test . Hvert år oversteg antallet af mænd født i London antallet af hunner. I betragtning af flere mandlige eller flere kvindelige fødsler som lige så sandsynlige, er sandsynligheden for det observerede resultat 0,5 82 , eller cirka 1 ud af 4.8360,0000,0000,0000,0000,0000; i moderne termer er dette p -værdien. Arbuthnot konkluderede, at dette er for lille til at skyldes tilfældigheder og i stedet må skyldes guddommelig forsyn: "Herfra følger det, at det er kunst, ikke tilfældighed, der styrer." I moderne termer afviste han nulhypotesen om lige så sandsynlige mandlige og kvindelige fødsler på p  = 1/2 82 signifikansniveau.

Laplace overvejede statistikkerne over næsten en halv million fødsler. Statistikken viste et overskud af drenge sammenlignet med piger. Han konkluderede ved beregning af en p -værdi, at overskuddet var en reel, men uforklarlig, effekt.

Dame smager te

I et berømt eksempel på hypotesetest, kendt som damen, der smagte te , Dr. Muriel Bristol , hævdede en kollega fra Fisher at kunne fortælle, om te eller mælk først blev tilsat til en kop. Fisher foreslog at give hende otte kopper, fire af hver sort, i tilfældig rækkefølge. Man kunne så spørge, hvad sandsynligheden var for, at hun fik det nummer, hun fik korrekt, men bare tilfældigt. Nulhypotesen var, at damen ikke havde en sådan evne. Teststatistikken var en simpel optælling af antallet af succeser med at vælge de 4 kopper. Den kritiske region var det eneste tilfælde af 4 succeser af 4 mulige baseret på et konventionelt sandsynlighedskriterium (<5%). Et mønster på 4 succeser svarer til 1 ud af 70 mulige kombinationer (s. 1,4%). Fisher hævdede, at der ikke (nogensinde) var behov for en alternativ hypotese. Damen identificerede korrekt hver kop, hvilket ville blive betragtet som et statistisk signifikant resultat.

Retssag

En statistisk testprocedure kan sammenlignes med en kriminel retssag ; en tiltalt anses for ikke skyldig, så længe hans eller hendes skyld ikke er bevist. Anklageren forsøger at bevise tiltaltes skyld. Først når der er tilstrækkeligt bevis for anklagemyndigheden, bliver den tiltalte dømt.

I starten af ​​proceduren er der to hypoteser : "tiltalte er ikke skyldig", og : "tiltalte er skyldig". Den første,, kaldes nulhypotesen . Den anden,, kaldes den alternative hypotese . Det er den alternative hypotese, man håber at støtte.

Hypotesen om uskyld afvises kun, når en fejl er meget usandsynlig, fordi man ikke ønsker at dømme en uskyldig tiltalt. En sådan fejl kaldes fejl af den første art (dvs. en uskyldig persons overbevisning), og forekomsten af ​​denne fejl kontrolleres til at være sjælden. Som en konsekvens af denne asymmetriske adfærd er en fejl af anden art (frifindelse af en person, der begik forbrydelsen), mere almindelig.

H 0 er sandt
Virkelig ikke skyldig
H 1 er sandt
Virkelig skyldig
Afvis ikke nulhypotesen
Frifindelse
Rigtig beslutning Forkert beslutning
Type II fejl
Afvis nulhypotese
Overbevisning
Forkert beslutning
Type I Fejl
Rigtig beslutning

En straffesag kan betragtes som en eller begge afgørelsesprocesser: skyldig vs ikke skyldig eller beviser vs en tærskel ("ud over en rimelig tvivl"). I en opfattelse dømmes tiltalte; i den anden opfattelse bedømmes anklagemyndighedens præstation (som bærer bevisbyrden). En hypotesetest kan betragtes som enten en vurdering af en hypotese eller som en bevisbedømmelse.

Philosopher's beans

Følgende eksempel blev fremstillet af en filosof, der beskrev videnskabelige metoder generationer, før hypotesetest blev formaliseret og populariseret.

Få bønner af denne håndfuld er hvide.
De fleste bønner i denne pose er hvide.
Derfor: Disse bønner blev sandsynligvis taget fra en anden pose.
Dette er en hypotetisk slutning.

Bønnerne i posen er befolkningen. Den håndfulde er prøven. Nulhypotesen er, at prøven stammer fra befolkningen. Kriteriet for at afvise nulhypotesen er den "indlysende" forskel i udseende (en uformel forskel i middelværdien). Det interessante resultat er, at hensynet til en reel befolkning og en reel prøve frembragte en imaginær pose. Filosofen overvejede logik frem for sandsynlighed. For at være en reel statistisk hypotesetest kræver dette eksempel formaliteterne i en sandsynlighedsberegning og en sammenligning af denne sandsynlighed med en standard.

En simpel generalisering af eksemplet betragter en blandet pose bønner og en håndfuld, der indeholder enten meget få eller meget mange hvide bønner. Generaliseringen betragter begge ekstremer. Det kræver flere beregninger og flere sammenligninger for at nå frem til et formelt svar, men kernefilosofien er uændret; Hvis sammensætningen af ​​den håndfuld er meget forskellig fra posens, stammer prøven sandsynligvis fra en anden pose. Det originale eksempel kaldes en ensidig eller en ensidig test, mens generaliseringen betegnes som en tosidet eller tosidet test.

Erklæringen er også baseret på den konklusion, at stikprøven var tilfældig. Hvis nogen havde plukket gennem posen for at finde hvide bønner, ville det forklare, hvorfor hånden havde så mange hvide bønner, og også forklare, hvorfor antallet af hvide bønner i posen var opbrugt (selvom posen sandsynligvis er beregnet til at antages meget større end ens hånd).

Clairvoyant kortspil

En person (emnet) testes for clairvoyance . De vises 25 gange på bagsiden af ​​et tilfældigt valgt spillekort og bliver spurgt, hvilken af ​​de fire dragter det tilhører. Antallet af hits, eller korrekte svar, kaldes X .

Når vi forsøger at finde bevis for deres clairvoyance, er nulhypotesen foreløbig, at personen ikke er clairvoyant. Alternativet er: personen er (mere eller mindre) clairvoyant.

Hvis nulhypotesen er gyldig, er det eneste, testpersonen kan gøre, at gætte. For hvert kort er sandsynligheden (relativ frekvens) for en enkelt farve, der vises, 1/4. Hvis alternativet er gyldigt, vil testpersonen forudsige dragten korrekt med sandsynlighed større end 1/4. Vi kalder sandsynligheden for at gætte korrekt s . Hypoteserne er altså:

  • nulhypotese     (bare gætte)

og

  • alternativ hypotese    (sand clairvoyant).

Når testpersonen korrekt forudsiger alle 25 kort, vil vi betragte dem som clairvoyante og afvise nulhypotesen. Således også med 24 eller 23 hits. Med kun 5 eller 6 hits er der derimod ingen grund til at overveje dem. Men hvad med 12 hits eller 17 hits? Hvad er det kritiske antal, c , for hits, på hvilket tidspunkt vi anser emnet for at være clairvoyant? Hvordan bestemmer vi den kritiske værdi c ? Med valget c = 25 (dvs. vi accepterer kun clairvoyance, når alle kort er forudsagt korrekt), er vi mere kritiske end med c = 10. I det første tilfælde vil næsten ingen forsøgspersoner blive anerkendt som clairvoyante, i det andet tilfælde vil et bestemt antal bestå testen. I praksis bestemmer man, hvor kritisk man vil være. Det vil sige, at man bestemmer, hvor ofte man accepterer en fejl af den første slags - en falsk positiv eller Type I -fejl. Med c = 25 er sandsynligheden for en sådan fejl:

og derfor meget lille. Sandsynligheden for en falsk positiv er sandsynligheden for tilfældigt at gætte korrekt alle 25 gange.

At være mindre kritisk, med c = 10, giver:

Således giver c = 10 en meget større sandsynlighed for falsk positiv.

Inden testen faktisk udføres, bestemmes den maksimalt acceptable sandsynlighed for en type I -fejl ( α ). Typisk vælges værdier i området 1% til 5%. (Hvis den maksimale acceptable fejlprocent er nul, kræves et uendeligt antal korrekte gæt.) Afhængigt af denne type 1 fejlrate beregnes den kritiske værdi c . For eksempel, hvis vi vælger en fejlprocent på 1%, beregnes c således:

Fra alle tallene c, med denne egenskab, vælger vi den mindste for at minimere sandsynligheden for en Type II -fejl, en falsk negativ . For ovenstående eksempel vælger vi: .

Radioaktiv kuffert

Overvej som et eksempel at afgøre, om en kuffert indeholder noget radioaktivt materiale. Placeret under en Geiger -tæller producerer den 10 tællinger i minuttet. Nulhypotesen er, at der ikke er noget radioaktivt materiale i kufferten, og at alle målte tællinger skyldes omgivende radioaktivitet typisk for den omgivende luft og ufarlige genstande. Vi kan derefter beregne, hvor sandsynligt det er, at vi ville observere 10 tællinger i minuttet, hvis nulhypotesen var sand. Hvis nulhypotesen forudsiger (siger) i gennemsnit 9 tællinger i minuttet, er der ifølge Poisson -fordelingen typisk for radioaktivt henfald omkring 41% chance for at registrere 10 eller flere tællinger. Således kan vi sige, at kufferten er kompatibel med nulhypotesen (dette garanterer ikke, at der ikke er noget radioaktivt materiale, bare at vi ikke har nok beviser til at tyde på, at der er). På den anden side, hvis nulhypotesen forudsiger 3 tællinger pr. Minut (for hvilken Poisson -distributionen kun forudsiger 0,1% chance for at registrere 10 eller flere tællinger), så er kufferten ikke kompatibel med nulhypotesen, og der er sandsynligvis andre faktorer, der er ansvarlige at producere målingerne.

Testen bekræfter ikke direkte tilstedeværelsen af ​​radioaktivt materiale. En vellykket test hævder, at påstanden om, at der ikke er noget radioaktivt materiale til stede, er usandsynligt i betragtning af læsningen (og derfor ...). Metodens dobbelte negative (modbeviser nulhypotesen) er forvirrende, men at bruge et modeksempel til at modbevise er standard matematisk praksis. Metodens tiltrækning er dens praktiske egenskaber. Vi kender (af erfaring) det forventede antal tællinger med kun omgivende radioaktivitet til stede, så vi kan sige, at en måling er usædvanlig stor. Statistik formaliserer bare det intuitive ved at bruge tal i stedet for adjektiver. Vi kender sandsynligvis ikke egenskaberne ved de radioaktive kufferter; Vi går bare ud fra, at de producerer større aflæsninger.

For at formalisere intuitionen lidt: mistanke om radioaktivitet, hvis Geiger-tællingen med kufferten er blandt eller overstiger de største (5% eller 1%) af Geiger-tællinger foretaget med omgivende stråling alene. Dette gør ingen antagelser om fordelingen af ​​tællinger. Mange omgivelsesstrålingsobservationer er påkrævet for at opnå gode sandsynlighedsestimater for sjældne hændelser.

Den her beskrevne test er mere fuldstændigt null-hypotese statistisk signifikans test. Nulhypotesen repræsenterer, hvad vi som standard ville tro, før vi ser nogen beviser. Statistisk signifikans er en mulig fund af testen, erklæret, når den observerede prøve sandsynligvis ikke er sket tilfældigt, hvis nulhypotesen var sand. Testens navn beskriver dens formulering og dens mulige resultat. Et kendetegn ved testen er dens klare beslutning: at afvise eller ikke afvise nulhypotesen. En beregnet værdi sammenlignes med en tærskel, som bestemmes ud fra den acceptable fejlrisiko.

Definition af udtryk

Følgende definitioner er hovedsageligt baseret på redegørelsen i bogen af ​​Lehmann og Romano:

Statistisk hypotese
En erklæring om parametrene, der beskriver en population (ikke en prøve ).
Statistik
En værdi beregnet ud fra en prøve uden nogen ukendte parametre, ofte for at opsummere prøven til sammenligningsformål.
Simpel hypotese
Enhver hypotese, der specificerer befolkningsfordelingen fuldstændigt.
Sammensat hypotese
Enhver hypotese, der ikke præciserer befolkningsfordelingen fuldstændigt.
Nulhypotese (H 0 )
En hypotese forbundet med en modsætning til en teori, man gerne vil bevise.
Positive data
Data, der gør det muligt for efterforskeren at afvise en nulhypotese.
Alternativ hypotese (H 1 )
En hypotese (ofte sammensat) forbundet med en teori, man gerne vil bevise.
Statistisk test
En procedure, hvis input er prøver, og hvis resultat er en hypotese.
Afvisningsregion / kritisk region
Sættet med værdier for teststatistikken, som nulhypotesen afvises for.
Kritisk værdi
Tærskelværdien af ​​teststatistikken til afvisning af nulhypotesen.
Testens effekt (1 -  β )
Testens sandsynlighed for korrekt at afvise nulhypotesen, når den alternative hypotese er sand. Komplementet til den falske negative sats, β . Magt kaldes følsomhed i biostatistik . ("Dette er en sensitiv test. Fordi resultatet er negativt, kan vi med sikkerhed sige, at patienten ikke har tilstanden.") Se følsomhed og specificitet og type I og type II fejl for udtømmende definitioner.
Størrelse
For simple hypoteser er dette testens sandsynlighed for forkert at afvise nulhypotesen. Den falske positive sats. For sammensatte hypoteser er dette højeste sandsynlighed for at afvise nulhypotesen i alle tilfælde, der er dækket af nulhypotesen. Komplementet til den falske positive rate betegnes specificitet i biostatistik . ("Dette er en specifik test. Fordi resultatet er positivt, kan vi med sikkerhed sige, at patienten har tilstanden.") Se følsomhed og specificitet og type I og type II fejl for udtømmende definitioner.
Signifikansniveau for en test ( α )
Det er den øvre grænse, der pålægges størrelsen af ​​en test. Dens værdi vælges af statistikeren, før han ser på dataene eller vælger en bestemt test, der skal bruges. Det er den maksimale eksponering for fejlagtigt at afvise H 0, som de er klar til at acceptere. At teste H 0 på signifikansniveau α betyder at teste H 0 med en test, hvis størrelse ikke overstiger α . I de fleste tilfælde bruger man test, hvis størrelse er lig med signifikansniveauet.
p -værdi
Hvad sandsynligheden for at observere en teststatistik mindst lige så ekstrem som den, der faktisk blev observeret, ville være, hvis nulhypotesen var sand.
Statistisk signifikans test
En forgænger til den statistiske hypotesetest (se afsnittet Origins). Et eksperimentelt resultat siges at være statistisk signifikant, hvis en prøve var tilstrækkeligt uforenelig med (nul) hypotesen. Dette blev forskelligt betragtet som sund fornuft, en pragmatisk heuristik til at identificere meningsfulde eksperimentelle resultater, en konvention, der fastlagde en tærskel for statistisk bevis eller en metode til at drage konklusioner fra data. Den statistiske hypotesetest tilføjede matematisk stringens og filosofisk konsistens til konceptet ved at gøre den alternative hypotese eksplicit. Begrebet bruges løst til den moderne version, som nu er en del af statistisk hypotesetest.
Konservativ test
En test er konservativ, hvis den sande sandsynlighed for forkert afvisning af nulhypotesen aldrig er større end den nominelle værdi , når den er konstrueret til et givet nominelt signifikansniveau .
Præcis test
En test, hvor signifikansniveauet eller den kritiske værdi kan beregnes nøjagtigt, dvs. uden tilnærmelse. I nogle sammenhænge er dette udtryk begrænset til test anvendt på kategoriske data og til permutationstest , hvor beregninger udføres ved en fuldstændig optælling af alle mulige resultater og deres sandsynligheder.

En statistisk hypotesetest sammenligner en teststatistik ( z eller t for eksempler) med en tærskel. Teststatistikken (formlen i nedenstående tabel) er baseret på optimalitet. For et fast niveau af fejlfrekvens af type I minimerer brugen af ​​disse statistikker type II -fejlfrekvenser (svarende til maksimal effekt). Følgende udtryk beskriver tests med hensyn til sådan optimalitet:

Mest kraftfulde test
For en given størrelse eller signifikansniveau er testen med den største effekt (sandsynlighed for afvisning) for en given værdi af parameter (erne), der testes, indeholdt i den alternative hypotese.
Ensartet mest kraftfulde test (UMP)
En test med den største effekt for alle værdier af parameter (erne), der testes, indeholdt i den alternative hypotese.

Fælles teststatistik

Variationer og underklasser

Statistisk hypotesetest er en nøgleteknik til både frekvensinterferens og Bayesiansk inferens , selvom de to typer inferens har bemærkelsesværdige forskelle. Statistiske hypotesetest definerer en procedure, der kontrollerer (retter) sandsynligheden for forkert at beslutte, at en standardposition ( nulhypotese ) er forkert. Proceduren er baseret på, hvor sandsynligt det ville være for et sæt observationer at forekomme, hvis nulhypotesen var sand. Bemærk, at denne sandsynlighed for at træffe en forkert beslutning ikke er sandsynligheden for, at nulhypotesen er sand, og heller ikke om nogen specifik alternativ hypotese er sand. Dette står i kontrast til andre mulige teknikker inden for beslutningsteori , hvor nul- og alternativhypotesen behandles på et mere lige grundlag.

En naiv Bayesiansk tilgang til hypotesetest er at basere beslutninger på den posterior sandsynlighed , men dette mislykkes, når man sammenligner point og kontinuerlige hypoteser. Andre tilgange til beslutningstagning, såsom bayesisk beslutningsteori , forsøger at afbalancere konsekvenserne af forkerte beslutninger på tværs af alle muligheder frem for at koncentrere sig om en enkelt nulhypotese. En række andre tilgange til at nå til en beslutning baseret på data er tilgængelige via beslutningsteori og optimale beslutninger , hvoraf nogle har ønskelige egenskaber. Hypotesetest er dog en dominerende tilgang til dataanalyse inden for mange videnskabelige områder. Udvidelser til teorien om hypotesetest omfatter undersøgelse af testernes magt , det vil sige sandsynligheden for korrekt at afvise nulhypotesen, da den er falsk. Sådanne overvejelser kan bruges til bestemmelse af stikprøvestørrelse inden indsamling af data.

Historie

Tidlig brug

Mens hypotesetest blev populært tidligt i det 20. århundrede, blev tidlige former brugt i 1700'erne. Den første anvendelse krediteres John Arbuthnot (1710), efterfulgt af Pierre-Simon Laplace (1770'erne), i analysen af ​​det menneskelige kønsforhold ved fødslen; se § Menneskekønsforhold .

Moderne oprindelse og tidlig kontrovers

Moderne signifikans-test er stort set produktet af Karl Pearson ( p- værdi , Pearsons chi-squared-test ), William Sealy Gosset ( Students t-distribution ) og Ronald Fisher (" nulhypotese ", variansanalyse , " signifikansetest ") , mens hypotesetestning blev udviklet af Jerzy Neyman og Egon Pearson (søn af Karl). Ronald Fisher begyndte sit liv inden for statistik som Bayesianer (Zabell 1992), men Fisher blev hurtigt utilfreds med den involverede subjektivitet (nemlig brug af ligegyldighedsprincippet ved bestemmelse af tidligere sandsynligheder) og søgte at give en mere "objektiv" tilgang til induktive slutning.

Fisher var en landbrugsstatistiker, der lagde vægt på streng eksperimentelt design og metoder til at udtrække et resultat fra få prøver, der antog gaussiske fordelinger. Neyman (der gik sammen med den yngre Pearson) lagde vægt på matematisk stringens og metoder til at opnå flere resultater fra mange prøver og en bredere vifte af distributioner. Moderne hypotesetest er en inkonsekvent hybrid af Fisher vs Neyman/Pearson -formulering, metoder og terminologi udviklet i begyndelsen af ​​det 20. århundrede.

Fisher populariserede "signifikans -testen". Han krævede en nulhypotese (svarende til en befolkningsfrekvensfordeling) og en prøve. Hans (nu velkendte) beregninger afgjorde, om nulhypotesen skulle afvises eller ej. Betydningstest udnyttede ikke en alternativ hypotese, så der var ikke noget begreb om en type II -fejl.

Den p -værdien blev dannet som en uformel, men objektiv, indeks betød at hjælpe en forsker bestemme (baseret på anden viden) om at ændre fremtidige eksperimenter eller styrke ens tro på nul-hypotesen. Hypotesetest (og type I/II -fejl) blev udtænkt af Neyman og Pearson som et mere objektivt alternativ til Fishers p -værdi, også beregnet til at bestemme forskeradfærd, men uden at kræve forskerens induktive slutning .

Neyman & Pearson betragtede et andet problem (som de kaldte "hypotesetest"). De overvejede oprindeligt to enkle hypoteser (begge med frekvensfordelinger). De beregnede to sandsynligheder og valgte typisk hypotesen forbundet med den højere sandsynlighed (hypotesen er mere tilbøjelig til at have genereret stikprøven). Deres metode valgte altid en hypotese. Det tillod også beregning af begge typer fejlsandsynligheder.

Fisher og Neyman/Pearson stødte bittert. Neyman/Pearson betragtede deres formulering som en forbedret generalisering af signifikansafprøvning. (Definitionspapiret var abstrakt . Matematikere har generaliseret og forfinet teorien i årtier.) Fisher mente, at det ikke kunne anvendes til videnskabelig forskning, fordi det ofte i løbet af forsøget blev opdaget, at de første antagelser om nulhypotesen er tvivlsom på grund af uventede fejlkilder. Han mente, at brugen af ​​stive afvisnings-/acceptbeslutninger baseret på modeller, der er formuleret, før data indsamles, var uforenelig med dette almindelige scenario, som forskere står over for, og forsøg på at anvende denne metode til videnskabelig forskning ville føre til masseforvirring.

Striden mellem Fisher og Neyman – Pearson blev ført på filosofiske grunde, karakteriseret af en filosof som en strid om modellernes rette rolle i statistisk slutning.

Begivenheder intervenerede: Neyman accepterede en stilling på den vestlige halvkugle, brød sit partnerskab med Pearson og adskilte disputanter (som havde besat den samme bygning) med meget af planetdiameteren. Anden Verdenskrig gav en pause i debatten. Striden mellem Fisher og Neyman ophørte (uafklaret efter 27 år) med Fishers død i 1962. Neyman skrev en velrenommeret lovtale. Nogle af Neymans senere publikationer rapporterede p -værdier og signifikansniveauer.

Den moderne version af hypotesetest er en hybrid af de to tilgange, der skyldes forvirring af forfattere om statistiske lærebøger (som forudsagt af Fisher), der begyndte i 1940'erne. (Men signalregistrering bruger f.eks. Stadig Neyman/Pearson -formuleringen.) Store konceptuelle forskelle og mange forbehold ud over de ovennævnte blev ignoreret. Neyman og Pearson gav den stærkere terminologi, den mere stringente matematik og den mere konsekvente filosofi, men emnet, der undervises i dag i indledende statistik, har flere ligheder med Fishers metode end deres.

Engang omkring 1940 begyndte forfattere til statistiske lærebøger at kombinere de to tilgange ved at bruge p -værdien i stedet for teststatistikken (eller data) til at teste mod Neyman – Pearson "signifikansniveau".

En sammenligning mellem Fisherian, frequentist (Neyman – Pearson)
# Fishers nulhypotesetest Neyman -Pearson beslutningsteori
1 Opstil en statistisk nulhypotese. Nullet behøver ikke at være en nul hypotese (dvs. nul forskel). Opsæt to statistiske hypoteser, H1 og H2, og beslut dig om α, β og stikprøvestørrelse inden forsøget, baseret på subjektive cost-benefit-overvejelser. Disse definerer en afvisningsregion for hver hypotese.
2 Rapporter det nøjagtige signifikansniveau (f.eks. P = 0,051 eller p = 0,049). Brug ikke et konventionelt niveau på 5%, og tal ikke om at acceptere eller afvise hypoteser. Hvis resultatet er "ikke signifikant", skal du ikke drage nogen konklusioner og ikke tage nogen beslutninger, men suspendere dommen, indtil yderligere data er tilgængelige. Hvis dataene falder ind i afvisningsområdet for H1, skal du acceptere H2; accepter ellers H1. Bemærk, at accept af en hypotese ikke betyder, at du tror på den, men kun at du handler som om den var sand.
3 Brug kun denne procedure, hvis der er lidt kendt om problemet ved hånden, og kun for at drage foreløbige konklusioner i forbindelse med et forsøg på at forstå den eksperimentelle situation. Procedurens anvendelighed er blandt andet begrænset til situationer, hvor du har en disjunktion af hypoteser (f.eks. Enten μ1 = 8 eller μ2 = 10 er sand), og hvor du kan foretage meningsfulde cost-benefit-afvejninger ved valg af alfa og beta.

Tidlige valg af nulhypotese

Paul Meehl har argumenteret for, at den epistemologiske betydning af valget af nulhypotese stort set ikke er blevet anerkendt. Når nulhypotesen forudsiges af teori, vil et mere præcist eksperiment være en mere alvorlig test af den underliggende teori. Når nulhypotesen som standard er "ingen forskel" eller "ingen effekt", er et mere præcist eksperiment en mindre alvorlig test af den teori, der motiverede udførelsen af ​​eksperimentet. En undersøgelse af oprindelsen til sidstnævnte praksis kan derfor være nyttig:

1778: Pierre Laplace sammenligner fødselsrater for drenge og piger i flere europæiske byer. Han udtaler: "det er naturligt at konkludere, at disse muligheder er næsten i samme forhold". Således er Laplaces nulhypotese om, at fødselsrater for drenge og piger bør være ens givet "konventionel visdom".

1900: Karl Pearson udvikler chi squared -testen for at bestemme "om en given form for frekvenskurve effektivt vil beskrive prøverne trukket fra en given population." Nulhypotesen er således, at en befolkning beskrives ved en vis fordeling forudsagt af teori. Han bruger som et eksempel tallene på fem og seksere i dataene fra Weldon terningkast .

1904: Karl Pearson udvikler begrebet " beredskab " for at afgøre, om resultaterne er uafhængige af en given kategorisk faktor. Her er nulhypotesen som standard, at to ting ikke er relateret (f.eks. Dannelse af ar og dødsfald fra kopper). Nulhypotesen i dette tilfælde forudsiges ikke længere af teori eller konventionel visdom, men er i stedet princippet om ligegyldighed, der fik Fisher og andre til at afvise brugen af ​​"omvendte sandsynligheder".

Nulhypotese test af statistisk signifikans

Et eksempel på Neyman – Pearson hypotesetest kan laves ved at ændre eksemplet på den radioaktive kuffert. Hvis "kufferten" faktisk er en afskærmet beholder til transport af radioaktivt materiale, kan en test bruges til at vælge mellem tre hypoteser: ingen radioaktiv kilde til stede, en til stede, to (alle) til stede. Testen kan være påkrævet for sikkerheden, med handlinger påkrævet i hvert tilfælde. Den Neyman-Pearson lemmaet af hypotesetest siger, at en god kriterium for udvælgelsen af hypoteser er forholdet mellem deres sandsynligheder (en sandsynlighed forhold ). En enkel løsningsmetode er at vælge hypotesen med den højeste sandsynlighed for de observerede Geigertællinger. Det typiske resultat matcher intuition: få tællinger indebærer ingen kilde, mange tællinger indebærer to kilder og mellemtællinger indebærer en kilde. Bemærk også, at der normalt er problemer med at bevise en negativ . Nulhypoteser bør i det mindste være forfalskelige .

Neyman -Pearson -teorien kan rumme både tidligere sandsynligheder og omkostninger ved handlinger som følge af beslutninger. Førstnævnte tillader hver test at overveje resultaterne af tidligere tests (i modsætning til Fishers signifikans -tests). Sidstnævnte tillader overvejelse af økonomiske spørgsmål (f.eks.) Samt sandsynligheder. Et sandsynlighedsforhold er fortsat et godt kriterium for at vælge blandt hypoteser.

De to former for hypotesetest er baseret på forskellige problemformuleringer. Den originale test er analog med et sandt/falsk spørgsmål; Neyman – Pearson -testen ligner mere multiple choice. Efter Tukey 's opfattelse fremlægger førstnævnte en konklusion på grundlag af kun stærke beviser, mens sidstnævnte træffer en beslutning på grundlag af tilgængeligt bevis. Selvom de to tests virker ganske forskellige både matematisk og filosofisk, fører senere udviklinger til den modsatte påstand. Overvej mange små radioaktive kilder. Hypoteserne bliver til 0,1,2,3 ... korn af radioaktivt sand. Der er lille forskel mellem ingen eller en del stråling (Fisher) og 0 korn af radioaktivt sand kontra alle alternativerne (Neyman – Pearson). Det store Neyman -Pearson -papir fra 1933 betragtede også sammensatte hypoteser (dem, hvis distribution inkluderer en ukendt parameter). Et eksempel viste optimaliteten af ​​(Elevens) t -test, "der kan ikke være en bedre test for den hypotese, der tages i betragtning" (s 321). Neyman -Pearson -teorien viste, at Fisherian -metoderne var optimale fra starten.

Fishers signifikans -test har vist sig at være et populært fleksibelt statistisk værktøj i applikationen med et lille matematisk vækstpotentiale. Neyman – Pearson hypotesetest hævdes som en søjle i matematisk statistik, der skaber et nyt paradigme for feltet. Det stimulerede også nye applikationer inden for statistisk proceskontrol , detektionsteori , beslutningsteori og spilteori . Begge formuleringer har været vellykkede, men succeserne har været af en anden karakter.

Striden om formuleringer er uafklaret. Videnskaben anvender primært Fishers (lidt modificerede) formulering som beskrevet i indledende statistik. Statistikere studerer Neyman -Pearson -teorien på forskerskolen. Matematikere er stolte over at forene formuleringerne. Filosofer betragter dem hver for sig. Lærte meninger anser formuleringerne for forskellige konkurrencedygtige (Fisher vs Neyman), inkompatible eller komplementære. Striden er blevet mere kompleks, siden Bayesiansk slutning har opnået respektabilitet.

Terminologien er inkonsekvent. Hypotesetest kan betyde enhver blanding af to formuleringer, der begge ændrede sig med tiden. Enhver diskussion af signifikanstest vs hypotesetest er dobbelt sårbar over for forvirring.

Fisher mente, at hypotesetestning var en nyttig strategi til at udføre industriel kvalitetskontrol, men han var meget uenig i, at hypotesetest kunne være nyttig for forskere. Hypotesetestning giver et middel til at finde teststatistikker, der bruges i signifikansafprøvning. Begrebet magt er nyttigt til at forklare konsekvenserne af at justere signifikansniveauet og bruges stærkt til bestemmelse af stikprøve . De to metoder forbliver filosofisk forskellige. De producerer normalt (men ikke altid ) det samme matematiske svar. Det foretrukne svar er kontekstafhængigt. Mens den eksisterende fusion af Fisher og Neyman – Pearson teorier er blevet stærkt kritiseret, er det blevet overvejet at ændre fusionen for at nå Bayesianske mål.

Kritik

Kritik af statistisk hypotesetest fylder mængder. Meget af kritikken kan opsummeres med følgende spørgsmål:

  • Fortolkningen af ​​en p -værdi er afhængig af stopregel og definition af multipel sammenligning. Førstnævnte ændres ofte i løbet af en undersøgelse, og sidstnævnte er uundgåeligt tvetydig. (dvs. "p -værdier afhænger af både de (data) observerede og af de andre mulige (data), der kunne være blevet observeret, men ikke var").
  • Forvirring som følge af (delvis) at kombinere Fisher og Neyman -Pearsons metoder, som er konceptuelt adskilte.
  • Fremhævelse af statistisk signifikans til udelukkelse af estimering og bekræftelse ved gentagne forsøg.
  • Kræver strengt statistisk signifikans som et kriterium for offentliggørelse, hvilket resulterer i publikationsbias . Det meste af kritikken er indirekte. I stedet for at være forkert, bliver statistisk hypotesetest misforstået, overforbrugt og misbrugt.
  • Når det bruges til at opdage, om der er forskel mellem grupper, opstår der et paradoks. Efterhånden som der foretages forbedringer af eksperimentelt design (f.eks. Øget målepræcision og prøvestørrelse), bliver testen mere mild. Medmindre man accepterer den absurde antagelse om, at alle støjkilder i dataene slettes fuldstændigt, nærmer chancen for at finde statistisk signifikans i begge retninger 100%. Denne absurde antagelse om, at middelforskellen mellem to grupper ikke kan være nul, indebærer imidlertid, at dataene ikke kan være uafhængige og identisk fordelt (iid), fordi den forventede forskel mellem to undergrupper af iid tilfældige variabler er nul; derfor er iid -antagelsen også absurd.
  • Lag af filosofiske bekymringer. Sandsynligheden for statistisk signifikans er en funktion af beslutninger truffet af eksperimenter/analytikere. Hvis beslutningerne er baseret på konvention, betegnes de som vilkårlige eller tankeløse, mens de, der ikke er så baseret, kan betegnes som subjektive. For at minimere type II -fejl anbefales store prøver. I psykologi hævdes praktisk talt alle nulhypoteser at være falske for tilstrækkeligt store prøver, så "... det er normalt useriøst at udføre et eksperiment med det ene formål at afvise nulhypotesen." "Statistisk signifikante fund er ofte vildledende" inden for psykologi. Statistisk signifikans indebærer ikke praktisk betydning, og korrelation indebærer ikke årsagssammenhæng . At stille tvivl om nulhypotesen er således langt fra direkte at støtte forskningshypotesen.
  • "[Jeg] fortæller os ikke, hvad vi vil vide". Lister over snesevis af klager er tilgængelige.

Kritikere og tilhængere er stort set faktisk enige om egenskaberne ved nullhypotesetestningstest (NHST): Selvom det kan levere kritisk information, er det utilstrækkeligt som det eneste værktøj til statistisk analyse . Vellykket afvisning af nulhypotesen kan muligvis ikke understøtte forskningshypotesen. Den fortsatte kontrovers vedrører udvælgelsen af ​​den bedste statistiske praksis i den nærmeste fremtid på baggrund af den eksisterende praksis. Imidlertid kan tilstrækkeligt forskningsdesign minimere dette problem. Kritikere foretrækker at forbyde NHST fuldstændigt, hvilket tvinger en fuldstændig afvigelse fra denne praksis, mens tilhængere foreslår en mindre absolut ændring.

Kontroverser om signifikansprøvning og dens virkninger på især bias på publikationer har givet flere resultater. The American Psychological Association har styrket sine statistiske rapporteringskrav efter gennemgang, medicinske tidsskriftsudgivere har anerkendt forpligtelsen til at offentliggøre nogle resultater, der ikke er statistisk signifikante for at bekæmpe publikationsbias, og der er oprettet et tidsskrift ( Journal of Articles in Support of the Null Hypothesis ) udelukkende at offentliggøre sådanne resultater. Lærebøger har tilføjet nogle advarsler og øget dækning af de værktøjer, der er nødvendige for at estimere størrelsen på stikprøven, der kræves for at producere betydelige resultater. Store organisationer har ikke opgivet brugen af ​​signifikansprøver, selvom nogle har diskuteret at gøre det.

Alternativer

En samlende holdning for kritikere er, at statistik ikke bør føre til en accept-afvis konklusion eller beslutning, men til en estimeret værdi med et intervalestimat ; denne dataanalysefilosofi kaldes stort set estimeringsstatistik . Estimeringsstatistik kan udføres med enten frequentist [1] eller Bayesiansk metode.

En stærk kritiker af signifikansetest foreslog en liste over rapporteringsalternativer: effektstørrelser for betydning, forudsigelsesintervaller for tillid, replikationer og udvidelser til replikerbarhed, metaanalyser for generalitet. Ingen af ​​disse foreslåede alternativer giver en konklusion/beslutning. Lehmann sagde, at hypotesetestteori kan præsenteres i form af konklusioner/beslutninger, sandsynligheder eller konfidensintervaller. "Sondringen mellem ... tilgange handler i høj grad om rapportering og fortolkning."

På et "alternativ" er der ingen uenighed: Fisher selv sagde: "I forhold til testen af ​​betydning kan vi sige, at et fænomen er eksperimentelt påviseligt, når vi ved, hvordan vi udfører et eksperiment, som sjældent ikke vil give os en statistisk signifikant resultat." Cohen, en indflydelsesrig kritiker af signifikansafprøvning, var enig, "... kig ikke efter et magisk alternativ til NHST [nullhypotesetestningstest] ... Det eksisterer ikke." "... i betragtning af problemerne med statistisk induktion skal vi endelig, ligesom de ældre videnskaber, stole på replikation." "Alternativet" til signifikansprøvning er gentagen test. Den nemmeste måde at reducere statistisk usikkerhed på er ved at indhente flere data, enten ved øget stikprøvestørrelse eller ved gentagne test. Nickerson hævdede, at han aldrig havde set udgivelsen af ​​et bogstaveligt gentaget eksperiment inden for psykologi. En indirekte tilgang til replikation er metaanalyse .

Bayesiansk slutning er et foreslået alternativ til signifikansafprøvning. (Nickerson citerede 10 kilder, der tyder på det, herunder Rozeboom (1960)). For eksempel kan Bayesiansk parameterestimering give rig information om de data, som forskere kan drage konklusioner fra, mens de bruger usikre prioriteringer, der kun har minimal indflydelse på resultaterne, når der er tilstrækkelige data tilgængelige. Psykolog John K. Kruschke har foreslået bayesisk vurdering som et alternativ til t -testen . Alternativt kan to konkurrerende modeller/hypoteser sammenlignes ved hjælp af Bayes -faktorer . Bayesianske metoder kunne kritiseres for at kræve oplysninger, der sjældent er tilgængelige i de tilfælde, hvor signifikansprøvning anvendes mest. Hverken de tidligere sandsynligheder eller sandsynlighedsfordelingen af ​​teststatistikken under den alternative hypotese er ofte tilgængelige inden for samfundsvidenskaben.

Fortalere for en bayesisk tilgang hævder undertiden, at en forskers mål oftest er objektivt at vurdere sandsynligheden for, at en hypotese er sand baseret på de data, de har indsamlet. Hverken Fishers signifikans -test eller Neyman -Pearson -hypotesetest kan levere disse oplysninger og gør ikke krav på det. Sandsynligheden for, at en hypotese er sand, kan kun udledes af brug af Bayes 'sætning , som var utilfredsstillende for både Fisher- og Neyman -Pearson -lejrene på grund af den eksplicitte brug af subjektivitet i form af den tidligere sandsynlighed . Fishers strategi er at omgå dette med p -værdien (et objektivt indeks baseret på dataene alene) efterfulgt af induktiv slutning , mens Neyman – Pearson udtænkte deres tilgang til induktiv adfærd .

Filosofi

Hypotesetest og filosofi skærer hinanden. Inferentiel statistik , som inkluderer hypotesetest, er anvendt sandsynlighed. Både sandsynlighed og dens anvendelse er sammenflettet med filosofi. Filosofen David Hume skrev: "Al viden degenererer til sandsynlighed." Konkurrerende praktiske definitioner af sandsynlighed afspejler filosofiske forskelle. Den mest almindelige anvendelse af hypotesetest er i den videnskabelige fortolkning af eksperimentelle data, som naturligt studeres af videnskabens filosofi .

Fisher og Neyman modsatte sig sandsynlighedens subjektivitet. Deres synspunkter bidrog til de objektive definitioner. Kernen i deres historiske uenighed var filosofisk.

Mange af de filosofiske kritikpunkter ved hypotesetest diskuteres af statistikere i andre sammenhænge, ​​især korrelation indebærer ikke årsagssammenhæng og design af eksperimenter . Hypotesetest er af stadig interesse for filosoffer.

Uddannelse

Statistik undervises i stigende grad på skoler, hvor hypotesetest er et af de elementer, der undervises i. Mange konklusioner rapporteret i den populære presse (politiske meningsmålinger til medicinske undersøgelser) er baseret på statistik. Nogle forfattere har udtalt, at statistisk analyse af denne art gør det muligt at tænke klart om problemer, der involverer massedata, samt effektiv rapportering af tendenser og konklusioner fra disse data, men advarer om, at forfattere til en bred offentlighed bør have en solid forståelse af feltet for at bruge begreberne og begreberne korrekt. En indledende college -statistik klasse lægger stor vægt på hypotesetest - måske halvdelen af ​​forløbet. Sådanne felter som litteratur og guddommelighed inkluderer nu fund baseret på statistisk analyse (se Bible Analyzer ). En indledende statistik klasse underviser i hypotesetest som en kogebogsproces. Hypotesetest undervises også på postgraduate niveau. Statistikere lærer, hvordan man opretter gode statistiske testprocedurer (som z , Elevens t , F og chi-kvadrat). Statistisk hypotesetest betragtes som et modent område inden for statistik, men en begrænset mængde udvikling fortsætter.

En akademisk undersøgelse siger, at kogebogsmetoden til undervisning af indledende statistik ikke efterlader tid til historie, filosofi eller kontroverser. Hypotesetest er blevet undervist som modtaget samlet metode. Undersøgelser viste, at kandidater fra klassen var fyldt med filosofiske misforståelser (om alle aspekter af statistisk slutning), der fortsatte blandt instruktører. Selvom problemet blev behandlet for mere end et årti siden, og opfordringer til uddannelsesreform fortsætter, studerer kandidater stadig fra statistikklasser, der holder grundlæggende misforståelser om hypotesetest. Ideer til forbedring af undervisningen i hypotesetest omfatter opmuntring af elever til at søge efter statistiske fejl i offentliggjorte artikler, undervise i statistikhistorie og understrege kontroversen i et generelt tørt emne.

Se også

Referencer

Yderligere læsning

eksterne links

Online regnemaskiner