Nulhypotesen - Null hypothesis

I inferentiel statistik er nulhypotesen (ofte betegnet H 0 ) en standardhypotese om, at en mængde, der skal måles, er nul (nul). Typisk er den mængde, der skal måles, forskellen mellem to situationer, for eksempel for at forsøge at afgøre, om der er et positivt bevis på, at der er forekommet en effekt, eller at prøver stammer fra forskellige partier.

Nulhypotesen fastslår effektivt, at en mængde (af interesse) er større eller lig med nul og mindre eller lig med nul. Hvis begge krav positivt kan omstødes, er nulhypotesen "udelukket fra mulighederne".

Nulhypotesen antages generelt at forblive muligvis sand. Flere analyser kan udføres for at vise, hvordan hypotesen enten skal afvises eller udelukkes, f.eks. At have et højt konfidensniveau, og dermed demonstrere en statistisk signifikant forskel. Dette demonstreres ved at vise, at nul er uden for målets angivne konfidensinterval på hver side, typisk inden for de reelle tal . Manglende udelukkelse af nulhypotesen (med nogen tillid) bekræfter eller understøtter ikke logisk (ikke -beviselig) nulhypotesen. (Når det er bevist, at noget f.eks. Er større end x , betyder det ikke nødvendigvis, at det er sandsynligt, at det er mindre eller lig med x ; det kan i stedet være en måling af dårlig kvalitet med lav nøjagtighed. Bekræftelse af nulhypotesen tosidet ville svarer til positivt at bevise, at det er større eller lig med 0 og positivt at bevise, at det er mindre eller lig med 0; dette er noget, der er nødvendig for uendelig nøjagtighed samt nøjagtigt nul -effekt, som normalt ikke er realistisk. Målinger vil heller aldrig angive en ikke-nul sandsynlighed for nøjagtigt nul forskel.) Så fiasko ved en udelukkelse af en nulhypotese udgør et "ved ikke" på det angivne konfidensniveau; det betyder ikke umiddelbart nul på en eller anden måde, da dataene måske allerede viser en (mindre stærk) indikation for en ikke-null. Det anvendte konfidensniveau svarer absolut ikke til sandsynligheden for null ved ikke at udelukke; faktisk udvider et højt brugt konfidensniveau i dette tilfælde det stadig sandsynlige område.

En ikke-nul-hypotese kan have følgende betydninger, afhængigt af forfatteren a) der bruges en anden værdi end nul, b) der bruges en anden margen end nul og c) den "alternative" hypotese.

Test (ekskl eller undlade at udelukke) nul hypotesen dokumenterer, at der er (eller ikke er) statistisk tilstrækkelig grund til at tro, at der er en sammenhæng mellem to fænomener (f.eks, at en potentiel behandling har en ikke-nul effekt, enten måde) . Test af nulhypotesen er en central opgave i statistisk hypotesetestning i moderne videnskabspraksis. Der er præcise kriterier for at udelukke eller ikke udelukke en nulhypotese på et bestemt konfidensniveau. Konfidensniveauet skulle indikere sandsynligheden for, at langt flere og bedre data stadig ville være i stand til at udelukke nulhypotesen på samme side.

Begrebet nullhypotese bruges forskelligt i to tilgange til statistisk inferens. I betydningen test tilgang af Ronald Fisher , er en nul-hypotesen afvises, hvis den observerede data er væsentligt usandsynligt at have fundet sted, hvis nul-hypotesen var sandt. I dette tilfælde afvises nulhypotesen, og en alternativ hypotese accepteres i stedet. Hvis dataene er i overensstemmelse med nulhypotesen statistisk muligvis sandt, afvises nulhypotesen ikke. I intet tilfælde er nulhypotesen eller dens alternativ bevist; med bedre eller flere data kan nul stadig blive afvist. Dette er analogt med det juridiske princip om uskyldsformodning , hvor en mistænkt eller tiltalt antages at være uskyldig (null afvises ikke), indtil bevis for skyld (nul forkastes) ud over rimelig tvivl (i statistisk signifikant grad).

I hypotesetestmetoden til Jerzy Neyman og Egon Pearson kontrasteres en nulhypotese med en alternativ hypotese , og de to hypoteser skelnes på grundlag af data med visse fejlrater. Det bruges til at formulere svar i forskning.

Statistisk inferens kan foretages uden en nulhypotese ved at specificere en statistisk model, der svarer til hver kandidathypotese, og ved at bruge modelvalgteknikker til at vælge den mest passende model. (De mest almindelige selektionsteknikker er baseret på enten Akaike -informationskriterium eller Bayes -faktor ).

Princip

Hypotesetest kræver konstruering af en statistisk model af, hvordan dataene ville se ud, hvis tilfældigheder eller tilfældige processer alene var ansvarlige for resultaterne. Hypotesen om, at tilfældighed alene er ansvarlig for resultaterne, kaldes nulhypotesen . Modellen af ​​resultatet af den tilfældige proces kaldes fordelingen under nulhypotesen . De opnåede resultater sammenlignes med fordelingen under nulhypotesen, og sandsynligheden for at finde de opnåede resultater bestemmes derved.

Hypotesetest virker ved at indsamle data og måle, hvor sandsynligt det særlige datasæt er (forudsat at nulhypotesen er sand), når undersøgelsen er på en tilfældigt udvalgt repræsentativ prøve. Nulhypotesen antager ingen sammenhæng mellem variabler i befolkningen, hvorfra prøven er valgt.

Hvis datasættet for en tilfældigt udvalgt repræsentativ prøve er meget usandsynligt i forhold til nulhypotesen (defineret som en del af en datasætklasse, der kun sjældent vil blive observeret), afviser eksperimentatoren nulhypotesen og afslutter den (sandsynligvis ) er falsk. Denne klasse datasæt er normalt specificeret via en teststatistik , som er designet til at måle omfanget af tilsyneladende afvigelse fra nulhypotesen. Proceduren fungerer ved at vurdere, om den observerede afgang målt ved teststatistikken er større end en defineret værdi, så sandsynligheden for forekomst af en mere ekstrem værdi er lille under nulhypotesen (normalt i mindre end enten 5% eller 1 % af lignende datasæt, hvor nulhypotesen holder).

Hvis dataene ikke modsiger nulhypotesen, kan der kun drages en svag konklusion: nemlig at det observerede datasæt giver utilstrækkelige beviser mod nulhypotesen. I dette tilfælde, fordi nulhypotesen kan være sand eller falsk, fortolkes dette i nogle sammenhænge således, at dataene ikke giver tilstrækkeligt bevis til at komme med en konklusion, mens det i andre sammenhænge fortolkes som, at der ikke er tilstrækkeligt bevis for støtte skift fra et aktuelt nyttigt regime til et andet. Ikke desto mindre, hvis effekten på dette tidspunkt forekommer sandsynlig og/eller stor nok, kan der være et incitament til at undersøge yderligere, f.eks. At køre en større prøve.

For eksempel kan et bestemt lægemiddel reducere chancen for at få et hjerteanfald. Mulige nulhypoteser er "dette lægemiddel reducerer ikke chancerne for at få et hjerteanfald" eller "dette lægemiddel har ingen effekt på chancerne for at få et hjerteanfald". Testen af ​​hypotesen består i at administrere stoffet til halvdelen af ​​mennesker i en studiegruppe som et kontrolleret eksperiment . Hvis dataene viser en statistisk signifikant ændring i de mennesker, der modtager stoffet, afvises nulhypotesen.

Grundlæggende definitioner

Den nulhypotesen og den alternative hypotese er typer af formodninger, der anvendes i statistiske test, der er formelle metoder til at nå konklusioner eller træffe beslutninger på grundlag af data. Hypoteserne er formodninger om en statistisk model af befolkningen , som er baseret på en stikprøve af befolkningen. Testene er kerneelementer i statistisk inferens , stærkt anvendt til fortolkning af videnskabelige eksperimentelle data, for at adskille videnskabelige påstande fra statistisk støj.

"Udtalelsen, der testes i en test af statistisk signifikans , kaldes nulhypotesen . Testen af ​​signifikans er designet til at vurdere bevisets styrke mod nulhypotesen. Normalt er nulhypotesen en erklæring om 'ingen effekt' eller ' ingen forskel'." Det er ofte symboliseret som H 0 .

Den erklæring, der testes mod nulhypotesen, er den alternative hypotese . Symboler inkluderer H 1 og H a .

Statistisk signifikans test: "Meget groft, afgørelsesproceduren lyder sådan: Tag en tilfældig stikprøve fra befolkningen. Hvis prøvedataene er i overensstemmelse med nulhypotesen, skal du ikke afvise nulhypotesen; hvis prøvedataene ikke er i overensstemmelse med nulhypotesen, afvis derefter nulhypotesen og konkluder, at den alternative hypotese er sand. "

De følgende afsnit tilføjer kontekst og nuance til de grundlæggende definitioner.

Eksempel

I betragtning af testresultaterne for to tilfældige prøver , en af ​​mænd og en af ​​kvinder, adskiller den ene gruppe sig fra den anden? En mulig nulhypotese er, at den gennemsnitlige mandlige score er den samme som den gennemsnitlige kvindelige score:

H 0 : μ 1 = μ 2

hvor

H 0 = nulhypotesen,
μ 1 = gennemsnittet af befolkning 1 og
μ 2 = gennemsnittet af befolkningen 2.

En stærkere nulhypotese er, at de to prøver er trukket fra den samme population, således at variationerne og formerne for fordelingen også er ens.

Terminologi

Simpel hypotese
Enhver hypotese, der specificerer befolkningsfordelingen fuldstændigt. For en sådan hypotese er samplingsfordelingen af ​​enhver statistik en funktion af stikprøvestørrelsen alene.
Sammensat hypotese
Enhver hypotese, der ikke præciserer befolkningsfordelingen fuldstændigt. Eksempel: En hypotese, der angiver en normalfordeling med et bestemt middel og en uspecificeret varians.

Den simple/sammensatte sondring blev foretaget af Neyman og Pearson.

Den nøjagtige hypotese
Enhver hypotese, der angiver en nøjagtig parameterværdi. Eksempel: μ = 100. Synonym: punkthypotese .
Ukorrekt hypotese
Dem, der angiver et parameterinterval eller -interval. Eksempler: μ ≤ 100; 95 ≤ μ ≤ 105.

Fisher krævede en nøjagtig nulhypotese til testning (se citaterne nedenfor).

En ensidig hypotese (testet ved hjælp af en ensidig test) er en unøjagtig hypotese, hvor værdien af ​​en parameter er angivet som enten:

  • over eller lig med en bestemt værdi, eller
  • under eller lig med en bestemt værdi.

En ensidig hypotese siges at have retning .

Fishers originale ( dame-smagende te ) -eksempel var en ensidig test. Nulhypotesen var asymmetrisk. Sandsynligheden for at gætte alle kopper korrekt var den samme som at gætte alle kopper forkert, men Fisher bemærkede, at kun gætte korrekt var foreneligt med damens påstand. (Se citaterne nedenfor om hans begrundelse.)

Mål med nulhypotesetest

Der er mange typer signifikans -tests for en, to eller flere prøver, for midler, afvigelser og proportioner, parrede eller uparrede data, for forskellige distributioner, for store og små prøver; alle har nulhypoteser. Der er også mindst fire mål med nulhypoteser for signifikansprøver:

  • Tekniske nulhypoteser bruges til at verificere statistiske antagelser. For eksempel kan resterne mellem dataene og en statistisk model ikke skelnes fra tilfældig støj. Hvis det er sandt, er der ingen begrundelse for at komplicere modellen.
  • Videnskabelige nul -antagelser bruges til direkte at fremme en teori. For eksempel er universets vinkelmoment nul. Hvis det ikke er sandt, kan teorien om det tidlige univers muligvis blive revideret.
  • Nulhypoteser om homogenitet bruges til at kontrollere, at flere eksperimenter giver konsistente resultater. F.eks. Er effekten af ​​en medicin på ældre i overensstemmelse med den generelle voksne befolknings. Hvis det er sandt, styrker dette den generelle effektivitetskonklusion og forenkler anbefalinger til brug.
  • Nulhypoteser, der hævder, at virkningen af ​​to eller flere alternative behandlinger er lige stor, for eksempel et lægemiddel og et placebo, bruges til at reducere videnskabelige påstande baseret på statistisk støj. Dette er den mest populære nulhypotese; Det er så populært, at mange udsagn om væsentlig test antager sådanne nulhypoteser.

Afvisning af nulhypotesen er ikke nødvendigvis det egentlige mål for en signifikans -tester. En passende statistisk model kan være forbundet med manglende afvisning af nullet; modellen justeres, indtil nullet ikke afvises. De mange anvendelser af betydningstest var velkendte for Fisher, der diskuterede mange i sin bog skrevet et årti, før han definerede nulhypotesen.

En statistisk signifikans test deler meget matematik med et konfidensinterval . De er gensidigt oplysende . Et resultat er ofte signifikant, når der er tillid til tegn på en relation (intervallet inkluderer ikke 0). Når et tegn på en relation er vigtigt, er statistisk signifikans et værdigt mål. Dette afslører også svagheder ved signifikansafprøvning: Et resultat kan være signifikant uden et godt skøn over styrken i et forhold; betydning kan være et beskedent mål. Et svagt forhold kan også opnå betydning med nok data. Det anbefales almindeligt at rapportere både betydning og konfidensintervaller.

De forskellige anvendelser af signifikansprøver reducerer antallet af generaliseringer, der kan foretages om alle applikationer.

Valg af nulhypotesen

Valget af nulhypotesen er forbundet med sparsomme og inkonsekvente råd. Fisher nævnte få begrænsninger i valget og udtalte, at mange nulhypoteser skulle overvejes, og at mange test er mulige for hver. Mangfoldigheden af ​​applikationer og mangfoldigheden af ​​mål tyder på, at valget kan være kompliceret. I mange applikationer er testens formulering traditionel. En fortrolighed med de tilgængelige tests kan tyde på en bestemt nulhypotese og test. Formulering af nulhypotesen er ikke automatiseret (selvom beregningerne af signifikansprøvning normalt er). Sir David Cox har sagt, "Hvordan [oversættelsen] fra emne-problem til statistisk model er udført, er ofte den mest kritiske del af en analyse".

En statistisk signifikans test er beregnet til at teste en hypotese. Hvis hypotesen opsummerer et datasæt, er der ingen værdi i at teste hypotesen på det datasæt. Eksempel: Hvis en undersøgelse af sidste års vejrrapporter indikerer, at regn i en region primært falder i weekenden, er det kun gyldigt at teste denne nulhypotese om vejrrapporter fra ethvert andet år. Test af hypoteser foreslået af dataene er cirkulær begrundelse, der intet beviser; Det er en særlig begrænsning for valget af nulhypotesen.

En rutinemæssig procedure er som følger: Start fra den videnskabelige hypotese. Oversæt dette til en statistisk alternativ hypotese og fortsæt: "Fordi H a udtrykker den effekt, vi ønsker at finde bevis for, begynder vi ofte med H a og sætter derefter H 0 op som udsagnet om, at den håbede effekt ikke er til stede. " Dette råd er omvendt til modelleringsapplikationer, hvor vi håber ikke at finde beviser mod nul.

Et komplekst case-eksempel er som følger: Guldstandarden i klinisk forskning er det randomiserede placebokontrollerede dobbeltblinde kliniske forsøg. Men at teste et nyt lægemiddel mod et (medicinsk ineffektivt) placebo kan være uetisk for en alvorlig sygdom. Test af et nyt lægemiddel mod et ældre medicinsk effektivt lægemiddel rejser fundamentale filosofiske spørgsmål vedrørende testens mål og motivationen for eksperimentørerne. Standarden "ingen forskel" nulhypotese kan belønne medicinalfirmaet for at indsamle utilstrækkelige data. "Forskel" er en bedre nulhypotese i dette tilfælde, men statistisk signifikans er ikke et tilstrækkeligt kriterium for at nå en nuanceret konklusion, som kræver et godt numerisk skøn over lægemidlets effektivitet. En "mindre" eller "simpel" foreslået ændring af nulhypotesen ((ny vs gammel) frem for (ny vs placebo)) kan have en dramatisk effekt på anvendeligheden af ​​en test af komplekse ikke-statistiske årsager.

Retningsbestemt

Valget af nulhypotese ( H 0 ) og overvejelse af retningsbestemmelse (se " ensidig test ") er kritisk.

Nul-hypotesetestens hale

Overvej spørgsmålet om, hvorvidt en kastet mønt er fair (dvs. at den i gennemsnit lander med hovedet op 50% af tiden) og et eksperiment, hvor du smider mønten 5 gange. Et muligt resultat af eksperimentet, som vi overvejer her, er 5 hoveder. Lad resultater anses for usandsynlige med hensyn til en formodet fordeling, hvis deres sandsynlighed er lavere end en signifikansgrænse på 0,05.

En potentiel nulhypotese, der indebærer en test med en hale, er "denne mønt er ikke forudindtaget i hovedet". Vær opmærksom på, at ordet "hale" i denne sammenhæng har to betydninger: enten som resultat af et enkelt kast eller som område med ekstreme værdier i en sandsynlighedsfordeling.

Med en fair mønt er sandsynligheden for dette eksperimentresultat 1/2 5 = 0,031, hvilket ville være endnu lavere, hvis mønten var forudindtaget til fordel for haler. Derfor er observationerne sandsynligvis ikke nok til, at nulhypotesen holder, og testen afviser det. Da mønten tilsyneladende hverken er fair eller forspændt mod haler, er eksperimentets konklusion, at mønten er forudindtaget i retning af hoveder.

Alternativt er en nulhypotese, der indebærer en tosidet test, "denne mønt er fair". Denne ene nulhypotese kunne undersøges ved at kigge efter enten for mange haler eller for mange hoveder i eksperimenterne. De resultater, der har en tendens til at nægte denne nulhypotese, er dem med et stort antal hoveder eller et stort antal haler, og vores eksperiment med 5 hoveder ser ud til at tilhøre denne klasse.

Sandsynligheden for 5 kast af samme slags, uanset om det drejer sig om hoved eller haler, er dog dobbelt så meget som for 5-hovedet forekomst enkeltvis betragtet. Under denne to-halede nulhypotese modtager observationen derfor en sandsynlighedsværdi på 0,063. Derfor er det samme resultat ikke statistisk signifikant med den samme signifikansgrænse, der blev brugt til den ensidige test (0,05). Derfor vil nulhypotesen med to haler blive bevaret i dette tilfælde, hvilket ikke understøtter den konklusion, der er nået med den enkelthale nulhypotese, om at mønten er forudindtaget i retning af hoveder.

Dette eksempel illustrerer, at konklusionen fra en statistisk test kan afhænge af den præcise formulering af nul- og alternative hypoteser.

Diskussion

Fisher sagde, "nulhypotesen skal være nøjagtig, det er fri for uklarhed og tvetydighed, fordi den skal danne grundlag for 'fordelingsproblemet', hvis test af betydning er løsningen", hvilket indebærer et mere restriktivt domæne for H 0 . Ifølge denne opfattelse skal nulhypotesen være numerisk nøjagtig - den skal angive, at en bestemt mængde eller forskel er lig med et bestemt tal. I klassisk videnskab er det mest typisk udsagnet om, at der ikke er effekt af en bestemt behandling; i observationer er det typisk, at der ikke er nogen forskel mellem værdien af ​​en bestemt målt variabel og værdien af ​​en forudsigelse.

De fleste statistikere mener, at det er gyldigt at angive retning som en del af nulhypotesen eller som en del af et nulhypotese/alternativt hypotesepar. Resultaterne er imidlertid ikke en fuldstændig beskrivelse af alle resultaterne af et eksperiment, kun et enkelt resultat, der er skræddersyet til et bestemt formål. Overvej f.eks. En H 0, der hævder, at befolkningens gennemsnit for en ny behandling er en forbedring i forhold til en veletableret behandling med populationsmiddel = 10 (kendt fra lang erfaring), idet det ensidige alternativ er, at den nye behandling betyder> 10 . Hvis prøvebeviset opnået gennem x -bar er lig med -200 og den tilsvarende t -teststatistik er lig med -50, ville konklusionen fra testen være, at der ikke er tegn på, at den nye behandling er bedre end den eksisterende: Den ville ikke rapportere at det er markant værre, men det er ikke det denne test søger. For at overvinde enhver tvetydighed ved rapportering af resultatet af testen af ​​en nulhypotese er det bedst at angive, om testen var tosidet og, hvis den er ensidig, at inkludere retningen af ​​den effekt, der testes.

Den statistiske teori, der kræves for at håndtere de enkle tilfælde af retningsbestemmelse, der behandles her, og mere komplicerede, gør brug af begrebet en upartisk test .

Retningerne af hypoteser er ikke altid indlysende. Den eksplicitte nulhypotese om Fisher's Lady smagte teeksempel var, at damen ikke havde en sådan evne, hvilket førte til en symmetrisk sandsynlighedsfordeling. Testens ensidede karakter stammer fra den ensidige alternative hypotese (et udtryk, som ikke bruges af Fisher). Nulhypotesen blev implicit ensartet. Den logiske negation af Fruens ensidige krav var også ensidig. (Krav: Evne> 0; Angivet null: Evne = 0; Implicit null: Evne ≤ 0).

Rene argumenter om brugen af ​​ensidige tests kompliceres af de mange forskellige tests. Nogle tests (f.eks. Χ 2 godhedstestetesten) er i sagens natur ensidig. Nogle sandsynlighedsfordelinger er asymmetriske. De traditionelle tests af 3 eller flere grupper er to-halede.

Rådgivning vedrørende brugen af ​​ensidige hypoteser har været inkonsekvent, og accepteret praksis varierer mellem områder. Den største indvending mod en-tailed hypoteser er deres potentielle subjektivitet. Et ikke-signifikant resultat kan undertiden konverteres til et signifikant resultat ved brug af en ensidig hypotese (som fair coin test, efter analytikerens indfald). Bagsiden af ​​argumentet: ensidige test er mindre tilbøjelige til at ignorere en reel effekt. Enhale test kan undertrykke offentliggørelse af data, der adskiller sig fra tegn til forudsigelser. Objektivitet var et mål for udviklerne af statistiske tests.

Det er almindelig praksis at bruge en ensidig hypotese som standard. Men "Hvis du ikke har en bestemt retning fast i tankerne på forhånd, skal du bruge et tosidet alternativ. Desuden argumenterer nogle brugere af statistik for, at vi altid bør arbejde med det tosidede alternativ."

Et alternativ til dette råd er at bruge test med tre resultater. Det eliminerer problemerne omkring hypotesernes retning ved at teste to gange, en gang i hver retning og kombinere resultaterne for at producere tre mulige resultater. Variationer af denne tilgang har en historie, der er foreslået måske 10 gange siden 1950.

Uenigheder om ensidige tests stammer fra videnskabens filosofi. Mens Fisher var villig til at ignorere det usandsynlige tilfælde, hvor damen gættede alle kopper forkert (hvilket kan have været passende under omstændighederne), mener medicin, at en foreslået behandling, der dræber patienter, er vigtig i enhver forstand og bør rapporteres og måske forklares . Dårlig statistisk rapporteringspraksis har bidraget til uenigheder om ensidige tests. Statistisk signifikans som følge af tohalede test er ufølsom over for tegn på forholdet; Rapportering af betydning alene er utilstrækkelig. "Behandlingen har en effekt" er det uinformative resultat af en tohalet test. "Behandlingen har en gavnlig effekt" er det mere informative resultat af en ensidig test. "Behandlingen har en effekt, reducerer den gennemsnitlige længde af hospitalsindlæggelse med 1,5 dage" er den mest informative rapport, der kombinerer et tosidet signifikans-testresultat med et numerisk skøn over forholdet mellem behandling og effekt. Eksplicit rapportering af et numerisk resultat eliminerer en filosofisk fordel ved en ensidig test. Et underliggende problem er den passende form for en eksperimentel videnskab uden numeriske forudsigelsesteorier: En model med numeriske resultater er mere informativ end en model af effekttegn (positiv, negativ eller ukendt), som er mere informativ end en model af simpel betydning (ikke- nul eller ukendt); i fravær af numerisk teori kan tegn være tilstrækkelige.

Historik over statistiske test

Null- og alternative hypotesers historie er indlejret i statistiske testers historie.

  • Før 1925: Der er lejlighedsvis forbigående spor af statistiske tests i århundreder tidligere, som giver tidlige eksempler på nulhypoteser. I slutningen af ​​1800 -tallet blev statistisk signifikans defineret. I begyndelsen af ​​det 20. århundrede blev vigtige sandsynlighedsfordelinger defineret. Gossett og Pearson arbejdede med specifikke tilfælde af signifikansafprøvning.
  • 1925: Fisher udgav den første udgave af Statistical Methods for Research Workers, som definerede den statistiske signifikans -test og gjorde den til en almindelig analysemetode for meget af eksperimentel videnskab. Teksten var blottet for beviser og svag i forklaringer, men den var fyldt med virkelige eksempler. Det placerede statistisk praksis inden for videnskaberne i god tid før offentliggjort statistisk teori.
  • 1933: I en række artikler (udgivet over et årti med start i 1928) definerede Neyman & Pearson den statistiske hypotesetest som en foreslået forbedring af Fishers test. Papirerne gav meget af terminologien til statistiske tests, herunder alternativ hypotese og H 0 som en hypotese, der skulle testes ved hjælp af observationsdata (med H 1 , H 2 ... som alternativer). Neyman brugte ikke udtrykket nulhypotese i senere skrifter om sin metode.
  • 1935: Fisher udgav den første udgave af bogen The Design of Experiments, der introducerede nulhypotesen (ved eksempel snarere end per definition) og omhyggeligt forklarede begrundelsen for signifikansetest i forbindelse med fortolkningen af ​​eksperimentelle resultater; se Design of Experiments#Citater vedrørende nulhypotesen .
  • Følgende: Fisher og Neyman skændtes om de relative fordele ved deres konkurrerende formuleringer indtil Fishers død i 1962. Karriereændringer og Anden Verdenskrig sluttede partnerskabet mellem Neyman og Pearson. Formuleringerne blev fusioneret af relativt anonyme lærebogsforfattere, eksperimenter (tidsskriftredaktører) og matematiske statistikere uden input fra rektorerne. Emnet kombinerer i dag meget af Neyman & Pearsons terminologi og forklaringskraft med den videnskabelige filosofi og beregninger fra Fisher. Om statistisk test korrekt er et eller flere emner, er stadig en kilde til uenighed. Eksempel på to: En tekst henviser til emnet som hypotesetest (uden omtale af signifikansprøvning i indekset), mens en anden siger signifikansprøvning (med et afsnit om slutning som en beslutning). Fisher udviklede signifikantstest som et fleksibelt værktøj for forskere til at afveje deres beviser. I stedet er test blevet institutionaliseret. Statistisk betydning er blevet et stift defineret og håndhævet kriterium for offentliggørelse af eksperimentelle resultater i mange videnskabelige tidsskrifter. På nogle felter er signifikansafprøvning blevet den dominerende og næsten eksklusive form for statistisk analyse. Som en konsekvens er testernes begrænsninger blevet udtømmende undersøgt. Bøger er blevet fyldt med den indsamlede kritik af betydningstest .

Se også

Referencer

Yderligere læsning

  • Adèr, HJ ; Mellenbergh, GJ & Hand, DJ (2007). Rådgivning om forskningsmetoder: En konsulents ledsager . Huizen, Holland: Johannes van Kessel Publishing. ISBN 978-90-79418-01-5.
  • Efron, B. (2004). "Simultan hypotesetest i stor skala". Journal of the American Statistical Association . 99 (465): 96–104. doi : 10.1198/016214504000000089 . Anvendelsen af ​​signifikansprøvning i dette papir er en outlier. Test for at finde en nulhypotese? Forsøger du ikke at vise betydning, men for at finde interessante sager?
  • Rice, William R .; Gaines, Steven D. (juni 1994). " ' Hoveder jeg vinder, haler du mister': test af retningsbestemte alternative hypoteser inden for økologisk og evolutionær forskning". TRÆ . 9 (6): 235–237. doi : 10.1016/0169-5347 (94) 90258-5 . PMID  21236837 . Rettede tests kombinerer attributterne for en-tailed og to-tailed tests. "... rettede tests bør bruges i stort set alle applikationer, hvor ensidige test tidligere er blevet brugt, undtagen de tilfælde, hvor dataene kun kan afvige fra H 0 , i en retning."

eksterne links