Type I og type II fejl - Type I and type II errors

I statistisk hypotesetest er en type I -fejl den forkastede afvisning af nulhypotesen (også kendt som et "falsk positivt" fund eller konklusion; eksempel: "en uskyldig person er dømt"), mens en type II -fejler den fejlagtige accept af nulhypotesen (også kendt som en "falsk negativ" konstatering eller konklusion; eksempel: "en skyldig person dømmes ikke"). Meget af statistisk teori drejer sig om minimering af en eller begge af disse fejl, selvom fuldstændig eliminering af begge er en statistisk umulighed, hvis resultatet ikke bestemmes af en kendt, observerbar årsagsproces. Ved at vælge en lav tærskelværdi (cut-off) og ændre alfa (p) -niveauet kan kvaliteten af ​​hypotesetesten øges. Kendskabet til type I -fejl og type II -fejl bruges meget i medicinsk videnskab , biometri og datalogi .

Intuitivt kan type I -fejl betragtes som kommissionsfejl , dvs. at forskeren uheldigvis konkluderer, at noget er faktum. Overvej for eksempel en undersøgelse, hvor forskere sammenligner et lægemiddel med et placebo. Hvis de patienter, der får stoffet, får det bedre end patienterne, der får placebo ved et tilfælde, kan det se ud til, at lægemidlet er effektivt, men faktisk er konklusionen forkert. Omvendt er type II -fejl udeladelsesfejl . I eksemplet ovenfor, hvis de patienter, der fik lægemidlet, ikke blev bedre med en højere hastighed end dem, der fik placebo, men dette var en tilfældig tilfældighed, ville det være en type II -fejl. Konsekvensen af ​​en type II -fejl afhænger af størrelsen og retningen af ​​den glemte bestemmelse og omstændighederne. En dyr kur for en ud af en million patienter kan være ubetydelig, selvom det virkelig er en kur.

Definition

Statistisk baggrund

I statistisk testteori er forestillingen om en statistisk fejl en integreret del af hypotesetest . Testen går ud på at vælge om to konkurrerende påstande kaldet nulhypotese , betegnet med H 0 og alternativ hypotese , betegnet med H 1 . Dette ligner konceptmæssigt dommen i en retssag. Nulhypotesen svarer til tiltaltes position: Ligesom han formodes at være uskyldig, indtil den er bevist skyldig, formodes nulhypotesen at være sand, indtil dataene giver overbevisende beviser mod den. Den alternative hypotese svarer til holdningen mod tiltalte. Nulhypotesen involverer specifikt også fravær af en forskel eller fravær af en forening. Nulhypotesen kan således aldrig være, at der er en forskel eller en sammenhæng.

Hvis resultatet af testen stemmer overens med virkeligheden, er der truffet en korrekt beslutning. Men hvis resultatet af testen ikke stemmer overens med virkeligheden, er der opstået en fejl. Der er to situationer, hvor beslutningen er forkert. Nulhypotesen kan være sand, hvorimod vi afviser H 0 . På den anden side kan den alternative hypotese H 1 være sand, hvorimod vi ikke afviser H 0 . Der skelnes mellem to typer fejl: Type I -fejl og type II -fejl.

Type I fejl

Den første form for fejl er en forkert afvisning af en nulhypotese som følge af en testprocedure. Denne form for fejl kaldes en type I -fejl (falsk positiv) og kaldes undertiden en fejl af den første slags.

I eksemplet med retssalen svarer en type I -fejl til at dømme en uskyldig tiltalt.

Type II fejl

Den anden form for fejl er den fejlagtige accept af nulhypotesen som et resultat af en testprocedure. Denne form for fejl kaldes en type II -fejl (falsk negativ) og omtales også som en fejl af den anden slags.

I eksemplet med retssalen svarer en type II -fejl til frifindelse af en kriminel.

Crossover fejlrate

Crossover -fejlfrekvensen (CER) er det punkt, hvor type I -fejl og type II -fejl er ens og repræsenterer den bedste måde at måle en biometris effektivitet. Et system med en lavere CER -værdi giver mere nøjagtighed end et system med en højere CER -værdi.

Falsk positiv og falsk negativ

Se flere oplysninger i: Falsk positiv og falsk negativ

Med hensyn til falske positive og falske negativer svarer et positivt resultat til at afvise nulhypotesen, mens et negativt resultat svarer til ikke at afvise nulhypotesen; "falsk" betyder, at konklusionen er forkert. Således svarer en type I -fejl til en falsk positiv, og en type II -fejl svarer til en falsk negativ.

Tabel over fejltyper

Tabulariserede forhold mellem sandheden/falskheden af ​​nulhypotesen og testens resultater:

 Tabel over fejltyper
Nulhypotesen ( H 0 ) er
 
Sand Falsk
Beslutning
om nulhypotese
( H 0 )

Afvis ikke

Korrekt slutning
(sand negativ)

(sandsynlighed = 1− α )

Type II fejl
(falsk negativ)
(sandsynlighed = β
Afvise Type I fejl
(falsk positiv)
(sandsynlighed = α

Korrekt slutning
(sand positiv)

(sandsynlighed = 1− β )
 

Fejlrate

Resultaterne opnået fra negativ prøve (venstre kurve) overlapper med resultaterne fra positive prøver (højre kurve). Ved at flytte resultatafskæringsværdien (lodret streg) kan antallet af falske positiver (FP) reduceres på bekostning af at øge antallet af falske negativer (FN) eller omvendt. (TP = sande positive, TN = sande negativer)

En perfekt test ville have nul falske positiver og nul falske negativer. Statistiske metoder er imidlertid sandsynlige, og det kan ikke med sikkerhed vides, om statistiske konklusioner er korrekte. Når der er usikkerhed, er der mulighed for at lave en fejl. I betragtning af denne karakter af statistikvidenskab har alle statistiske hypotesetest sandsynlighed for at lave type I og type II fejl.

  • Type I fejlfrekvensen eller signifikansniveauet er sandsynligheden for at afvise nulhypotesen, da den er sand. Det betegnes med det græske bogstav α (alfa) og kaldes også alfa -niveauet. Normalt er signifikansniveauet sat til 0,05 (5%), hvilket indebærer, at det er acceptabelt at have en 5% sandsynlighed for forkert at afvise den sande nulhypotese.
  • Hastigheden af ​​type II -fejlen er angivet med det græske bogstav β (beta) og relateret til effekten af ​​en test , der er lig med 1 − β.

Disse to typer fejlrater udveksles mod hinanden: for ethvert givet prøvesæt resulterer bestræbelsen på at reducere en fejltype generelt i at øge den anden type fejl.

Kvaliteten af ​​hypotesetesten

Den samme idé kan udtrykkes i form af frekvensen af ​​korrekte resultater og derfor bruges til at minimere fejlrater og forbedre kvaliteten af ​​hypotesetesten. For at reducere sandsynligheden for at begå en type I -fejl er det ganske enkelt og effektivt at gøre alfa (p) -værdien mere streng. For at reducere sandsynligheden for at begå en type II -fejl, som er tæt forbundet med analysernes effekt, kan enten øge testens prøvestørrelse eller afslappende alfa -niveau øge analysernes effekt. En teststatistik er robust, hvis type I -fejlprocenten kontrolleres.

Varierende forskellige tærskelværdier (cut-off) kan også bruges til at gøre testen enten mere specifik eller mere følsom, hvilket igen hæver testkvaliteten. Forestil dig for eksempel en medicinsk test, hvor forsøgslederen kan måle koncentrationen af ​​et bestemt protein i blodprøven. Eksperimenter kunne justere tærsklen (sort lodret streg i figuren), og mennesker ville blive diagnosticeret som sygdomme, hvis der opdages et antal over denne bestemte tærskel. Ifølge billedet ville ændring af tærsklen resultere i ændringer i falske positiver og falske negativer, svarende til bevægelse på kurven.

Eksempel

Da det i et ægte eksperiment er umuligt at undgå alle type I og type II fejl, er det vigtigt at overveje mængden af ​​risiko, man er villig til at tage for fejlagtigt at afvise H 0 eller acceptere H 0 . Løsningen på dette spørgsmål ville være at rapportere statistikkens p-værdi eller signifikansniveau α. For eksempel, hvis p-værdien af ​​et teststatistikresultat anslås til 0,0596, så er der en sandsynlighed på 5,96% for, at vi fejlagtigt afviser H 0 . Eller, hvis vi siger, statistikken udføres på niveau α, som 0,05, så tillader vi fejlagtigt at afvise H 0 med 5%. Et signifikansniveau α på 0,05 er relativt almindeligt, men der er ingen generel regel, der passer til alle scenarier.

Køretøjshastighedsmåling

Hastighedsgrænsen for en motorvej i USA er 120 kilometer i timen. En enhed er indstillet til at måle hastigheden på forbipasserende køretøjer. Antag, at enheden vil udføre tre målinger af hastigheden på et forbipasserende køretøj og optage som en stikprøve X 1 , X 2 , X 3 . Trafikpolitiet vil eller vil ikke bøde bilisterne afhængigt af gennemsnitshastigheden . Det vil sige teststatistikken

Derudover formoder vi, at målingerne X 1 , X 2 , X 3 er modelleret som normalfordeling N (μ, 4). Derefter skal følge N (μ, 4/3), og parameteren μ repræsenterer den sande hastighed for passerende køretøj. I dette eksperiment bør nulhypotesen H 0 og den alternative hypotese H 1 være

H 0 : μ = 120 mod H 1 : μ 1 > 120.

Hvis vi udfører det statistiske niveau ved α = 0,05, skal en kritisk værdi c beregnes for at løse

Ifølge enhedsændringsreglen for normalfordelingen. Med henvisning til Z-tabel kan vi få

Her den kritiske region. Det vil sige, at hvis den registrerede hastighed for et køretøj er større end den kritiske værdi 121,9, får føreren en bøde. Imidlertid er der stadig 5% af chaufførerne falsk bøde, da den registrerede gennemsnitshastighed er større end 121,9, men den sande hastighed passerer ikke 120, hvilket vi siger, en type I -fejl.

Type II -fejlen svarer til, at et køretøjs sande hastighed er over 120 kilometer i timen, men føreren ikke idømmes en bøde. For eksempel, hvis den sande hastighed for et køretøj μ = 125, kan sandsynligheden for, at føreren ikke idømmes en bøde, beregnes som

hvilket betyder, at hvis køretøjets sande hastighed er 125, har drevet sandsynligheden på 0,36% for at undgå bøden, når statistikken udføres på niveau 125, da den registrerede gennemsnitshastighed er lavere end 121,9. Hvis den sande hastighed er tættere på 121,9 end 125, så er sandsynligheden for at undgå bøden også større.

Afvejningerne mellem type I -fejl og type II -fejl bør også overvejes. Det vil sige, at i dette tilfælde, hvis trafikpolitiet ikke falsk vil bøde uskyldige chauffører, kan niveauet α sættes til en mindre værdi som 0,01. Men hvis det er tilfældet, ville flere bilister, hvis sande hastighed er over 120 kilometer i timen, som 125, være mere tilbøjelige til at undgå bøden.

Etymologi

I 1928 diskuterede Jerzy Neyman (1894–1981) og Egon Pearson (1895–1980), begge fremtrædende statistikere, problemerne forbundet med at ”beslutte, om en bestemt prøve kan vurderes at være tilfældigt trukket fra en bestemt population eller ej. ": og, som Florence Nightingale David bemærkede," er det nødvendigt at huske adjektivet 'tilfældig' [i udtrykket 'tilfældig prøve'] bør gælde for metoden til at tegne prøven og ikke for selve prøven ".

De identificerede "to fejlkilder", nemlig:

(a) fejlen ved at afvise en hypotese, der ikke burde have været afvist, og
(b) fejlen ved ikke at afvise en hypotese, der burde have været afvist.

I 1930 uddybede de disse to fejlkilder og bemærkede, at:

... ved test af hypoteser skal to overvejelser holdes for øje, vi skal være i stand til at reducere chancen for at afvise en sand hypotese til en så lav værdi som ønsket; testen skal være så udtænkt, at den vil afvise den testede hypotese, når den sandsynligvis vil være falsk.

I 1933 observerede de, at disse "problemer sjældent præsenteres i en sådan form, at vi med sikkerhed kan skelne mellem den sande og falske hypotese". De bemærkede også, at det var let at lave en fejl ved at beslutte, om man ikke ville afvise eller afvise en bestemt hypotese blandt et "sæt alternative hypoteser", H 1 , H 2 ...

... [og] disse fejl vil være af to slags:

(I) vi afviser H 0 [dvs. hypotesen, der skal testes], når den er sand,
(II) vi undlader at afvise H 0, når en eller anden alternativ hypotese H A eller H 1 er sand. (Der er forskellige betegnelser for alternativet).

I alle de papirer, der er skrevet af Neyman og Pearson, betyder udtrykket H 0 altid "den hypotese, der skal testes".

I samme papir kalder de disse to fejlkilder, henholdsvis fejl af type I og fejl af type II.

Relaterede vilkår

Nulhypotesen

Det er standard praksis for statistikere at foretage tests for at afgøre, om en " spekulativ hypotese " vedrørende de observerede fænomener i verden (eller dens indbyggere) kan understøttes. Resultaterne af en sådan test afgør, om et bestemt sæt resultater stemmer rimeligt (eller ikke stemmer overens) med den spekulerede hypotese.

På grundlag af at det altid statistisk er antaget, at den spekulerede hypotese er forkert, og den såkaldte " nulhypotese ", at de observerede fænomener simpelthen forekommer ved en tilfældighed (og at det spekulerede middel som følge heraf ikke har nogen effekt) - testen vil afgøre, om denne hypotese er rigtig eller forkert. Det er derfor, den hypotese, der testes, ofte kaldes nulhypotesen (sandsynligvis opfundet af Fisher (1935, s. 19)), fordi det er denne hypotese, der enten skal ophæves eller ikke ophæves af testen. Når nulhypotesen ophæves, er det muligt at konkludere, at data understøtter den " alternative hypotese " (som er den oprindelige spekulerede).

Statistikernes konsekvente anvendelse af Neyman og Pearsons konvention om at repræsentere " den hypotese, der skal testes " (eller " hypotesen skal annulleres ") med udtrykket H 0 har ført til omstændigheder, hvor mange forstår udtrykket " nulhypotesen " som betydning " den nul hypotese " - en erklæring om, at de pågældende resultater er opstået ved en tilfældighed. Dette er ikke nødvendigvis tilfældet - den centrale begrænsning ifølge Fisher (1966) er, at " nulhypotesen skal være præcis, der er fri for uklarhed og tvetydighed, fordi den skal danne grundlag for 'distributionsproblemet' hvoraf testen af ​​betydning er løsningen. "Som en konsekvens af dette er nulhypotesen generelt i eksperimentel videnskab en erklæring om, at en bestemt behandling ikke har nogen effekt ; i observationsvidenskab er det, at der ikke er nogen forskel mellem værdien af ​​en bestemt målt variabel og værdien af ​​en eksperimentel forudsigelse.

Statistisk signifikans

Hvis sandsynligheden for at opnå et så ekstremt resultat som det opnåede, forudsat at nulhypotesen var sand, er lavere end en på forhånd specificeret afskæringssandsynlighed (f.eks. 5%), siges resultatet at være statistisk signifikant og nulhypotesen afvises.

Den britiske statistiker Sir Ronald Aylmer Fisher (1890–1962) understregede, at "nulhypotesen":

... er aldrig bevist eller etableret, men muligvis modbevist i løbet af eksperimenter. Ethvert eksperiment må siges at eksistere kun for at give fakta en chance for at modbevise nulhypotesen.

-  Fisher, 1935, s.19

Ansøgningsdomæner

Medicin

I medicinpraksis er forskellene mellem anvendelser af screening og testning betydelige.

Medicinsk screening

Screening involverer relativt billige tests, der gives til store populationer, hvoraf ingen viser nogen klinisk indikation af sygdom (f.eks. Pap -udstrygninger ).

Test involverer langt dyrere, ofte invasive, procedurer, der kun gives til dem, der viser en klinisk indikation af sygdom, og oftest anvendes til at bekræfte en mistanke om diagnose.

For eksempel kræver de fleste stater i USA, at nyfødte skal screenes for phenylketonuri og hypothyroidisme , blandt andre medfødte lidelser .

Hypotese: "De nyfødte har phenylketonuri og hypothyroidisme"

Nulhypotese (H 0 ): "De nyfødte har ikke phenylketonuri og hypothyroidisme,"

Type I -fejl (falsk positiv): Den sande kendsgerning er, at de nyfødte ikke har phenylketonuri og hypothyroidisme, men vi mener, at de har lidelser ifølge dataene.

Type II -fejl (falsk negativ): Den sande kendsgerning er, at de nyfødte har phenylketonuri og hypothyroidisme, men vi mener, at de ikke har lidelser ifølge dataene.

Selvom de viser en høj grad af falske positiver, betragtes screeningstestene som værdifulde, fordi de i høj grad øger sandsynligheden for at opdage disse lidelser på et langt tidligere stadium.

De enkle blodprøver, der bruges til at screene mulige bloddonorer for hiv og hepatitis, har en betydelig mængde falske positive; læger bruger imidlertid meget dyrere og langt mere præcise test til at afgøre, om en person faktisk er inficeret med en af ​​disse vira.

Måske kommer de mest diskuterede falske positiver inden for medicinsk screening fra mammografi ved screening af brystkræft . Den amerikanske falsk -positive mammografi er op til 15%, den højeste i verden. En konsekvens af den høje falsk positive rate i USA er, at halvdelen af ​​de screenede amerikanske kvinder i en 10-årig periode får et falsk positivt mammografi. Falske positive mammogrammer er dyre, med over 100 millioner dollars brugt årligt i USA på opfølgende test og behandling. De forårsager også kvinder unødvendig angst. Som et resultat af den høje falsk positive rate i USA har hele 90–95% af kvinderne, der får et positivt mammografi, ikke tilstanden. Den laveste sats i verden er i Holland, 1%. De laveste satser er generelt i Nordeuropa, hvor mammografifilm læses to gange og en høj tærskel for yderligere test er indstillet (den høje tærskel reducerer testens effekt).

Den ideelle befolkningsscreeningstest ville være billig, let at administrere og producere nul falske negativer, hvis det er muligt. Sådanne tests producerer normalt flere falsk-positive, som efterfølgende kan sorteres ved mere sofistikeret (og dyr) test.

Medicinsk test

Falske negativer og falske positiver er væsentlige spørgsmål i medicinsk test .

Hypotese: "Patienterne har den specifikke sygdom."

Nulhypotese (H 0 ): "Patienterne har ikke den specifikke sygdom."

Type I -fejl (falsk positiv): "Den sande kendsgerning er, at patienterne ikke har en specifik sygdom, men lægerne vurderer, at patienterne var syge ifølge testrapporterne."

Falske positive kan også producere alvorlige og kontra-intuitive problemer, når tilstanden, der søges efter, er sjælden, som ved screening. Hvis en test har en falsk positiv rate på en ud af ti tusinde, men kun en ud af en million prøver (eller mennesker) er en sand positiv, vil de fleste af de positive ting, der opdages ved denne test, være falske. Sandsynligheden for, at et observeret positivt resultat er et falsk positivt, kan beregnes ved hjælp af Bayes 'sætning .

Type II -fejl (falsk negativ): "Den sande kendsgerning er, at sygdommen faktisk er til stede, men testrapporterne giver en falsk betryggende besked til patienter og læger om, at sygdommen er fraværende."

Falske negativer giver alvorlige og kontra-intuitive problemer, især når tilstanden, der søges efter, er almindelig. Hvis en test med en falsk negativ sats på kun 10% bruges til at teste en befolkning med en sand forekomst på 70%, vil mange af de negativer, der er opdaget ved testen, være falske.

Dette fører undertiden til upassende eller utilstrækkelig behandling af både patienten og deres sygdom. Et almindeligt eksempel er at stole på hjerte -stresstest for at opdage koronar åreforkalkning, selvom hjerte -stresstest kun kender begrænsninger af koronararteriens blodgennemstrømning på grund af avanceret stenose .

Biometri

Biometrisk matchning, f.eks. Til fingeraftryksgenkendelse , ansigtsgenkendelse eller irisgenkendelse , er modtagelig for type I og type II fejl.

Hypotese: "Inputet identificerer ikke nogen på den søgte liste over mennesker"

Nulhypotese: "Inputet identificerer nogen på den søgte liste over mennesker"

Type I -fejl (falsk afvisningsprocent): "Den sande kendsgerning er, at personen er en person på listen, der søges efter, men systemet konkluderer, at personen ikke er i overensstemmelse med dataene."

Type II -fejl (falsk matchrate): "Den sande kendsgerning er, at personen ikke er nogen på den søgte liste, men systemet konkluderer, at personen er en, som vi leder efter i henhold til dataene."

Sandsynligheden for type I-fejl kaldes "falsk afvisningshastighed" (FRR) eller falsk ikke-matchende sats (FNMR), mens sandsynligheden for type II-fejl kaldes "falsk acceptrate" (FAR) eller falsk matchrate ( FMR).

Hvis systemet er designet til sjældent at matche mistænkte, kan sandsynligheden for type II -fejl kaldes " falsk alarmrate ". På den anden side, hvis systemet bruges til validering (og accept er normen), er FAR et mål for systemsikkerhed, mens FRR måler brugerens ulempe.

Sikkerhedsscreening

Hovedartikler: eksplosiv detektion og metaldetektor

Falske positiver findes rutinemæssigt hver dag i lufthavnssikkerhedsscreening , som i sidste ende er visuelle inspektionssystemer . De installerede sikkerhedsalarmer er beregnet til at forhindre, at våben bringes ind i fly; alligevel er de ofte indstillet til så høj følsomhed, at de alarmerer mange gange om dagen for mindre genstande, såsom nøgler, bæltespænder, løst skift, mobiltelefoner og hakker i sko.

Her er hypotesen: "Emnet er et våben."

Nulhypotesen: "Varen er ikke et våben."

Type I -fejl (falsk positiv): "Den sande kendsgerning er, at varen ikke er et våben, men systemet alarmerer stadig."

Type II -fejl (falsk negativ) "Den sande kendsgerning er, at varen er et våben, men systemet holder tavs på nuværende tidspunkt."

Forholdet mellem falske positiver (identifikation af en uskyldig rejsende som terrorist) til ægte positivt (opdagelse af en potentiel terrorist) er derfor meget højt; og fordi næsten hver alarm er falsk positiv, er den positive forudsigelsesværdi af disse screeningstest meget lav.

De relative omkostninger ved falske resultater bestemmer sandsynligheden for, at testskabere tillader, at disse hændelser finder sted. Da omkostningerne ved et falsk negativ i dette scenario er ekstremt høje (ikke at opdage, at en bombe bringes på et fly, kan resultere i hundredvis af dødsfald), mens omkostningerne ved et falsk positivt er relativt lavt (en rimelig simpel yderligere inspektion) er det mest hensigtsmæssige test er en med en lav statistisk specificitet, men høj statistisk følsomhed (en der tillader en høj grad af falske positiver til gengæld for minimale falske negativer).

Computere

Forestillinger om falske positive og falske negativer har en bred valuta inden for computere og computerprogrammer, herunder computersikkerhed , spamfiltrering , malware , optisk tegngenkendelse og mange andre.

For eksempel i tilfælde af spamfiltrering er hypotesen her, at meddelelsen er en spam.

Således er nulhypotesen: "Beskeden er ikke en spam."

Type I -fejl (falsk positiv): "Spamfiltrering eller spamblokeringsteknikker klassificerer en legitim e -mail -meddelelse forkert som spam og forstyrrer dermed leveringen."

Mens de fleste anti-spam-taktikker kan blokere eller filtrere en høj procentdel af uønskede e-mails, er det en meget mere krævende opgave at skabe det uden at skabe betydelige falsk-positive resultater.

Type II-fejl (falsk negativ): "Spam-e-mail registreres ikke som spam, men er klassificeret som ikke-spam." Et lavt antal falske negativer er en indikator for effektiviteten af ​​spamfiltrering.

Se også

Referencer

Bibliografi

  • Betz, MA & Gabriel, KR , "Type IV -fejl og analyse af simple effekter", Journal of Educational Statistics , bind 3, nr. 2, (sommer 1978), s. 121–144.
  • David, FN, "A Power Function for Tests of Randomness in a Sequence of Alternatives", Biometrika , bind 34, nr. 3/4, (december 1947), s. 335–339.
  • Fisher, RA, The Design of Experiments , Oliver & Boyd (Edinburgh), 1935.
  • Gambrill, W., "False Positives on Newborns Disease Tests Worry Parents", Health Day , (5. juni 2006). [1]
  • Kaiser, HF, "Directional Statistical Decisions", Psychological Review , bind 67, nr. 3, (maj 1960), s. 160–167.
  • Kimball, AW, "Errors of the Third Kind in Statistical Consulting", Journal of the American Statistical Association , Vol.52, No.278, (juni 1957), s. 133–142.
  • Lubin, A., "The Interpretation of Significant Interaction", Educational and Psychological Measurement , bind 21, nr. 4, (vinter 1961), s. 807–817.
  • Marascuilo, LA & Levin, JR, "Passende post-hoc-sammenligninger for interaktion og indlejrede hypoteser i analyse af variansdesign: eliminering af type-IV-fejl", American Educational Research Journal , bind 7, nr. 3, (maj 1970 ), s. 397–421.
  • Mitroff, II & Featheringham, TR, "Om systemisk problemløsning og fejl af den tredje art", Behavioral Science , bind 19, nr. 6, (november 1974), s. 383–393.
  • Mosteller, F., "A k -Sample Slippage Test for an Extreme Population", The Annals of Mathematical Statistics , bind 19, nr. 1, (marts 1948), s. 58–65.
  • Moulton, RT, "Netværkssikkerhed", Datamation , bind 29, nr. 7, (juli 1983), s. 121–127.
  • Raiffa, H., Beslutningsanalyse: Indledende forelæsninger om valg under usikkerhed , Addison – Wesley, (Reading), 1968.

eksterne links

  • Bias and Confounding  - præsentation af Nigel Paneth, Graduate School of Public Health, University of Pittsburgh