Teststatistik - Test statistic

En teststatistik er en statistik (en mængde afledt af prøven ), der anvendes i statistisk hypotesetest . En hypotesetest er typisk specificeret i form af en teststatistik, betragtet som et numerisk resumé af et datasæt, der reducerer dataene til en værdi, der kan bruges til at udføre hypotesetesten. Generelt vælges eller defineres en teststatistik på en sådan måde, at der inden for observerede data kvantificeres adfærd, der ville adskille nullet fra den alternative hypotese , hvor et sådant alternativ er foreskrevet, eller som ville karakterisere nulhypotesen, hvis der er ingen eksplicit angivet alternativ hypotese.

En vigtig egenskab ved en teststatistik er, at dens samplingsfordeling under nulhypotesen skal være beregningsbar , enten nøjagtigt eller cirka, hvilket gør det muligt at beregne p -værdier . En teststatistik deler nogle af de samme kvaliteter som en beskrivende statistik , og mange statistikker kan bruges som både teststatistik og beskrivende statistik. Imidlertid er en teststatistik specifikt beregnet til brug i statistisk testning, hvorimod hovedkvaliteten af ​​en beskrivende statistik er, at den er let fortolkelig. Nogle informative beskrivende statistikker, f.eks. Prøveområdet , laver ikke gode teststatistikker, da det er svært at bestemme deres prøveudtagningsfordeling.

To meget udbredte teststatistikker er t-statistikken og F-testen .

Eksempel

Antag, at opgaven er at teste, om en mønt er fair (dvs. har samme sandsynlighed for at producere et hoved eller en hale). Hvis mønten vendes 100 gange, og resultaterne registreres, kan rådataene repræsenteres som en sekvens på 100 hoveder og haler. Hvis der er interesse for den marginale sandsynlighed for at få en hale, skal kun tallet T ud af de 100 flips, der producerede en hale, registreres. Men T kan også bruges som teststatistik på en af ​​to måder:

  • den nøjagtige samplingsfordeling af T under nulhypotesen er den binomiske fordeling med parametre 0,5 og 100.
  • værdien af T kan sammenlignes med dens forventede værdi under nulhypotesen 50, og da stikprøvestørrelsen er stor, kan en normalfordeling bruges som en tilnærmelse til prøveudtagningsfordelingen enten for T eller for den reviderede teststatistik T - 50.

Ved hjælp af en af ​​disse samplingsfordelinger er det muligt at beregne enten en ensidig eller tohalet p-værdi for nulhypotesen om, at mønten er fair. Bemærk, at teststatistikken i dette tilfælde reducerer et sæt på 100 tal til et enkelt numerisk resumé, der kan bruges til test.

Fælles teststatistik

Et-stikprøver er passende, når en prøve sammenlignes med befolkningen fra en hypotese. Befolkningskarakteristika kendes fra teorien eller beregnes ud fra befolkningen.

Test af to prøver er passende til sammenligning af to prøver, typisk eksperimentelle og kontrolprøver fra et videnskabeligt kontrolleret forsøg.

Parrede tests er passende til sammenligning af to prøver, hvor det er umuligt at kontrollere vigtige variabler. I stedet for at sammenligne to sæt parres medlemmer mellem prøver, så forskellen mellem medlemmerne bliver prøven. Typisk sammenlignes middelværdien af ​​forskellene derefter med nul. Det almindelige eksempelscenario for, hvornår en parret differenstest er passende, er, når et enkelt sæt testpersoner har noget anvendt på dem, og testen er beregnet til at kontrollere, om der er en effekt.

Z-test er passende til sammenligning af midler under strenge betingelser vedrørende normalitet og en kendt standardafvigelse.

En t -test er passende til sammenligning af midler under afslappede forhold (der forudsættes mindre).

Test af proportioner er analoge med test af midler (andelen på 50%).

Chi-kvadratiske tests bruger de samme beregninger og den samme sandsynlighedsfordeling for forskellige applikationer:

  • Chi-kvadratiske test til varians bruges til at afgøre, om en normal population har en specificeret varians. Nulhypotesen er, at det gør det.
  • Chi-kvadratiske uafhængighedstest bruges til at afgøre, om to variabler er tilknyttet eller uafhængige. Variablerne er kategoriske snarere end numeriske. Det kan bruges til at bestemme, om venstrehåndet er korreleret med højden (eller ej). Nulhypotesen er, at variablerne er uafhængige. Tallene, der bruges i beregningen, er de observerede og forventede forekomstfrekvenser (fra beredskabstabeller ).
  • Chi-squared godhedstest bruges til at bestemme tilstrækkeligheden af ​​kurver, der passer til data. Nulhypotesen er, at kurvetilpasningen er tilstrækkelig. Det er almindeligt at bestemme kurveformer for at minimere den gennemsnitlige kvadratfejl, så det er hensigtsmæssigt, at beregningen af ​​godhed passer til de kvadrerede fejl.

F-test (variansanalyse, ANOVA) bruges almindeligt, når det afgøres, om gruppering af data efter kategori er meningsfuld. Hvis variansen af ​​testresultater for venstrehåndede i en klasse er meget mindre end variansen for hele klassen, kan det være nyttigt at studere venstreorienterede som en gruppe. Nulhypotesen er, at to afvigelser er de samme - så den foreslåede gruppering er ikke meningsfuld.

I tabellen nedenfor er de anvendte symboler defineret i bunden af ​​tabellen. Mange andre tests findes i andre artikler . Der er beviser for, at teststatistikken er passende.

Navn Formel Antagelser eller noter
En prøve z-test (Normal befolkning eller n stor) og σ kendt.

( z er afstanden fra middelværdien i forhold til middelafvigelsen af ​​middelværdien ). For ikke-normale fordelinger er det muligt at beregne en minimumsandel af en befolkning, der falder inden for k standardafvigelser for enhver k (se: Chebyshevs ulighed ).

Z-test med to prøver Normal befolkning og uafhængige observationer og σ 1 og σ 2 kendes
En prøve t -test

(Normal befolkning eller n stor) og ukendt
Parret t -test

(Normal population af forskelle eller n store) og ukendt
To prøver samles t -test , lige store afvigelser


(Normale populationer eller n 1  +  n 2  > 40) og uafhængige observationer og σ 1 = σ 2 ukendt
To prøver unpooled t -test, ulige afvigelser ( Welchs t -test )

(Normale populationer eller n 1  +  n 2  > 40) og uafhængige observationer og σ 1 ≠ σ 2 begge ukendte
Z-test i en andel n . p 0 > 10 og n (1 -  p 0 )> 10 og det er en SRS (Simple Random Sample), se noter .
To-proportion z-test, samlet til

n 1 p 1 > 5 og n 1 (1 -  p 1 )> 5 og n 2 p 2  > 5 og n 2 (1 -  p 2 )> 5 og uafhængige observationer, se noter .
Z-test i to dele, uden pool til n 1 p 1 > 5 og n 1 (1 -  p 1 )> 5 og n 2 p 2  > 5 og n 2 (1 -  p 2 )> 5 og uafhængige observationer, se noter .
Chi-kvadrat test for varians df = n-1

• Normal befolkning

Chi-squared test for god pasform df = k  - 1 -  # parametre estimeret , og en af ​​disse skal holde.

• Alle forventede tællinger er mindst 5.

• Alle forventede tællinger er> 1, og højst 20% af forventede tællinger er mindre end 5

To-prøve F test for lighed af varianser Normale populationer
Arranger det, og afvis H 0 for
Regression t -test af Afvis H 0 for *Træk 1 for aflytning; k udtryk indeholder uafhængige variabler.
Generelt angiver abonnementet 0 en værdi taget fra nulhypotesen , H 0 , som bør bruges så meget som muligt til at konstruere sin teststatistik. ... Definitioner af andre symboler:
  • = prøvevarians
  • = prøve 1 standardafvigelse
  • = prøve 2 standardafvigelse
  • = t statistik
  • = frihedsgrader
  • = prøve middelværdi af forskelle
  • = hypotese befolkning betyder forskel
  • = standardafvigelse af forskelle
  • = Chi-kvadratisk statistik
  • = X / n = prøvens andel , medmindre andet er angivet
  • = hypotese befolkningsandel
  • = andel 1
  • = andel 2
  • = hypotetiseret forskel i andel
  • = minimum n 1 og n 2
  • = F statistik

Se også

Referencer