Chi -kvadratisk distribution - Chi-squared distribution

chi-firkantet
Sandsynlighedstæthedsfunktion
Chi-square pdf.svg
Kumulativ fordelingsfunktion
Chi-square cdf.svg
Notation eller
Parametre (kendt som "frihedsgrader")
Support hvis ellers
PDF
CDF
Betyde
Median
Mode
Variation
Skævhed
Eks. kurtosis
Entropi
MGF
CF
PGF

I sandsynlighedsteori og statistik er chi-kvadratfordelingen (også chi-kvadrat eller χ 2 -fordeling ) med k frihedsgrader fordelingen af ​​en sum af kvadraterne af k uafhængige normale normale tilfældige variabler. Chi-kvadratfordelingen er et specielt tilfælde af gammafordelingen og er en af ​​de mest udbredte sandsynlighedsfordelinger i inferentielle statistikker , især i hypotesetest og i konstruktion af konfidensintervaller . Denne fordeling kaldes undertiden den centrale chi-kvadratfordeling , et specielt tilfælde af den mere generelle ikke-centrale chi-kvadratiske fordeling .

Den chi-squared fordeling anvendes i de fælles chi-squared test for goodness of fit af en observeret fordeling til en teoretisk, at uafhængigheden af to kriterier for klassificering af kvalitative data , og i konfidensinterval skøn for en population standardafvigelse af en normalfordeling fra en prøve standardafvigelse. Mange andre statistiske tests bruger også denne fordeling, såsom Friedmans analyse af varians efter rækker .

Definitioner

Hvis Z 1 , ..., Z k er uafhængige , normale normale tilfældige variabler, så er summen af ​​deres kvadrater,

fordeles efter chi-kvadratfordelingen med k frihedsgrader. Dette betegnes normalt som

Chi-kvadratfordelingen har en parameter: et positivt heltal k, der angiver antallet af frihedsgrader (antallet af tilfældige variabler, der summeres, Z i s).

Introduktion

Chi-kvadratfordelingen bruges primært i hypotesetest og i mindre grad for konfidensintervaller for populationsvarians, når den underliggende fordeling er normal. I modsætning til mere kendte fordelinger som normalfordelingen og den eksponentielle fordeling anvendes chi-kvadratfordelingen ikke så ofte i den direkte modellering af naturfænomener. Det opstår blandt andet i følgende hypotesetest:

Det er også en komponent i definitionen af t-distributionen og F-distributionen, der bruges i t-tests, variansanalyse og regressionsanalyse.

Den primære årsag til, at chi-kvadratfordelingen i vid udstrækning bruges i hypotesetest, er dens forhold til normalfordelingen. Mange hypotesetest bruger en teststatistik, såsom t-statistikken i en t-test. For disse hypotesetest, når stikprøvestørrelsen, n, stiger, nærmer sig prøveudtagningens fordeling af teststatistikken normalfordelingen ( central grænsesætning ). Fordi teststatistikken (f.eks. T) er asymptotisk normalfordelt, forudsat at prøvestørrelsen er tilstrækkelig stor, kan fordelingen, der bruges til hypotesetest, tilnærmes med en normalfordeling. Test af hypoteser ved hjælp af en normalfordeling er velkendt og relativt let. Den enkleste chi-kvadratiske fordeling er kvadratet for en standard normalfordeling. Så hvor som helst en normalfordeling kunne bruges til en hypotesetest, kunne en chi-kvadratfordeling bruges.

Antag, at er en stokastisk variabel udtaget fra standardnormalfordelingen, hvor middelværdien er og variansen er : . Overvej nu den tilfældige variabel . Fordelingen af ​​den tilfældige variabel er et eksempel på en chi-kvadratfordeling: Abonnementet 1 angiver, at denne særlige chi-kvadrerede distribution er konstrueret ud fra kun 1 standard normalfordeling. En chi-kvadratfordeling konstrueret ved at kvadrere en enkelt standard normalfordeling siges at have 1 frihedsgrad. Når prøvestørrelsen for en hypotesetest stiger, nærmer sig fordelingen af ​​teststatistikken således en normal fordeling. Ligesom ekstreme værdier for normalfordelingen har lav sandsynlighed (og giver små p-værdier), har ekstreme værdier af chi-kvadratfordelingen lav sandsynlighed.

En yderligere årsag til, at chi-kvadratfordelingen er meget udbredt, er, at den viser sig som den store prøvefordeling af generaliserede sandsynlighedsforholdstest (LRT). LRT'er har flere ønskelige egenskaber; især enkle LRT'er giver normalt den højeste magt til at afvise nulhypotesen ( Neyman – Pearson lemma ), og dette fører også til optimale egenskaber ved generaliserede LRT'er. De normale og chi-kvadratiske tilnærmelser er dog kun gyldige asymptotisk. Af denne grund er det at foretrække at bruge t-fordelingen frem for den normale tilnærmelse eller den chi-kvadratiske tilnærmelse til en lille prøvestørrelse. Tilsvarende i analyser af beredskabstabeller vil den chi-kvadrerede tilnærmelse være dårlig for en lille prøve størrelse, og det er at foretrække at bruge Fishers nøjagtige test . Ramsey viser, at den nøjagtige binomiale test altid er mere kraftfuld end den normale tilnærmelse.

Lancaster viser forbindelserne mellem de binomiale, normale og chi-kvadratiske fordelinger som følger. De Moivre og Laplace fastslog, at en binomial fordeling kunne tilnærmes ved en normal fordeling. Specifikt viste de den asymptotiske normalitet af den tilfældige variabel

hvor er det observerede antal succeser i forsøg, hvor sandsynligheden for succes er , og .

Kvadrering på begge sider af ligningen giver

Brug af , og , denne ligning kan omskrives som

Udtrykket til højre er af den form, Karl Pearson ville generalisere til formen

hvor

= Pearsons kumulative teststatistik, som asymptotisk nærmer sig en fordeling.
= antallet af observationer af typen .
= den forventede (teoretiske) typefrekvens , påstået af nulhypotesen, at brøkdelen af ​​typen i befolkningen er
= antallet af celler i tabellen.

I tilfælde af et binomisk resultat (vending af en mønt) kan binomialfordelingen tilnærmes en normal fordeling (for tilstrækkelig stor ). Fordi kvadratet i en standard normalfordeling er chi-kvadratfordelingen med en frihedsgrad, kan sandsynligheden for et resultat som 1 hoveder i 10 forsøg tilnærmes enten ved at bruge normalfordelingen direkte eller chi-kvadratfordelingen for den normaliserede, kvadrerede forskel mellem observeret og forventet værdi. Imidlertid involverer mange problemer mere end de to mulige resultater af et binomium og kræver i stedet 3 eller flere kategorier, hvilket fører til multinomial distribution. Ligesom de Moivre og Laplace søgte og fandt den normale tilnærmelse til binomiet, søgte og fandt Pearson en degenereret multivariat normal tilnærmelse til multinomialfordelingen (tallene i hver kategori udgør den samlede stikprøvestørrelse, som betragtes som fast) . Pearson viste, at chi-squared-fordelingen opstod fra en sådan multivariat normal tilnærmelse til multinomial distributionen, idet man nøje tog hensyn til den statistiske afhængighed (negative korrelationer) mellem antallet af observationer i forskellige kategorier.

Sandsynlighedstæthedsfunktion

Den Tæthedsfunktionen (pdf) af chi i anden-fordeling er

hvor betegner gamma-funktionen , som har lukkede formværdier for heltal .

For afledninger af pdf'en i tilfælde af en, to og frihedsgrader, se Bevis relateret til distribution af chi-kvadrater .

Kumulativ fordelingsfunktion

Chernoff bundet til CDF og hale (1-CDF) af en chi-kvadreret tilfældig variabel med ti frihedsgrader ( = 10)

Dens kumulative fordelingsfunktion er:

hvor er den lavere ufuldstændige gammafunktion og er den regulerede gammafunktion .

I et specielt tilfælde af = 2 har denne funktion den enkle form:

som let kan udledes ved at integrere direkte. Gammelfunktionens heltal gentagelse gør det let at beregne til andre små, lige .

Tabeller over den ki-kvadratiske kumulative fordelingsfunktion er bredt tilgængelige, og funktionen er inkluderet i mange regneark og alle statistiske pakker .

Udlejning , Chernoff -grænser på CDF's nedre og øvre haler kan opnås. For de tilfælde, hvor (som omfatter alle de tilfælde, hvor denne CDF er mindre end halvdelen):

Halen bundet til de tilfælde, når det på lignende måde er

For en anden tilnærmelse til CDF modelleret efter terningen af ​​en Gaussian, se under Noncentral chi-squared distribution .

Ejendomme

Summen af ​​firkanter af uafhængige identisk fordelte normale tilfældige variabler minus deres gennemsnit

Hvis Z 1 , ..., Z k er uafhængige identisk fordelt (iid), standard normale tilfældige variabler, derefter

hvor

Additivitet

Det følger af definitionen af ​​chi-squared distributionen, at summen af ​​uafhængige chi-squared variabler også er chi-squared distribueret. Specifikt hvis er uafhængige chi-squared variable med , frihedsgrader, henholdsvis, så er chi-squared fordelt med frihedsgrader.

Prøve middelværdi

Prøvegennemsnittet af iid chi-kvadratiske variabler af grad er fordelt i henhold til en gammafordeling med form og skala parametre:

Asymptotisk , da en gammafordeling konvergerer mod en normalfordeling med forventning og varians for en skalaparameter, der går til det uendelige, konvergerer mod:

Bemærk, at vi ville have opnået samme resultat påberåber stedet centrale grænseværdisætning , at bemærke, at for hver chi square variabel grad forventningen er , og dets varians (og dermed variansen af prøven middelværdi væsen ).

Entropi

Den differential entropi er givet ved

hvor ψ ( x ) er Digamma -funktionen .

Den chi-kvadratiske fordeling er den maksimale entropi sandsynlighedsfordeling for en tilfældig variant, som og er fikset. Da chi-firkanten er i familien af ​​gammadistributioner, kan dette udledes ved at erstatte passende værdier i Forventning af logmoment for gamma . For afledning fra mere grundlæggende principper, se afledningen i momentgenererende funktion af den tilstrækkelige statistik .

Ikke -centrale øjeblikke

Momentene omkring nul i en chi-kvadratisk fordeling med frihedsgrader er givet ved

Kumulanter

De comulanter opnås let med en (formel) effekt serieekspansion af logaritmen af den karakteristiske funktion:

Koncentration

Den chi-kvadratiske fordeling udviser stærk koncentration omkring middelværdien. Standardgrænserne for Laurent-Massart er:

Asymptotiske egenskaber

Omtrentlig formel for median (fra Wilson -Hilferty -transformationen) sammenlignet med numerisk kvantil (øverst); og forskel (blå) og relativ forskel (rød) mellem numerisk kvantil og omtrentlig formel (nederst). For chi-kvadratfordelingen er kun de positive heltal af frihedsgrader (cirkler) meningsfulde.

Ved den centrale grænsesætning , fordi chi-kvadratfordelingen er summen af uafhængige tilfældige variabler med begrænset middelværdi og varians, konvergerer den til en normalfordeling for store . For mange praktiske formål er fordelingen tilstrækkeligt tæt på en normalfordeling til at forskellen kan ignoreres. Specifikt hvis , derpå som går mod uendelig, fordelingen af tendens til en standard normalfordeling. Konvergensen er imidlertid langsom, som skævheden er, og den overskydende kurtose er .

Samplingsfordelingen af konvergerer til normalitet meget hurtigere end samplingsfordelingen af , da logaritmen fjerner meget af asymmetrien. Andre funktioner i chi-kvadratfordelingen konvergerer hurtigere til en normal fordeling. Nogle eksempler er:

  • Hvis den derefter er normalt fordelt med middelværdi og enhedsvarians (1922, af RA Fisher , se (18.23), s. 426 i Johnson.
  • Hvis den derefter er normalt fordelt med middel og varians. Dette kaldes Wilson -Hilferty -transformationen, se (18.24), s. 426 af Johnson.
    • Denne normaliserende transformation fører direkte til den almindeligt anvendte median tilnærmelse ved tilbagetransformation fra middelværdien, som også er medianen, for normalfordelingen.

Relaterede distributioner

  • Som , ( normalfordeling )
  • ( ikke-central chi-kvadratisk distribution med ikke-centralitetsparameter )
  • Hvis så har chi-squared distributionen
  • Som et specielt tilfælde, hvis så har chi-squared distributionen
  • (Den kvadrerede norm af k standard normalfordelte variable er en chi i anden-fordeling med k frihedsgrader )
  • Hvis og , så . ( gamma distribution )
  • Hvis så ( chi distribution )
  • Hvis , så er en eksponentiel fordeling . (Se gamma distribution for mere.)
  • Hvis , så er en Erlang -distribution .
  • Hvis , så
  • Hvis ( Rayleigh distribution ) derefter
  • Hvis ( Maxwell distribution ) derefter
  • Hvis så ( Invers-chi-squared distribution )
  • Chi-kvadrerede distribution er et specielt tilfælde af type III Pearson distribution
  • Hvis og er uafhængige så ( beta distribution )
  • Hvis ( ensartet fordeling ) derefter
  • Hvis så
  • Hvis følger den generaliserede normalfordeling (version 1) med parametre derefter
  • chi-squared distribution er en transformation af Pareto distribution
  • Elevens t-distribution er en transformation af chi-squared distribution
  • Elevens t-distribution kan opnås fra chi-squared distribution og normal distribution
  • Noncentral beta distribution kan opnås som en transformation af chi-squared distribution og Noncentral chi-squared distribution
  • Noncentral t-distribution kan opnås ved normal distribution og chi-squared distribution

En chi-kvadrat-variabel med frihedsgrader er defineret som summen af ​​kvadraterne i uafhængige standard normale tilfældige variabler.

Hvis er en -dimensionel gaussisk tilfældig vektor med middelvektor og rang -kovariansmatrix , så er chi -kvadrat fordelt med frihedsgrader.

Summen af ​​kvadrater af statistisk uafhængige enhedsvarians Gaussiske variabler, der ikke har middelværdi, giver en generalisering af chi-kvadratfordelingen kaldet den ikke-centrale chi-kvadratiske fordeling .

Hvis er en vektor af iid standard normale tilfældige variabler og er en symmetrisk , idempotent matrix med rang , så er den kvadratiske form chi-kvadrat fordelt med frihedsgrader.

Hvis er en positiv -semidefinit kovariansmatrix med strengt positive diagonale poster, så for og en tilfældig -vektor uafhængig af sådan, og det holder

Den chi-kvadratiske fordeling er også naturligt relateret til andre fordelinger, der stammer fra Gaussian. I særdeleshed,

  • er F-distribueret , hvis , hvor og er statistisk uafhængige.
  • Hvis og er statistisk uafhængige, så . Hvis og ikke er uafhængige, distribueres ikke chi-square.

Generaliseringer

Chi-kvadratfordelingen opnås som summen af ​​kvadraterne for k uafhængige, nul-middelværdi, enhedsvarians, gaussiske tilfældige variabler. Generaliseringer af denne fordeling kan opnås ved at summere firkanterne for andre typer af gaussiske tilfældige variabler. Flere sådanne fordelinger er beskrevet nedenfor.

Lineær kombination

Hvis er chi square tilfældige variabler og , så er et lukket udtryk for fordelingen af ikke kendt. Det kan dog tilnærmes effektivt ved hjælp af egenskaben for karakteristiske funktioner i chi-square tilfældige variabler.

Chi-squared distributioner

Noncentral chi-squared distribution

Den ikke-centrale chi-kvadratiske fordeling er opnået fra summen af ​​firkanterne for uafhængige gaussiske tilfældige variabler, der har enhedsvarians og ikke-nul- midler.

Generaliseret chi-kvadrat distribution

Den generaliserede chi-kvadratfordeling opnås fra den kvadratiske form z′Az, hvor z er en nul-middelværdig Gauss-vektor med en vilkårlig kovariansmatrix, og A er en vilkårlig matrix.

Gamma, eksponentielle og relaterede distributioner

Chi-kvadratfordelingen er et specielt tilfælde af gammafordelingen , ved at bruge frekvensparameteriseringen af ​​gammafordelingen (eller ved hjælp af skalaparameteriseringen af ​​gammafordelingen), hvor k er et heltal.

Fordi den eksponentielle distribution også er et specielt tilfælde af gammafordelingen, har vi også det hvis , så er en eksponentiel distribution .

Den Erlang fordeling er også et særligt tilfælde af gammafordelingen og således har vi også, at hvis med endnu , så er Erlang fordelt med formparameter og skalaparameter .

Forekomst og applikationer

Den chi-squared fordeling har talrige anvendelsesmuligheder på empiriske statistik , f.eks i chi-squared test og vurdere afvigelser . Det kommer ind i problemet med at estimere middelværdien af ​​en normalt fordelt befolkning og problemet med at estimere hældningen af ​​en regressionslinje via dens rolle i Students t-distribution . Det går ind i alle analyser af variansproblemer via sin rolle i F-distributionen , som er fordelingen af ​​forholdet mellem to uafhængige chi-kvadrerede tilfældige variabler , hver divideret med deres respektive frihedsgrader.

Følgende er nogle af de mest almindelige situationer, hvor chi-kvadratfordelingen stammer fra en Gauss-distribueret prøve.

  • hvis er iid tilfældige variabler , så hvor .
  • Boksen nedenfor viser nogle statistikker baseret på uafhængige tilfældige variabler, der har sandsynlighedsfordelinger relateret til chi-kvadratfordelingen:
Navn Statistik
chi-squared distribution
ikke-central chi-kvadratfordeling
chi distribution
noncentral chi distribution

Den chi-kvadratiske fordeling findes også ofte i magnetisk resonansbilleddannelse .

Beregningsmetoder

Tabel med χ 2 værdier vs p -værdier

Den p -værdi er sandsynligheden for at observere en teststørrelse mindst så ekstreme i en chi i anden-fordeling. Da den kumulative fordelingsfunktion (CDF) for de passende frihedsgrader (df) giver sandsynligheden for at have opnået en værdi, der er mindre ekstrem end dette punkt, giver subtrahering af CDF -værdien fra 1 p -værdien. En lav p -værdi, under det valgte signifikansniveau, angiver statistisk signifikans , dvs. tilstrækkeligt bevis til at afvise nulhypotesen. Et signifikansniveau på 0,05 bruges ofte som afskærmning mellem signifikante og ikke-signifikante resultater.

Tabellen herunder giver et antal p -værdier, der matcher til de første 10 frihedsgrader.

Frihedsgrader (df) værdi
1 0,004 0,02 0,06 0,15 0,46 1,07 1,64 2,71 3,84 6,63 10,83
2 0,10 0,21 0,45 0,71 1,39 2,41 3,22 4,61 5,99 9.21 13,82
3 0,35 0,58 1,01 1,42 2,37 3,66 4,64 6,25 7,81 11.34 16.27
4 0,71 1,06 1,65 2,20 3,36 4,88 5,99 7,78 9,49 13.28 18.47
5 1.14 1,61 2,34 3,00 4,35 6.06 7,29 9.24 11.07 15.09 20.52
6 1,63 2,20 3.07 3,83 5.35 7,23 8,56 10,64 12.59 16.81 22.46
7 2.17 2,83 3,82 4,67 6,35 8,38 9,80 12.02 14.07 18.48 24.32
8 2,73 3,49 4.59 5.53 7,34 9.52 11.03 13.36 15.51 20.09 26.12
9 3,32 4.17 5.38 6,39 8,34 10,66 12.24 14,68 16,92 21,67 27,88
10 3,94 4,87 6.18 7,27 9,34 11,78 13.44 15,99 18.31 23.21 29.59
p -værdi (sandsynlighed) 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,01 0,001

Disse værdier kan beregnes ved at evaluere kvantilfunktionen (også kendt som "invers CDF" eller "ICDF") for chi-kvadratfordelingen; f.eks. χ 2 ICDF for p = 0,05 og df = 7 giver 2.1673 ≈ 2.17 som i tabellen ovenfor, idet man bemærker, at 1 - p er p -værdien fra tabellen.

Historie

Denne fordeling blev først beskrevet af den tyske statistiker Friedrich Robert Helmert i papirer fra 1875–6, hvor han beregnede prøveudtagningsfordelingen af ​​prøvevariansen for en normal befolkning. Således på tysk var dette traditionelt kendt som Helmert'sche ("Helmertian") eller "Helmert distribution".

Fordelingen blev uafhængigt genopdaget af den engelske matematiker Karl Pearson i sammenhæng med god pasform , som han udviklede sin Pearsons chi-squared test , udgivet i 1900, med beregnet tabel med værdier offentliggjort i ( Elderton 1902 ), indsamlet i ( Pearson 1914 , s. Xxxi – xxxiii, 26–28, tabel XII) . Navnet "chi-square" stammer i sidste ende fra Pearsons stenografi for eksponenten i en multivariat normalfordeling med det græske bogstav Chi og skriver ½½ 2 for, hvad der i moderne notation ville forekomme som −½ x T Σ −1 x (Σ er kovariansmatrix ). Ideen om en familie med "chi-squared distributioner" skyldes imidlertid ikke Pearson, men opstod som en videreudvikling på grund af Fisher i 1920'erne.

Se også

Referencer

Yderligere læsning

eksterne links