Interkvartil rækkevidde - Interquartile range

Boxplot (med et interkvartilt område) og en sandsynlighedstæthedsfunktion (pdf) for en normal N (0, σ 2 ) befolkning

I beskrivende statistik er interkvartilområdet ( IQR ), også kaldet midtspredningen , midterste 50% eller H -spredning , et mål for statistisk spredning , der er lig med forskellen mellem 75. og 25. percentiler eller mellem øvre og nedre kvartiler , IQR = Q 3  -  Q 1 . Med andre ord er IQR det første kvartil trukket fra det tredje kvartil; disse kvartiler kan tydeligt ses på et boksdiagram over dataene. Det er en trimmet estimator , defineret som 25% trimmet område , og er et almindeligt anvendt robust målestok .

IQR er et mål for variabilitet, baseret på opdeling af et datasæt i kvartiler. Kvartiler deler et rangordnet datasæt i fire lige store dele. De værdier, der adskiller dele, kaldes den første, anden og tredje kvartil; og de betegnes med Q1, også kaldet henholdsvis den nedre kvartil, Q2 og Q3, også kaldet den øvre kvartil. Disse kvartiler bestemmes via lineær interpolation.

Brug

I modsætning til det samlede område har interkvartilområdet et nedbrydningspunkt på 25%og foretrækkes derfor ofte frem for det samlede område.

IQR bruges til at bygge boksdiagrammer , enkle grafiske fremstillinger af en sandsynlighedsfordeling .

IQR bruges i virksomheder som en markør for deres indkomstsatser .

For en symmetrisk fordeling (hvor medianen er lig med midhinge , gennemsnittet af den første og tredje kvartil), er halvdelen af ​​IQR lig median absolut afvigelse (MAD).

Den mediane er den tilsvarende mål for central tendens .

IQR kan bruges til at identificere outliers (se nedenfor ). Den IQR kan også indikere skævhed af datasættet.

Kvartilafvigelsen eller semi-interkvartilområdet er defineret som halvdelen af ​​IQR.

Algoritme

IQR for et sæt værdier beregnes som forskellen mellem de øvre og nedre kvartiler, Q 3 og Q 1 . Hver kvartil er en median beregnet som følger.

Givet et lige 2n eller ulige 2n+1 antal værdier

første kvartil Q 1 = median af de n mindste værdier
tredje kvartil Q 3 = medianen for de n største værdier

Det andet kvartil Q 2 er det samme som den almindelige median.

Eksempler

Datasæt i en tabel

Følgende tabel har 13 rækker og følger reglerne for det ulige antal poster.

jeg x [i] Median Kvartil
1 7 Q 2 = 87
(medianen for hele tabellen)
Q 1 = 31
(median af øvre halvdel, fra række 1 til 6)
2 7
3 31
4 31
5 47
6 75
7 87
8 115
Q 3 = 119
(median af nedre halvdel, fra række 8 til 13)
9 116
10 119
11 119
12 155
13 177

For dataene i denne tabel er interkvartilområdet IQR = Q 3 - Q 1 = 119 - 31 = 88.

Datasæt i et plot med almindelig tekstboks

                    
                             +−−−−−+ -+     
               * | −−−−−−−−−−− | | | −−−−−−−−−− | |
                             +−−−−−+ -+    
                    
 +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+tal linje
 0 1 2 3 4 5 6 7 8 9 10 11 12
  

For datasættet i denne boksdiagram :

  • nedre (første) kvartil Q 1 = 7
  • median (anden kvartil) Q 2 = 8,5
  • øvre (tredje) kvartil Q 3 = 9
  • interkvartilt område, IQR = Q 3 - Q 1 = 2
  • lavere 1,5 * IQR whisker = Q 1 - 1,5 * IQR = 7 - 3 = 4. (Hvis der ikke er noget datapunkt ved 4, så er det laveste punkt større end 4.)
  • øvre 1,5 * IQR whisker = Q 3 + 1,5 * IQR = 9 + 3 = 12. (Hvis der ikke er noget datapunkt ved 12, så er det højeste punkt mindre end 12.)

Det betyder, at 1,5*IQR whiskers kan være ujævne i længder. Medianen, minimum, maksimum og første og tredje kvartil er det "fem-tal sommerlige" foreslået af JW Tukey.

Distributioner

Interkvartilområdet for en kontinuerlig fordeling kan beregnes ved at integrere sandsynlighedstæthedsfunktionen (som giver den kumulative fordelingsfunktion - alle andre måder at beregne CDF vil også fungere). Den laveste kvartil, Q 1 , er et sådant tal, at integralet af PDF fra -∞ til Q 1 er lig 0,25, mens den øvre kvartil, Q 3 , er et sådant antal, at integralet fra -∞ til Q 3 er lig 0,75; hvad angår CDF, kan kvartilerne defineres som følger:

hvor CDF −1 er den kvantile funktion .

Interkvartilområdet og medianen for nogle almindelige fordelinger er vist nedenfor

Fordeling Median IQR
Normal μ 2 Φ −1 (0,75) σ ≈ 1,349σ ≈ (27/20) σ
Laplace μ 2 b  ln (2) ≈ 1,386 b
Cauchy μ

Interkvartil rækkevidde test for normalitet af distribution

IQR, middelværdi og standardafvigelse for en population P kan bruges i en simpel test af, om P er normalt fordelt eller ikke , eller Gaussisk. Hvis P er normalt fordelt, er standard score for den første kvartil, z 1 , -0,67, og standard score for den tredje kvartil, z 3 , er +0,67. Givet middelværdi  =  og standardafvigelse  = σ for P , hvis P er normalt fordelt, den første kvartil

og tredje kvartil

Hvis de faktiske værdier for de første eller tredje kvartiler adskiller sig væsentligt fra de beregnede værdier, er P normalt ikke fordelt. En normal fordeling kan imidlertid forstyrres trivielt for at opretholde sin Q1 og Q2 std. score på 0,67 og -0,67 og ikke være normalfordelt (så ovenstående test ville producere en falsk positiv). En bedre test af normalitet, såsom Q -Q plot ville blive angivet her.

Outliers

Box-and-whisker-plot med fire milde outliers og en ekstrem outlier. I dette diagram defineres outliers som milde over Q3 + 1,5 IQR og ekstreme over Q3 + 3 IQR.

Mellemkvartilområdet bruges ofte til at finde ekstreme data. Outliers her defineres som observationer, der falder under Q1 - 1,5 IQR eller over Q3 + 1,5 IQR. I en boxplot er den højeste og laveste forekommende værdi inden for denne grænse angivet med boksens whiskers (ofte med en ekstra bjælke for enden af ​​whiskeren) og eventuelle outliers som individuelle punkter.

Se også

Referencer

eksterne links