Outlier - Outlier

Figur 1. Boksdiagram med data fra Michelson – Morley -eksperimentet, der viser fire ekstremer i den midterste kolonne, samt en outlier i den første kolonne.

I statistik er en outlier et datapunkt, der adskiller sig markant fra andre observationer. En outlier kan skyldes variation i målingen, eller det kan indikere eksperimentel fejl; sidstnævnte er undertiden udelukket fra datasættet . En outlier kan forårsage alvorlige problemer i statistiske analyser.

Outliers kan forekomme tilfældigt i enhver distribution, men de angiver ofte enten målefejl, eller at befolkningen har en kraftig fordeling . I førstnævnte tilfælde ønsker man at kassere dem eller bruge statistik, der er robust over for outliers, mens de i sidstnævnte tilfælde angiver, at fordelingen har høj skævhed, og at man skal være meget forsigtig med at bruge værktøjer eller intuitioner, der antager en normal fordeling . En hyppig årsag til outliers er en blanding af to fordelinger, som kan være to adskilte underpopulationer, eller som kan indikere 'korrekt forsøg' versus 'målefejl'; dette er modelleret efter en blandingsmodel .

I de fleste større stikprøver af data vil nogle datapunkter være længere væk fra stikprøven, end hvad der skønnes rimeligt. Dette kan skyldes tilfældige systematiske fejl eller mangler i teorien, der genererede en antaget familie af sandsynlighedsfordelinger , eller det kan være, at nogle observationer er langt fra midten af ​​dataene. Outlier -punkter kan derfor indikere defekte data, fejlagtige procedurer eller områder, hvor en bestemt teori muligvis ikke er gyldig. I store prøver må der imidlertid forventes et lille antal outliers (og ikke på grund af nogen unormal tilstand).

Outliers, der er de mest ekstreme observationer, kan omfatte prøve maksimum eller prøve minimum eller begge, afhængigt af om de er ekstremt høje eller lave. Prøve -maksimum og minimum er dog ikke altid ekstreme, fordi de muligvis ikke er usædvanligt langt fra andre observationer.

Naiv fortolkning af statistik, der er afledt af datasæt, der omfatter afvigelser, kan være vildledende. For eksempel, hvis man beregner gennemsnitstemperaturen for 10 objekter i et rum, og ni af dem er mellem 20 og 25 grader Celsius , men en ovn er på 175 ° C, vil medianen af dataene være mellem 20 og 25 ° C, men middeltemperaturen vil være mellem 35,5 og 40 ° C. I dette tilfælde afspejler medianen temperaturen bedre af et tilfældigt udtaget objekt (men ikke temperaturen i rummet) end middelværdien; naivt at tolke middelværdien som "en typisk prøve", svarende til medianen, er forkert. Som illustreret i dette tilfælde kan outliers angive datapunkter, der tilhører en anden population end resten af prøvesættet .

Estimatorer, der er i stand til at klare outliers, siges at være robuste: medianen er en robust statistik over central tendens , mens middelværdien ikke er det. Men gennemsnittet er generelt en mere præcis estimator.

Forekomst og årsager

Relative sandsynligheder i en normalfordeling

I tilfælde af normalt distribuerede data betyder reglen om tre sigmaer , at omtrent 1 ud af 22 observationer vil afvige med to gange standardafvigelsen eller mere fra middelværdien, og 1 ud af 370 vil afvige med tre gange standardafvigelsen. I en stikprøve på 1000 observationer er tilstedeværelsen af ​​op til fem observationer, der afviger fra middelværdien med mere end tre gange standardafvigelsen, inden for det område, der kan forventes, og er mindre end det dobbelte af det forventede antal og dermed inden for 1 standardafvigelse på det forventede antal - se Poisson -distribution - og angiv ikke en anomali. Hvis stikprøvestørrelsen kun er 100, er kun tre sådanne afvigelser allerede grund til bekymring, hvilket er mere end 11 gange det forventede antal.

Generelt, hvis befolkningsfordelingens art er kendt a priori , er det muligt at teste, om antallet af outliers afviger væsentligt fra det, der kan forventes: for en given cutoff (så prøver falder ud over cutoffet med sandsynlighed p ) af en givet distribution, vil antallet af outliers følge en binomial fordeling med parameter p , som generelt kan godt tilnærmes af Poisson-fordelingen med λ = pn . Såfremt man tager en normalfordeling med cutoff 3 standardafvigelser fra middelværdien, er p cirka 0,3%, og således kan man for 1000 forsøg tilnærme antallet af prøver, hvis afvigelse overstiger 3 sigma ved en Poisson -fordeling med λ = 3.

Årsager

Outliers kan have mange uregelmæssige årsager. Et fysisk apparat til måling kan have lidt en forbigående funktionsfejl. Der kan have været en fejl i datatransmission eller transskription. Ekstremiteter opstår på grund af ændringer i systemadfærd, svigagtig adfærd, menneskelige fejl, instrumentfejl eller simpelthen gennem naturlige afvigelser i populationer. En prøve kan have været forurenet med elementer fra tredjelande, der undersøges. Alternativt kan en outlier være et resultat af en fejl i den antagne teori, der kræver yderligere undersøgelse af forskeren. Derudover optræder det patologiske udseende af ekstreme af en bestemt form i en række datasæt, hvilket indikerer, at årsagsmekanismen for dataene kan variere i den ekstreme ende ( King -effekt ).

Definitioner og detektion

Der er ingen stram matematisk definition af, hvad der udgør en outlier; at afgøre, om en observation er en outlier eller ej, er i sidste ende en subjektiv øvelse. Der er forskellige metoder til detektering af outlier. Nogle er grafiske såsom normale sandsynlighedsplotter . Andre er modelbaserede. Boksarealer er en hybrid.

Modelbaserede metoder, der normalt bruges til identifikation, antager, at dataene er fra en normalfordeling, og identificerer observationer, der anses for "usandsynlige" baseret på middelværdi og standardafvigelse:

Peirces kriterium

Det foreslås i en række observationer at bestemme fejlgrænsen, ud over hvilken alle observationer, der involverer en så stor fejl, kan afvises, forudsat at der er så mange som sådanne observationer. Det princip, det foreslås at løse dette problem på, er, at de foreslåede observationer skal afvises, når sandsynligheden for, at systemet med fejl, der opnås ved at bevare dem, er mindre end for fejlsystemet, der opnås ved deres afvisning ganget med sandsynligheden for gør så mange og ikke mere unormale observationer. (Citeret i redaktionen på side 516 til Peirce (udgave 1982) fra A Manual of Astronomy 2: 558 af Chauvenet.)

Tukey's hegn

Andre metoder markerer observationer baseret på foranstaltninger såsom interkvartilområdet . For eksempel, hvis og er henholdsvis de nedre og øvre kvartiler , så kunne man definere en outlier til at være enhver observation uden for området:

for en eller anden ikke -negativ konstant . John Tukey foreslog denne test, hvor der indikeres en "outlier" og angiver data, der er "langt ude".

Ved anomali detektion

I forskellige domæner som, men ikke begrænset til, statistik , signalbehandling , økonomi , økonometri , fremstilling , netværk og data mining , kan anomalidetekteringsopgaven tage andre tilgange. Nogle af disse kan være afstandsbaserede og tæthedsbaserede, såsom Local Outlier Factor (LOF). Nogle tilgange kan bruge afstanden til de k-nærmeste naboer til at betegne observationer som outliers eller non-outliers.

Ændret Thompson Tau -test

Den modificerede Thompson Tau -test er en metode, der bruges til at afgøre, om der findes en outlier i et datasæt. Styrken ved denne metode ligger i, at den tager højde for et datasæts standardafvigelse, gennemsnit og giver en statistisk bestemt afvisningszone; og dermed tilvejebringe en objektiv metode til at afgøre, om et datapunkt er en outlier. Sådan fungerer det: Først bestemmes et datasæts gennemsnit. Dernæst bestemmes den absolutte afvigelse mellem hvert datapunkt og gennemsnittet. For det tredje bestemmes en afvisningsregion ved hjælp af formlen:

;

hvor er den kritiske værdi fra Student t -fordelingen med n -2 frihedsgrader, n er stikprøvestørrelsen, og s er prøvestandardafvigelsen. For at afgøre, om en værdi er en outlier: Beregn . Hvis δ > Afvisningsområde, er datapunktet en outlier. Hvis δ ≤ Afvisningsregion, er datapunktet ikke en outlier.

Den modificerede Thompson Tau -test bruges til at finde en outlier ad gangen (den største værdi af δ fjernes, hvis den er en outlier). Det betyder, at hvis et datapunkt viser sig at være en outlier, fjernes det fra datasættet, og testen anvendes igen med et nyt gennemsnit og afvisningsområde. Denne proces fortsættes, indtil der ikke er rester i et datasæt.

Noget arbejde har også undersøgt outliers for nominelle (eller kategoriske) data. I sammenhæng med et sæt eksempler (eller forekomster) i et datasæt måler instanshårdheden sandsynligheden for, at en forekomst vil blive klassificeret forkert ( hvor y er den tildelte klassemærke og x repræsenterer inputattributværdien for en forekomst i træningssættet t ). Ideelt set ville forekomstens hårdhed blive beregnet ved at summere over mængden af ​​alle mulige hypoteser H :

Praktisk set er denne formulering umulig, da H potentielt er uendelig, og beregning er ukendt for mange algoritmer. Således kan instanshårdhed tilnærmes ved hjælp af en forskelligartet delmængde :

hvor er hypotesen fremkaldt af læringsalgoritme trænet i træningssæt t med hyperparametre . Instanshårdhed giver en kontinuerlig værdi til bestemmelse af, om en forekomst er en outlier -forekomst.

Arbejde med outliers

Valget af, hvordan man skal håndtere en outlier bør afhænge af årsagen. Nogle estimatorer er meget følsomme over for outliers, især estimering af kovariansmatricer .

Tilbageholdelse

Selv når en normal fordelingsmodel er passende for de data, der analyseres, forventes der afvigelser for store stikprøvestørrelser og bør ikke automatisk kasseres, hvis det er tilfældet. Ansøgningen skal bruge en klassificeringsalgoritme, der er robust over for ekstremværdier til at modellere data med naturligt forekommende outlier -punkter.

Undtagelse

Sletning af outlier -data er en kontroversiel praksis, som mange forskere og videnskabsinstruktører har kigget på. Selvom matematiske kriterier tilvejebringer en objektiv og kvantitativ metode til dataafvisning, gør de ikke øvelsen mere videnskabeligt eller metodisk forsvarlig, især i små sæt eller hvor en normal fordeling ikke kan antages. Afvisning af afvigelser er mere acceptabelt inden for praksisområder, hvor den underliggende model af processen, der måles, og den sædvanlige fordeling af målefejl er sikkert kendt. En outlier, der skyldes en instrumentlæsningsfejl, kan udelukkes, men det er ønskeligt, at aflæsningen i det mindste verificeres.

De to almindelige tilgange til at udelukke outliers er afkortning (eller trimning) og Winsorising . Trimning kasserer outliers, mens Winsorising erstatter outliers med de nærmeste "ikke -mistanke" -data. Ekskludering kan også være en konsekvens af måleprocessen, f.eks. Når et eksperiment ikke helt er i stand til at måle sådanne ekstreme værdier, hvilket resulterer i censurerede data.

Ved regressionsproblemer kan en alternativ tilgang kun være at udelukke punkter, der udviser en stor grad af indflydelse på de estimerede koefficienter, ved hjælp af et mål som Cooks afstand .

Hvis et eller flere datapunkter er udelukket fra dataanalysen , bør dette tydeligt fremgå af enhver efterfølgende rapport.

Ikke-normale fordelinger

Muligheden bør overvejes, at den underliggende fordeling af dataene ikke er tilnærmelsesvis normal, idet den har " fede haler ". For eksempel, når prøveudtagning fra en Cauchy -fordeling stiger stikprøvevariansen med stikprøvestørrelsen, prøvegennemsnittet undlader at konvergere, når stikprøvestørrelsen stiger, og der forventes afvigelser med langt større hastigheder end ved en normal fordeling. Selv en lille forskel i halternes fedme kan gøre en stor forskel i det forventede antal ekstreme værdier.

Set-medlemskab usikkerheder

En fastlagt tilgang til medlemskab mener, at usikkerheden svarende til den i måling af en ukendt tilfældig vektor x er repræsenteret af et sæt X i (i stedet for en sandsynlighedstæthedsfunktion). Hvis der ikke outliers, x skal tilhøre skæringspunktet mellem alle X i 's. Når der opstår udsving, kan dette skæringspunkt være tomt, og vi bør slappe af et lille antal af sætene X i (så lille som muligt) for at undgå uoverensstemmelse. Dette kan gøres ved hjælp af begrebet q - afslappet skæringspunkt . Som illustreret af figuren svarer det q -afslappede skæringspunkt til sættet af alle x, der tilhører alle sæt undtagen q af dem. Sæt X i , der ikke skærer det q -afslappede kryds, kan formodes at være ekstreme.

Figur 5. q -afslappet skæringspunkt mellem 6 sæt for q = 2 (rød), q = 3 (grøn), q = 4 (blå), q = 5 (gul).

Alternative modeller

I tilfælde, hvor årsagen til outliers er kendt, kan det være muligt at inkorporere denne effekt i modelstrukturen, for eksempel ved at bruge en hierarkisk Bayes -model eller en blandingsmodel .

Se også

Referencer

eksterne links