Densitetsestimering - Density estimation
I sandsynlighed og statistik er tæthedsestimering konstruktionen af et skøn baseret på observerede data for en ikke-observerbar underliggende sandsynlighedsdensitetsfunktion . Den ikke-observerbare densitetsfunktion betragtes som densiteten, ifølge hvilken en stor population er fordelt; dataene betragtes normalt som en tilfældig stikprøve fra denne population.
Der anvendes en række tilgange til tæthedsestimering , herunder Parzen-vinduer og en række dataklyngeteknikker , herunder vektorkvantisering . Den mest basale form for densitetsestimering er et omskaleret histogram .
Eksempel på densitetsestimering
Vi vil overveje optegnelser om forekomsten af diabetes . Følgende er citeret ordret fra beskrivelsen af datasættet :
- En befolkning af kvinder, der var mindst 21 år gamle, af Pima indisk arv og boede nær Phoenix, Arizona, blev testet for diabetes mellitus i henhold til Verdenssundhedsorganisationens kriterier. Dataene blev indsamlet af US National Institute of Diabetes and Digestive and Kidney Diseases. Vi brugte de 532 komplette poster.
I dette eksempel konstruere vi tre estimater massefylde for "glu" ( plasma glucose koncentration), en betinget af tilstedeværelsen af diabetes, det andet betinget fravær af diabetes, og den tredje ikke er betinget af diabetes. Estimaterne af betinget tæthed bruges derefter til at konstruere sandsynligheden for diabetes betinget af "glu".
"Glu" -dataene blev opnået fra MASS-pakken i R-programmeringssproget . Inden for R, ?Pima.tr
og ?Pima.te
give en mere detaljeret redegørelse for dataene.
Den gennemsnitlige af "glu" i diabetes tilfælde er 143,1 og standardafvigelsen er 31.26. Gennemsnittet af "glu" i ikke-diabetes tilfælde er 110,0 og standardafvigelsen er 24,29. Heraf ser vi, at diabetes i dette datasæt er forbundet med større niveauer af "glu". Dette vil blive tydeligere ved hjælp af plot af de estimerede densitetsfunktioner.
Den første figur viser densitetsestimater for p (glu | diabetes = 1), p (glu | diabetes = 0) og p (glu). Densitetsestimaterne er estimater for kernetæthed ved hjælp af en Gaussisk kerne. Det vil sige, at en Gaussisk densitetsfunktion placeres ved hvert datapunkt, og summen af densitetsfunktionerne beregnes over dataområdet.
Fra tætheden af "glu" betinget af diabetes kan vi opnå sandsynligheden for diabetes betinget af "glu" via Bayes 'regel . For kortfattethed er "diabetes" forkortet "db." i denne formel.
Den anden figur viser den estimerede bageste sandsynlighed p (diabetes = 1 | glu). Fra disse data ser det ud til, at et øget niveau af "glu" er forbundet med diabetes.
Script for eksempel
Følgende R-kommandoer opretter de viste figurer ovenfor. Disse kommandoer kan indtastes ved kommandoprompten ved hjælp af klip og indsæt.
library(MASS)
data(Pima.tr)
data(Pima.te)
Pima <- rbind (Pima.tr, Pima.te)
glu <- Pima[, 'glu']
d0 <- Pima[, 'type'] == 'No'
d1 <- Pima[, 'type'] == 'Yes'
base.rate.d1 <- sum(d1) / (sum(d1) + sum(d0))
glu.density <- density (glu)
glu.d0.density <- density (glu[d0])
glu.d1.density <- density (glu[d1])
glu.d0.f <- approxfun(glu.d0.density$x, glu.d0.density$y)
glu.d1.f <- approxfun(glu.d1.density$x, glu.d1.density$y)
p.d.given.glu <- function(glu, base.rate.d1)
{
p1 <- glu.d1.f(glu) * base.rate.d1
p0 <- glu.d0.f(glu) * (1 - base.rate.d1)
p1 / (p0 + p1)
}
x <- 1:250
y <- p.d.given.glu (x, base.rate.d1)
plot(x, y, type='l', col='red', xlab='glu', ylab='estimated p(diabetes|glu)')
plot(density(glu[d0]), col='blue', xlab='glu', ylab='estimate p(glu),
p(glu|diabetes), p(glu|not diabetes)', main=NA)
lines(density(glu[d1]), col='red')
Bemærk, at ovenstående estimator for betinget tæthed bruger båndbredder, der er optimale til ubetingede tætheder. Alternativt kan man bruge metoden fra Hall, Racine og Li (2004) og R np-pakken til automatisk (datadrevet) båndbreddevalg, der er optimal til estimerede betingelser for tæthed; se np-vignetten for en introduktion til np-pakken. Følgende R-kommandoer bruger npcdens()
funktionen til at levere optimal udjævning. Bemærk, at svaret "Ja" / "Nej" er en faktor.
library(np)
fy.x <- npcdens(type~glu, nmulti=1, data=Pima)
Pima.eval <- data.frame(type=factor("Yes"),
glu=seq(min(Pima$glu), max(Pima$glu), length=250))
plot(x, y, type='l', lty=2, col='red', xlab='glu',
ylab='estimated p(diabetes|glu)')
lines(Pima.eval$glu, predict(fy.x, newdata=Pima.eval), col="blue")
legend(0, 1, c("Unconditional bandwidth", "Conditional bandwidth"),
col=c("red", "blue"), lty=c(2, 1))
Den tredje figur bruger optimal udjævning via metoden fra Hall, Racine og Li, hvilket indikerer, at den ubetingede tæthedsbåndbredde, der er anvendt i den anden figur ovenfor, giver et skøn over betinget tæthed, der kan være noget underudglattet.
Anvendelse og formål
En meget naturlig anvendelse af densitetsestimater er i den uformelle undersøgelse af egenskaberne ved et givet datasæt. Densitetsestimater kan give værdifuld indikation af sådanne funktioner som skævhed og multimodalitet i dataene. I nogle tilfælde vil de give konklusioner, der derefter kan betragtes som åbenlyse sandt, mens det i andre alt, hvad de vil gøre, er at pege vejen til yderligere analyse og / eller dataindsamling.
Et vigtigt aspekt af statistik er ofte præsentation af data tilbage til klienten for at give en forklaring og illustration af konklusioner, der muligvis er opnået på anden måde. Densitetsestimater er ideelle til dette formål af den enkle grund, at de er ret forståelige for ikke-matematikere.
Flere eksempler, der illustrerer brugen af densitetsestimater til sonderende og præsentationsformål, herunder det vigtige tilfælde af bivariate data.
Densitetsestimering bruges også ofte til anomaliedetektion eller detektion af nyheder : Hvis en observation ligger i et område med meget lav densitet, er det sandsynligvis en anomali eller en nyhed.
- I hydrologi den histogram og estimerede tæthedsfunktion af nedbør og river hjemsendelsesdata, analyseret med en sandsynlighedsfordeling , der bruges til at få indsigt i deres adfærd og hyppighed. Et eksempel er vist i den blå figur.
Se også
- Estimering af kernetæthed
- Gennemsnitlig integreret kvadratfejl
- Histogram
- Multivariat kernedensitetsestimering
- Estimering af spektral densitet
- Kerneindlejring af distributioner
- Generativ model
- Anvendelse af ordrestatistikker: Ikke-parametrisk tæthedsestimering
- Sandsynlighedsfordeling montering
Referencer
Kilder
- Brian D. Ripley (1996). Mønstergenkendelse og neurale netværk . Cambridge: Cambridge University Press. ISBN 978-0521460866.
- Trevor Hastie , Robert Tibshirani og Jerome Friedman. Elementerne i statistisk læring . New York: Springer, 2001. ISBN 0-387-95284-5 . (Se kapitel 6.)
- Qi Li og Jeffrey S. Racine. Ikke-parametrisk økonometri: Teori og praksis . Princeton University Press, 2007, ISBN 0-691-12161-3 . (Se kapitel 1.)
- DW Scott. Multivariat tæthedsestimering. Teori, praksis og visualisering . New York: Wiley, 1992.
- BW Silverman . Densitetsestimering . London: Chapman and Hall, 1986. ISBN 978-0-412-24620-3
eksterne links
- CREEM: Center for forskning i økologisk og miljømæssig modellering Downloads til gratis softwarepakker til densitetsestimering Afstand 4 (fra forskningsenhed for vurdering af vilde dyrs befolkning "RUWPA") og WiSP .
- UCI Machine Learning Repository Content Summary (Se "Pima Indians Diabetes Database" for det originale datasæt med 732 poster og yderligere noter.)
- MATLAB-kode til estimering af en dimensionel og todimensionel tæthed
- libAGF C ++ software til estimering af variabel kernetæthed .