I statistikker og signalbehandling , et minimum mean square error ( MMSE ) estimator er et skøn, som minimerer middelkvadratfejlen (MSE), som er en fælles mål for estimator kvalitet, af de tilpassede værdier af en afhængig variabel . I den bayesiske indstilling refererer udtrykket MMSE mere specifikt til estimering med kvadratisk tabsfunktion. I sådanne tilfælde er MMSE -estimatoren givet ved posterior middelværdi af parameteren, der skal estimeres. Da det bageste middel er besværligt at beregne, er formen for MMSE -estimatoren normalt begrænset til at være inden for en bestemt klasse af funktioner. Lineære MMSE -estimatorer er et populært valg, da de er lette at bruge, nemme at beregne og meget alsidige. Det har givet anledning til mange populære estimatorer, såsom Wiener -Kolmogorov -filteret og Kalman -filteret .
Motivering
Udtrykket MMSE refererer mere specifikt til estimering i en bayesisk indstilling med kvadratisk omkostningsfunktion. Grundtanken bag den bayesianske tilgang til estimering stammer fra praktiske situationer, hvor vi ofte har nogle forudgående oplysninger om den parameter, der skal estimeres. For eksempel kan vi have forudgående information om det område, som parameteren kan antage; eller vi kan have et gammelt estimat af parameteren, som vi ønsker at ændre, når en ny observation stilles til rådighed; eller statistikken over et faktisk tilfældigt signal, såsom tale. Dette er i modsætning til den ikke-bayesianske tilgang som minimum-varians upartisk estimator (MVUE), hvor absolut intet antages at være kendt om parameteren på forhånd, og som ikke tager højde for sådanne situationer. I den bayesianske tilgang fanges sådanne forudgående oplysninger af parametrenes tidligere sandsynlighedstæthedsfunktion; og baseret direkte på Bayes sætning giver det os mulighed for at foretage bedre posteriore skøn, efterhånden som flere observationer bliver tilgængelige. I modsætning til ikke-bayesisk tilgang, hvor parametre af interesse antages at være deterministiske, men ukendte konstanter, søger den bayesiske estimator at estimere en parameter, der i sig selv er en tilfældig variabel. Desuden kan Bayesiansk estimering også beskæftige sig med situationer, hvor sekvensen af observationer ikke nødvendigvis er uafhængig. Således giver Bayesiansk estimering endnu et alternativ til MVUE. Dette er nyttigt, når MVUE ikke findes eller ikke kan findes.
Definition
Lad være en skjult tilfældig vektorvariabel, og lad være en kendt tilfældig vektorvariabel (måling eller observation), som begge ikke nødvendigvis har samme dimension. En estimator af er en hvilken som helst funktion af målingen . Estimeringsfejlvektoren er givet ved og dens middelværdi i kvadratfejl (MSE) er givet ved spor af fejlkovariansmatrix
hvor forventningen overtages både og . Når er en skalær variabel, forenkles MSE -udtrykket til . Bemærk, at MSE på tilsvarende måde kan defineres på andre måder, siden
MMSE -estimatoren defineres derefter som estimatoren, der opnår minimal MSE:
Ejendomme
- Når midlerne og afvigelserne er begrænsede, er MMSE -estimatoren entydigt defineret og givet af:
- Med andre ord er MMSE -estimatoren den betingede forventning givet den kendte observerede værdi af målingerne.
- MMSE -estimatoren er upartisk (under de forudsætninger, der er nævnt ovenfor):
- hvor er Fisher oplysninger om . Således er MMSE -estimatoren asymptotisk effektiv .
- Den orthogonalitetsprincippet : Når er en skalar, en estimator begrænset til at være af bestemt form er en optimal estimator, dvs. hvis og kun hvis
- for alle i lukkede, lineære delrum af målingerne. For tilfældige vektorer, da MSE for estimering af en tilfældig vektor er summen af MSE'erne for koordinaterne, nedbrydes det at finde MMSE -estimatoren for en tilfældig vektor til at finde MMSE -estimatorerne for X -koordinaterne separat:
- for alle jeg og j . Mere kortfattet skal krydskorrelationen mellem den minimale estimationsfejl og estimatoren være nul,
- Hvis og er Gaussisk i fællesskab , så er MMSE -estimatoren lineær, dvs. den har form til matrix og konstant . Dette kan vises direkte ved hjælp af Bayes -sætningen. Som en konsekvens heraf er det tilstrækkeligt at finde den lineære MMSE -estimator for at finde MMSE -estimatoren.
Lineær MMSE -estimator
I mange tilfælde er det ikke muligt at bestemme det analytiske udtryk for MMSE -estimatoren. To grundlæggende numeriske metoder til at opnå MMSE -estimatet afhænger af enten at finde den betingede forventning eller at finde minimumsværdierne for MSE. Direkte numerisk vurdering af den betingede forventning er beregningsmæssigt dyr, da det ofte kræver multidimensionel integration, der normalt udføres via Monte Carlo -metoder . En anden beregningsmæssig tilgang er direkte at søge minimumsværdierne for MSE ved hjælp af teknikker som f.eks. De stokastiske nedstigningsmetoder ; men denne metode kræver stadig evaluering af forventning. Selvom disse numeriske metoder har været frugtbare, er et ikke desto mindre muligt et lukket formudtryk for MMSE -estimatoren, hvis vi er villige til at indgå kompromiser.
En mulighed er at opgive de fulde krav til optimalitet og søge en teknik, der minimerer MSE inden for en bestemt klasse af estimatorer, såsom klassen af lineære estimatorer. Således har vi postulerer, at den betingede forventning om given størrelse er en simpel lineær funktion af , hvor målingen er en tilfældig vektor, er en matrix og er en vektor. Dette kan ses som den første ordre, Taylor tilnærmelse til . Den lineære MMSE -estimator er estimatoren, der opnår minimum MSE blandt alle estimatorer af en sådan form. Det vil sige, at det løser følgende optimeringsproblem:
En fordel ved en sådan lineær MMSE -estimator er, at det ikke er nødvendigt eksplicit at beregne funktionen posterior sandsynlighedstæthed for . Sådan lineær estimator afhænger kun af de to første øjeblikke af og . Så selvom det kan være bekvemt at antage det og i fællesskab er gaussisk, er det ikke nødvendigt at gøre denne antagelse, så længe den formodede fordeling har veldefinerede første og andet øjeblik. Formen af den lineære estimator afhænger ikke af typen af den formodede underliggende fordeling.
Udtrykket for optimal og er givet af:
hvor , den er kryds-kovariansmatrix mellem og , den er auto-kovariansmatrix af .
Således er udtrykket for lineær MMSE-estimator, dets middelværdi og dets auto-kovarians givet ved
hvor den er kryds-kovariansmatrix mellem og .
Endelig er fejlkovariansen og den mindste gennemsnitlige kvadratfejl, der opnås af en sådan estimator
Afledning ved hjælp af ortogonalitetsprincippet
Lad os få den optimale lineære MMSE -estimator givet som , hvor vi skal finde udtrykket for og . Det kræves, at MMSE -estimatoren er upartisk. Det betyder,
Ved at tilslutte udtrykket til ovenstående får vi
hvor og . Således kan vi omskrive estimatoren som
og udtrykket for estimeringsfejl bliver
Fra ortogonalitetsprincippet kan vi have , hvor vi tager . Her er udtrykket i venstre side
Når der sidestilles med nul, får vi det ønskede udtryk for as
Det er kryds-kovariansmatrix mellem X og Y, og er auto-kovariansmatrix for Y. Siden kan udtrykket også omskrives i form af som
Således er det fulde udtryk for den lineære MMSE -estimator
Da estimatet i sig selv er en tilfældig variabel med , kan vi også opnå dets auto-kovarians som
At sætte udtrykket for og , vi får
Endelig vil covariansen af lineær MMSE -estimeringsfejl derefter blive givet af
Det første udtryk i den tredje linje er nul på grund af ortogonalitetsprincippet. Siden kan vi omskrive med hensyn til kovariansmatricer som
Dette kan vi erkende at være det samme som Således er den mindste middelværdi for kvadratfejl, der kan opnås med en sådan lineær estimator
-
.
Univariat tilfælde
For det særlige tilfælde, når begge og er skalarer, forenkler ovenstående forhold til
hvor er Pearsons korrelationskoefficient mellem og .
Beregning
Standardmetode som Gauss -eliminering kan bruges til at løse matrixligningen for . En mere numerisk stabil metode tilvejebringes ved hjælp af QR -dekomponeringsmetode . Da matrixen er en symmetrisk positiv bestemt matrix, kan den løses dobbelt så hurtigt med Cholesky -nedbrydningen , mens konjugatgradientmetoden for store sparsomme systemer er mere effektiv. Levinson -rekursion er en hurtig metode, når den også er en Toeplitz -matrix . Dette kan ske, når der er en vid forstand stationær proces. I sådanne stationære tilfælde omtales disse estimatorer også som Wiener – Kolmogorov filtre .
Lineær MMSE -estimator til lineær observationsproces
Lad os yderligere modellere den underliggende observationsproces som en lineær proces:, hvor er en kendt matrix og er tilfældig støjvektor med middelværdien og kryds-kovarians . Her vil det nødvendige middelværdi og kovariansmatricerne være
Således ændres udtrykket for den lineære MMSE -estimatormatrix yderligere til
At sætte alt i udtrykket for , vi får
Endelig er fejlkovariansen
Den signifikante forskel mellem det estimeringsproblem, der er behandlet ovenfor, og dem med mindst kvadrater og Gauss – Markov estimat er, at antallet af observationer m , (dvs. dimensionen af ) ikke behøver at være mindst lige så stort som antallet af ukendte, n , (dvs. dimensionen af ). Estimatet for den lineære observationsproces eksisterer, så længe m -by- m matrixen eksisterer; dette er tilfældet for enhver m, hvis for eksempel er positiv bestemt. Fysisk er årsagen til denne egenskab, at da den nu er en tilfældig variabel, er det muligt at danne et meningsfuldt skøn (nemlig middelværdien) selv uden målinger. Hver ny måling giver simpelthen yderligere oplysninger, som kan ændre vores oprindelige estimat. Et andet træk ved dette estimat er, at der for m < n ikke behøver være nogen målefejl. Således kan vi have det , for så længe det er positivt bestemt, eksisterer estimatet stadig. Endelig kan denne teknik håndtere tilfælde, hvor støjen er korreleret.
Alternativ form
En alternativ udtryksform kan opnås ved hjælp af matrixidentiteten
som kan etableres ved at efter-multiplicere med og for-multiplicere med at opnå
og
Da nu kan skrives i form af as , får vi et forenklet udtryk for as
I denne form kan ovenstående udtryk let sammenlignes med det vejede mindst kvadratiske og Gauss -Markov estimat . Især når resultatet , svarende til uendelig variation af apriori -informationen , er identisk med det vejede lineære mindst kvadratiske estimat med vægtmatrixen. Desuden, hvis komponenterne i er ukorrelerede og har samme varians, således at hvor er en identitetsmatrix, så er identisk med det almindelige mindst kvadratiske skøn.
Sekventiel lineær MMSE -vurdering
I mange applikationer i realtid er observationsdata ikke tilgængelige i en enkelt batch. I stedet foretages observationerne i en rækkefølge. En naiv anvendelse af tidligere formler ville få os til at kassere et gammelt estimat og genberegne et nyt estimat, efterhånden som friske data stilles til rådighed. Men så mister vi alle oplysninger fra den gamle observation. Når observationerne er skalære størrelser, er en mulig måde at undgå en sådan genberegning først at sammenkæde hele observationssekvensen og derefter anvende standardestimeringsformlen som udført i eksempel 2. Men dette kan være meget kedeligt, fordi som antallet af observationer stiger, så vokser størrelsen på de matricer, der skal vendes og multipliceres. Denne metode er også vanskelig at udvide til at omfatte vektorobservationer. En anden tilgang til estimering fra sekventielle observationer er simpelthen at opdatere et gammelt estimat, efterhånden som yderligere data bliver tilgængelige, hvilket fører til finere estimater. Således ønskes en rekursiv metode, hvor de nye målinger kan ændre de gamle estimater. Implicit i disse diskussioner er antagelsen om, at de statistiske egenskaber for ikke ændrer sig med tiden. Med andre ord, er stationær.
For sekventiel estimering, hvis vi har et estimat baseret på målinger, der genererer plads , så efter at have modtaget et andet sæt målinger, bør vi fra disse målinger trække den del, der kunne forventes ud fra resultatet af de første målinger, fra. Med andre ord skal opdateringen være baseret på den del af de nye data, der er ortogonal i forhold til de gamle data.
Antag, at der er dannet et optimalt estimat på grundlag af tidligere målinger, og at fejlkovariansmatricen er . For lineære observation behandler det bedste skøn over baseret på tidligere observationer, og dermed gammel skøn , er . Ved at trække fra får vi forudsigelsesfejlen
-
.
Det nye skøn baseret på yderligere data er nu
hvor er krydskovariansen mellem og og er den auto-kovarians af
Ved hjælp af det faktum, at og , kan vi få kovariansmatricerne med hensyn til fejlkovarians som
Når vi sætter alt sammen, har vi det nye skøn som
og den nye fejlkovarians som
Den gentagne brug af de ovennævnte to ligninger, efterhånden som flere observationer bliver tilgængelige, fører til rekursive estimeringsteknikker. Udtrykkene kan skrives mere kompakt som
Matricen omtales ofte som forstærkningsfaktoren. Gentagelsen af disse tre trin, efterhånden som flere data bliver tilgængelige, fører til en iterativ estimeringsalgoritme. Generaliseringen af denne idé til ikke-stationære sager giver anledning til Kalman-filteret . De tre opdateringstrin, der er skitseret ovenfor, udgør faktisk opdateringstrinnet for Kalman -filteret.
Særligt tilfælde: skalære observationer
Som et vigtigt specialtilfælde, kan en nem at bruge rekursive udtryk afledes, når i hvert t den underliggende lineær observationsprocessen th tidsmoment giver en skalar, således at , hvor er n rumfang- 1 kendt søjlevektor hvis værdier kan ændre sig med tiden , er n -by -1 tilfældig kolonnevektor, der skal estimeres, og er skalarstøjsbetegnelse med varians . Efter ( t +1) -te observation giver den direkte brug af ovenstående rekursive ligninger udtrykket for estimatet som:
hvor er den nye skalære observation, og forstærkningsfaktoren er n -by -1 kolonnevektor givet af
Den er n -by- n fejlkovariansmatrix givet af
Her kræves ingen matrixinversion. Forstærkningsfaktoren afhænger også af vores tillid til den nye dataprøve målt ved støjvariansen i forhold til tidligere data. De indledende værdier af og anses for at være middelværdien og kovariansen af den forreste sandsynlighedstæthedsfunktion af .
Alternative tilgange: Denne vigtige specialtilfælde har også givet anledning til mange andre iterative metoder (eller adaptive filtre ), såsom den mindste middelværdi firkanter filter og rekursiv mindste kvadraters filter , der direkte løser det oprindelige MSE optimeringsproblem anvendelse stokastiske gradient nedkørsler . Men da estimeringsfejlen ikke kan observeres direkte, forsøger disse metoder at minimere den gennemsnitlige kvadrerede forudsigelsesfejl . For eksempel i tilfælde af skalære observationer har vi gradienten Således er opdateringsligningen for det mindst gennemsnitlige kvadratfilter givet ved
hvor er skalarstegstørrelsen, og forventningen tilnærmes af den øjeblikkelige værdi . Som vi kan se, omgår disse metoder behovet for kovariansmatricer.
Eksempler
Eksempel 1
Vi tager et lineært forudsigelsesproblem som eksempel. Lad en lineær kombination af observerede skalare tilfældige variabler og bruges til at estimere en anden fremtidig skalær tilfældig variabel, således at . Hvis de tilfældige variabler er virkelige gaussiske tilfældige variabler med nul middelværdi og dens kovariansmatrix givet af
så er vores opgave at finde koefficienterne sådan, at det vil give et optimalt lineært estimat .
Med hensyn til den terminologi, der er udviklet i de foregående afsnit, har vi til dette problem observationsvektoren , estimatormatrixen som en rækkevektor og den estimerede variabel som en skalær mængde. Autokorrelationsmatrixen er defineret som
Tværkorrelationsmatricen er defineret som
Vi løser nu ligningen ved at vende og for-multiplicere for at få
Så vi har og
som de optimale koefficienter for . Beregning af den mindste gennemsnitlige kvadratfejl giver derefter . Bemærk, at det ikke er nødvendigt at opnå en eksplicit matrix omvendt for at beregne værdien af . Matrixligningen kan løses ved velkendte metoder, såsom Gauss -elimineringsmetode. Et kortere, ikke-numerisk eksempel findes i ortogonalitetsprincippet .
Eksempel 2
Overvej en vektor dannet ved at tage observationer af en fast, men ukendt skalarparameter forstyrret af hvid gaussisk støj. Vi kan beskrive processen ved en lineær ligning , hvor . Afhængig af kontekst vil det være klart, om den repræsenterer en skalar eller en vektor. Antag, at vi ved, at det er det område, inden for hvilken værdien af kommer til at falde i. Vi kan modellere vores usikkerhed om ved en forudgående ensartet fordeling over et interval , og dermed vil have variation af . Lad støjvektoren blive normalfordelt som hvor er en identitetsmatrix. Også og er uafhængige og . Det er let at se det
Således er den lineære MMSE -estimator givet af
Vi kan forenkle udtrykket ved at bruge den alternative form til as
hvor har vi
På samme måde er estimatorens varians
Således er MMSE for denne lineære estimator
For meget store ser vi, at MMSE -estimatoren for en skalar med ensartet forudgående fordeling kan tilnærmes med det aritmetiske gennemsnit af alle de observerede data
mens variansen vil være upåvirket af data, og LMMSE for estimatet vil have en tendens til nul.
Estimatoren er imidlertid suboptimal, da den er begrænset til at være lineær. Havde den tilfældige variabel også været Gaussisk, så ville estimatoren have været optimal. Bemærk, at estimatorens form vil forblive uændret, uanset apriori -fordelingen af , så længe middelværdien og variansen for disse fordelinger er den samme.
Eksempel 3
Overvej en variation af ovenstående eksempel: To kandidater stiller op til et valg. Lad den brøkdel af stemmer, som en kandidat vil modtage på en valgdag være Således vil brøkdelen af stemmer, den anden kandidat vil modtage være Vi tager som en tilfældig variabel med en ensartet forudgående fordeling over, så dets middelværdi er og varians er et par stykker uger før valget blev der foretaget to uafhængige meningsmålinger af to forskellige meningsmålinger. Den første meningsmåling afslørede, at kandidaten sandsynligvis vil få en brøkdel af stemmerne. Da der altid er en eller anden fejl på grund af endelig prøveudtagning og den særlige metode til afstemning, den første pollster erklærer, at deres skøn har en fejl med nul middelværdi og varians På samme måde erklærer den anden pollster sit skøn for at være med en fejl med nul middelværdi og varians Bemærk, at bortset fra middelværdien og variansen af fejlen er fejlfordelingen uspecificeret. Hvordan skal de to meningsmålinger kombineres for at opnå stemmeforeningen for den givne kandidat?
Som med tidligere eksempel har vi
Her er både . Således kan vi opnå LMMSE -estimatet som den lineære kombination af og som
hvor vægtene er givet af
Her, da nævneren sigt er konstant, tillægges meningsmåling med lavere fejl højere vægt for at forudsige valgresultatet. Endelig er variansen af forudsigelsen givet ved
hvilket gør mindre end
Generelt, hvis vi har pollsters, hvor vægten for i -pollster er givet ved
Eksempel 4
Antag, at en musiker spiller et instrument, og at lyden modtages af to mikrofoner, som hver især er placeret to forskellige steder. Lad dæmpning af lyd på grund af afstand ved hver mikrofon være og , som formodes at være kendte konstanter. Lad på samme måde støj ved hver mikrofon være og , hver med nul middelværdi og afvigelser og hhv. Lad betegne lyden produceret af musikeren, som er en tilfældig variabel med nul middelværdi og varians Hvordan skal den indspillede musik fra disse to mikrofoner kombineres, efter at de er blevet synkroniseret med hinanden?
Vi kan modellere lyden modtaget af hver mikrofon som
Her er både . Således kan vi kombinere de to lyde som
hvor i -vægten er angivet som
Se også
Noter
Yderligere læsning
-
Johnson, D. "Minimum gennemsnitlige kvadratfejlestimatorer" . Forbindelser. Archived fra Minimum Mean Squared Error estimatorer den oprindelige den 25. juli 2008 . Hentet 8. januar 2013 .
-
Jaynes, ET (2003). Sandsynlighedsteori: Videnskabens logik . Cambridge University Press. ISBN 978-0521592710.
-
Bibby, J .; Toutenburg, H. (1977). Forudsigelse og forbedret estimering i lineære modeller . Wiley. ISBN 9780471016564.
-
Lehmann, EL; Casella, G. (1998). "Kapitel 4". Theory of Point Estimation (2. udgave). Springer. ISBN 0-387-98502-6.
-
Kay, SM (1993). Fundamentals of Statistical Signal Processing: Estimation Theory . Prentice Hall. pp. 344 -350. ISBN 0-13-042268-1.
-
Luenberger, DG (1969). "Kapitel 4, Estimering af mindst kvadrater". Optimering ved Vector Space Methods (1. udgave). Wiley. ISBN 978-0471181170.
-
Moon, TK; Stirling, WC (2000). Matematiske metoder og algoritmer til signalbehandling (1. udgave). Prentice Hall. ISBN 978-0201361865.
-
Van Trees, HL (1968). Detection, Estimering og Modulation teori, del I . New York: Wiley. ISBN 0-471-09517-6.
-
Haykin, SO (2013). Adaptiv filterteori (5. udgave). Prentice Hall. ISBN 978-0132671453.