Mindste gennemsnitlige kvadratfejl - Minimum mean square error

I statistikker og signalbehandling , et minimum mean square error ( MMSE ) estimator er et skøn, som minimerer middelkvadratfejlen (MSE), som er en fælles mål for estimator kvalitet, af de tilpassede værdier af en afhængig variabel . I den bayesiske indstilling refererer udtrykket MMSE mere specifikt til estimering med kvadratisk tabsfunktion. I sådanne tilfælde er MMSE -estimatoren givet ved posterior middelværdi af parameteren, der skal estimeres. Da det bageste middel er besværligt at beregne, er formen for MMSE -estimatoren normalt begrænset til at være inden for en bestemt klasse af funktioner. Lineære MMSE -estimatorer er et populært valg, da de er lette at bruge, nemme at beregne og meget alsidige. Det har givet anledning til mange populære estimatorer, såsom Wiener -Kolmogorov -filteret og Kalman -filteret .

Motivering

Udtrykket MMSE refererer mere specifikt til estimering i en bayesisk indstilling med kvadratisk omkostningsfunktion. Grundtanken bag den bayesianske tilgang til estimering stammer fra praktiske situationer, hvor vi ofte har nogle forudgående oplysninger om den parameter, der skal estimeres. For eksempel kan vi have forudgående information om det område, som parameteren kan antage; eller vi kan have et gammelt estimat af parameteren, som vi ønsker at ændre, når en ny observation stilles til rådighed; eller statistikken over et faktisk tilfældigt signal, såsom tale. Dette er i modsætning til den ikke-bayesianske tilgang som minimum-varians upartisk estimator (MVUE), hvor absolut intet antages at være kendt om parameteren på forhånd, og som ikke tager højde for sådanne situationer. I den bayesianske tilgang fanges sådanne forudgående oplysninger af parametrenes tidligere sandsynlighedstæthedsfunktion; og baseret direkte på Bayes sætning giver det os mulighed for at foretage bedre posteriore skøn, efterhånden som flere observationer bliver tilgængelige. I modsætning til ikke-bayesisk tilgang, hvor parametre af interesse antages at være deterministiske, men ukendte konstanter, søger den bayesiske estimator at estimere en parameter, der i sig selv er en tilfældig variabel. Desuden kan Bayesiansk estimering også beskæftige sig med situationer, hvor sekvensen af ​​observationer ikke nødvendigvis er uafhængig. Således giver Bayesiansk estimering endnu et alternativ til MVUE. Dette er nyttigt, når MVUE ikke findes eller ikke kan findes.

Definition

Lad være en skjult tilfældig vektorvariabel, og lad være en kendt tilfældig vektorvariabel (måling eller observation), som begge ikke nødvendigvis har samme dimension. En estimator af er en hvilken som helst funktion af målingen . Estimeringsfejlvektoren er givet ved og dens middelværdi i kvadratfejl (MSE) er givet ved spor af fejlkovariansmatrix

hvor forventningen overtages både og . Når er en skalær variabel, forenkles MSE -udtrykket til . Bemærk, at MSE på tilsvarende måde kan defineres på andre måder, siden

MMSE -estimatoren defineres derefter som estimatoren, der opnår minimal MSE:

Ejendomme

  • Når midlerne og afvigelserne er begrænsede, er MMSE -estimatoren entydigt defineret og givet af:
Med andre ord er MMSE -estimatoren den betingede forventning givet den kendte observerede værdi af målingerne.
  • MMSE -estimatoren er upartisk (under de forudsætninger, der er nævnt ovenfor):
hvor er Fisher oplysninger om . Således er MMSE -estimatoren asymptotisk effektiv .
  • Den orthogonalitetsprincippet : Når er en skalar, en estimator begrænset til at være af bestemt form er en optimal estimator, dvs. hvis og kun hvis
for alle i lukkede, lineære delrum af målingerne. For tilfældige vektorer, da MSE for estimering af en tilfældig vektor er summen af ​​MSE'erne for koordinaterne, nedbrydes det at finde MMSE -estimatoren for en tilfældig vektor til at finde MMSE -estimatorerne for X -koordinaterne separat:
for alle jeg og j . Mere kortfattet skal krydskorrelationen mellem den minimale estimationsfejl og estimatoren være nul,
  • Hvis og er Gaussisk i fællesskab , så er MMSE -estimatoren lineær, dvs. den har form til matrix og konstant . Dette kan vises direkte ved hjælp af Bayes -sætningen. Som en konsekvens heraf er det tilstrækkeligt at finde den lineære MMSE -estimator for at finde MMSE -estimatoren.

Lineær MMSE -estimator

I mange tilfælde er det ikke muligt at bestemme det analytiske udtryk for MMSE -estimatoren. To grundlæggende numeriske metoder til at opnå MMSE -estimatet afhænger af enten at finde den betingede forventning eller at finde minimumsværdierne for MSE. Direkte numerisk vurdering af den betingede forventning er beregningsmæssigt dyr, da det ofte kræver multidimensionel integration, der normalt udføres via Monte Carlo -metoder . En anden beregningsmæssig tilgang er direkte at søge minimumsværdierne for MSE ved hjælp af teknikker som f.eks. De stokastiske nedstigningsmetoder  ; men denne metode kræver stadig evaluering af forventning. Selvom disse numeriske metoder har været frugtbare, er et ikke desto mindre muligt et lukket formudtryk for MMSE -estimatoren, hvis vi er villige til at indgå kompromiser.

En mulighed er at opgive de fulde krav til optimalitet og søge en teknik, der minimerer MSE inden for en bestemt klasse af estimatorer, såsom klassen af ​​lineære estimatorer. Således har vi postulerer, at den betingede forventning om given størrelse er en simpel lineær funktion af , hvor målingen er en tilfældig vektor, er en matrix og er en vektor. Dette kan ses som den første ordre, Taylor tilnærmelse til . Den lineære MMSE -estimator er estimatoren, der opnår minimum MSE blandt alle estimatorer af en sådan form. Det vil sige, at det løser følgende optimeringsproblem:

En fordel ved en sådan lineær MMSE -estimator er, at det ikke er nødvendigt eksplicit at beregne funktionen posterior sandsynlighedstæthed for . Sådan lineær estimator afhænger kun af de to første øjeblikke af og . Så selvom det kan være bekvemt at antage det og i fællesskab er gaussisk, er det ikke nødvendigt at gøre denne antagelse, så længe den formodede fordeling har veldefinerede første og andet øjeblik. Formen af ​​den lineære estimator afhænger ikke af typen af ​​den formodede underliggende fordeling.

Udtrykket for optimal og er givet af:

hvor , den er kryds-kovariansmatrix mellem og , den er auto-kovariansmatrix af .

Således er udtrykket for lineær MMSE-estimator, dets middelværdi og dets auto-kovarians givet ved

hvor den er kryds-kovariansmatrix mellem og .

Endelig er fejlkovariansen og den mindste gennemsnitlige kvadratfejl, der opnås af en sådan estimator

Afledning ved hjælp af ortogonalitetsprincippet

Lad os få den optimale lineære MMSE -estimator givet som , hvor vi skal finde udtrykket for og . Det kræves, at MMSE -estimatoren er upartisk. Det betyder,

Ved at tilslutte udtrykket til ovenstående får vi

hvor og . Således kan vi omskrive estimatoren som

og udtrykket for estimeringsfejl bliver

Fra ortogonalitetsprincippet kan vi have , hvor vi tager . Her er udtrykket i venstre side

Når der sidestilles med nul, får vi det ønskede udtryk for as

Det er kryds-kovariansmatrix mellem X og Y, og er auto-kovariansmatrix for Y. Siden kan udtrykket også omskrives i form af som

Således er det fulde udtryk for den lineære MMSE -estimator

Da estimatet i sig selv er en tilfældig variabel med , kan vi også opnå dets auto-kovarians som

At sætte udtrykket for og , vi får

Endelig vil covariansen af ​​lineær MMSE -estimeringsfejl derefter blive givet af

Det første udtryk i den tredje linje er nul på grund af ortogonalitetsprincippet. Siden kan vi omskrive med hensyn til kovariansmatricer som

Dette kan vi erkende at være det samme som Således er den mindste middelværdi for kvadratfejl, der kan opnås med en sådan lineær estimator

.

Univariat tilfælde

For det særlige tilfælde, når begge og er skalarer, forenkler ovenstående forhold til

hvor er Pearsons korrelationskoefficient mellem og .

Beregning

Standardmetode som Gauss -eliminering kan bruges til at løse matrixligningen for . En mere numerisk stabil metode tilvejebringes ved hjælp af QR -dekomponeringsmetode . Da matrixen er en symmetrisk positiv bestemt matrix, kan den løses dobbelt så hurtigt med Cholesky -nedbrydningen , mens konjugatgradientmetoden for store sparsomme systemer er mere effektiv. Levinson -rekursion er en hurtig metode, når den også er en Toeplitz -matrix . Dette kan ske, når der er en vid forstand stationær proces. I sådanne stationære tilfælde omtales disse estimatorer også som Wiener – Kolmogorov filtre .

Lineær MMSE -estimator til lineær observationsproces

Lad os yderligere modellere den underliggende observationsproces som en lineær proces:, hvor er en kendt matrix og er tilfældig støjvektor med middelværdien og kryds-kovarians . Her vil det nødvendige middelværdi og kovariansmatricerne være

Således ændres udtrykket for den lineære MMSE -estimatormatrix yderligere til

At sætte alt i udtrykket for , vi får

Endelig er fejlkovariansen

Den signifikante forskel mellem det estimeringsproblem, der er behandlet ovenfor, og dem med mindst kvadrater og Gauss – Markov estimat er, at antallet af observationer m , (dvs. dimensionen af ) ikke behøver at være mindst lige så stort som antallet af ukendte, n , (dvs. dimensionen af ). Estimatet for den lineære observationsproces eksisterer, så længe m -by- m matrixen eksisterer; dette er tilfældet for enhver m, hvis for eksempel er positiv bestemt. Fysisk er årsagen til denne egenskab, at da den nu er en tilfældig variabel, er det muligt at danne et meningsfuldt skøn (nemlig middelværdien) selv uden målinger. Hver ny måling giver simpelthen yderligere oplysninger, som kan ændre vores oprindelige estimat. Et andet træk ved dette estimat er, at der for m < n ikke behøver være nogen målefejl. Således kan vi have det , for så længe det er positivt bestemt, eksisterer estimatet stadig. Endelig kan denne teknik håndtere tilfælde, hvor støjen er korreleret.

Alternativ form

En alternativ udtryksform kan opnås ved hjælp af matrixidentiteten

som kan etableres ved at efter-multiplicere med og for-multiplicere med at opnå

og

Da nu kan skrives i form af as , får vi et forenklet udtryk for as

I denne form kan ovenstående udtryk let sammenlignes med det vejede mindst kvadratiske og Gauss -Markov estimat . Især når resultatet , svarende til uendelig variation af apriori -informationen , er identisk med det vejede lineære mindst kvadratiske estimat med vægtmatrixen. Desuden, hvis komponenterne i er ukorrelerede og har samme varians, således at hvor er en identitetsmatrix, så er identisk med det almindelige mindst kvadratiske skøn.

Sekventiel lineær MMSE -vurdering

I mange applikationer i realtid er observationsdata ikke tilgængelige i en enkelt batch. I stedet foretages observationerne i en rækkefølge. En naiv anvendelse af tidligere formler ville få os til at kassere et gammelt estimat og genberegne et nyt estimat, efterhånden som friske data stilles til rådighed. Men så mister vi alle oplysninger fra den gamle observation. Når observationerne er skalære størrelser, er en mulig måde at undgå en sådan genberegning først at sammenkæde hele observationssekvensen og derefter anvende standardestimeringsformlen som udført i eksempel 2. Men dette kan være meget kedeligt, fordi som antallet af observationer stiger, så vokser størrelsen på de matricer, der skal vendes og multipliceres. Denne metode er også vanskelig at udvide til at omfatte vektorobservationer. En anden tilgang til estimering fra sekventielle observationer er simpelthen at opdatere et gammelt estimat, efterhånden som yderligere data bliver tilgængelige, hvilket fører til finere estimater. Således ønskes en rekursiv metode, hvor de nye målinger kan ændre de gamle estimater. Implicit i disse diskussioner er antagelsen om, at de statistiske egenskaber for ikke ændrer sig med tiden. Med andre ord, er stationær.

For sekventiel estimering, hvis vi har et estimat baseret på målinger, der genererer plads , så efter at have modtaget et andet sæt målinger, bør vi fra disse målinger trække den del, der kunne forventes ud fra resultatet af de første målinger, fra. Med andre ord skal opdateringen være baseret på den del af de nye data, der er ortogonal i forhold til de gamle data.

Antag, at der er dannet et optimalt estimat på grundlag af tidligere målinger, og at fejlkovariansmatricen er . For lineære observation behandler det bedste skøn over baseret på tidligere observationer, og dermed gammel skøn , er . Ved at trække fra får vi forudsigelsesfejlen

.

Det nye skøn baseret på yderligere data er nu

hvor er krydskovariansen mellem og og er den auto-kovarians af

Ved hjælp af det faktum, at og , kan vi få kovariansmatricerne med hensyn til fejlkovarians som

Når vi sætter alt sammen, har vi det nye skøn som

og den nye fejlkovarians som

Den gentagne brug af de ovennævnte to ligninger, efterhånden som flere observationer bliver tilgængelige, fører til rekursive estimeringsteknikker. Udtrykkene kan skrives mere kompakt som

Matricen omtales ofte som forstærkningsfaktoren. Gentagelsen af ​​disse tre trin, efterhånden som flere data bliver tilgængelige, fører til en iterativ estimeringsalgoritme. Generaliseringen af ​​denne idé til ikke-stationære sager giver anledning til Kalman-filteret . De tre opdateringstrin, der er skitseret ovenfor, udgør faktisk opdateringstrinnet for Kalman -filteret.

Særligt tilfælde: skalære observationer

Som et vigtigt specialtilfælde, kan en nem at bruge rekursive udtryk afledes, når i hvert t den underliggende lineær observationsprocessen th tidsmoment giver en skalar, således at , hvor er n rumfang- 1 kendt søjlevektor hvis værdier kan ændre sig med tiden , er n -by -1 tilfældig kolonnevektor, der skal estimeres, og er skalarstøjsbetegnelse med varians . Efter ( t +1) -te observation giver den direkte brug af ovenstående rekursive ligninger udtrykket for estimatet som:

hvor er den nye skalære observation, og forstærkningsfaktoren er n -by -1 kolonnevektor givet af

Den er n -by- n fejlkovariansmatrix givet af

Her kræves ingen matrixinversion. Forstærkningsfaktoren afhænger også af vores tillid til den nye dataprøve målt ved støjvariansen i forhold til tidligere data. De indledende værdier af og anses for at være middelværdien og kovariansen af ​​den forreste sandsynlighedstæthedsfunktion af .

Alternative tilgange: Denne vigtige specialtilfælde har også givet anledning til mange andre iterative metoder (eller adaptive filtre ), såsom den mindste middelværdi firkanter filter og rekursiv mindste kvadraters filter , der direkte løser det oprindelige MSE optimeringsproblem anvendelse stokastiske gradient nedkørsler . Men da estimeringsfejlen ikke kan observeres direkte, forsøger disse metoder at minimere den gennemsnitlige kvadrerede forudsigelsesfejl . For eksempel i tilfælde af skalære observationer har vi gradienten Således er opdateringsligningen for det mindst gennemsnitlige kvadratfilter givet ved

hvor er skalarstegstørrelsen, og forventningen tilnærmes af den øjeblikkelige værdi . Som vi kan se, omgår disse metoder behovet for kovariansmatricer.

Eksempler

Eksempel 1

Vi tager et lineært forudsigelsesproblem som eksempel. Lad en lineær kombination af observerede skalare tilfældige variabler og bruges til at estimere en anden fremtidig skalær tilfældig variabel, således at . Hvis de tilfældige variabler er virkelige gaussiske tilfældige variabler med nul middelværdi og dens kovariansmatrix givet af

så er vores opgave at finde koefficienterne sådan, at det vil give et optimalt lineært estimat .

Med hensyn til den terminologi, der er udviklet i de foregående afsnit, har vi til dette problem observationsvektoren , estimatormatrixen som en rækkevektor og den estimerede variabel som en skalær mængde. Autokorrelationsmatrixen er defineret som

Tværkorrelationsmatricen er defineret som

Vi løser nu ligningen ved at vende og for-multiplicere for at få

Så vi har og som de optimale koefficienter for . Beregning af den mindste gennemsnitlige kvadratfejl giver derefter . Bemærk, at det ikke er nødvendigt at opnå en eksplicit matrix omvendt for at beregne værdien af . Matrixligningen kan løses ved velkendte metoder, såsom Gauss -elimineringsmetode. Et kortere, ikke-numerisk eksempel findes i ortogonalitetsprincippet .

Eksempel 2

Overvej en vektor dannet ved at tage observationer af en fast, men ukendt skalarparameter forstyrret af hvid gaussisk støj. Vi kan beskrive processen ved en lineær ligning , hvor . Afhængig af kontekst vil det være klart, om den repræsenterer en skalar eller en vektor. Antag, at vi ved, at det er det område, inden for hvilken værdien af kommer til at falde i. Vi kan modellere vores usikkerhed om ved en forudgående ensartet fordeling over et interval , og dermed vil have variation af . Lad støjvektoren blive normalfordelt som hvor er en identitetsmatrix. Også og er uafhængige og . Det er let at se det

Således er den lineære MMSE -estimator givet af

Vi kan forenkle udtrykket ved at bruge den alternative form til as

hvor har vi

På samme måde er estimatorens varians

Således er MMSE for denne lineære estimator

For meget store ser vi, at MMSE -estimatoren for en skalar med ensartet forudgående fordeling kan tilnærmes med det aritmetiske gennemsnit af alle de observerede data

mens variansen vil være upåvirket af data, og LMMSE for estimatet vil have en tendens til nul.

Estimatoren er imidlertid suboptimal, da den er begrænset til at være lineær. Havde den tilfældige variabel også været Gaussisk, så ville estimatoren have været optimal. Bemærk, at estimatorens form vil forblive uændret, uanset apriori -fordelingen af , så længe middelværdien og variansen for disse fordelinger er den samme.

Eksempel 3

Overvej en variation af ovenstående eksempel: To kandidater stiller op til et valg. Lad den brøkdel af stemmer, som en kandidat vil modtage på en valgdag være Således vil brøkdelen af ​​stemmer, den anden kandidat vil modtage være Vi tager som en tilfældig variabel med en ensartet forudgående fordeling over, så dets middelværdi er og varians er et par stykker uger før valget blev der foretaget to uafhængige meningsmålinger af to forskellige meningsmålinger. Den første meningsmåling afslørede, at kandidaten sandsynligvis vil få en brøkdel af stemmerne. Da der altid er en eller anden fejl på grund af endelig prøveudtagning og den særlige metode til afstemning, den første pollster erklærer, at deres skøn har en fejl med nul middelværdi og varians På samme måde erklærer den anden pollster sit skøn for at være med en fejl med nul middelværdi og varians Bemærk, at bortset fra middelværdien og variansen af ​​fejlen er fejlfordelingen uspecificeret. Hvordan skal de to meningsmålinger kombineres for at opnå stemmeforeningen for den givne kandidat?

Som med tidligere eksempel har vi

Her er både . Således kan vi opnå LMMSE -estimatet som den lineære kombination af og som

hvor vægtene er givet af

Her, da nævneren sigt er konstant, tillægges meningsmåling med lavere fejl højere vægt for at forudsige valgresultatet. Endelig er variansen af ​​forudsigelsen givet ved

hvilket gør mindre end

Generelt, hvis vi har pollsters, hvor vægten for i -pollster er givet ved

Eksempel 4

Antag, at en musiker spiller et instrument, og at lyden modtages af to mikrofoner, som hver især er placeret to forskellige steder. Lad dæmpning af lyd på grund af afstand ved hver mikrofon være og , som formodes at være kendte konstanter. Lad på samme måde støj ved hver mikrofon være og , hver med nul middelværdi og afvigelser og hhv. Lad betegne lyden produceret af musikeren, som er en tilfældig variabel med nul middelværdi og varians Hvordan skal den indspillede musik fra disse to mikrofoner kombineres, efter at de er blevet synkroniseret med hinanden?

Vi kan modellere lyden modtaget af hver mikrofon som

Her er både . Således kan vi kombinere de to lyde som

hvor i -vægten er angivet som

Se også

Noter

  1. ^ "Mean Squared Error (MSE)" . www.probabilitycourse.com . Hentet 9. maj 2017 .
  2. ^ Månen og Stirling.

Yderligere læsning