Data assimilering - Data assimilation

Dataassimilation er en matematisk disciplin, der søger at kombinere teori optimalt (normalt i form af en numerisk model) med observationer. Der kan f.eks. Søges efter en række forskellige mål - for at bestemme det optimale tilstandsestimat for et system, for at bestemme indledende betingelser for en numerisk prognosemodel, for at interpolere sparsomme observationsdata ved hjælp af (f.eks. Fysisk) viden om det system, der observeres, at træne numeriske modelparametre baseret på observerede data. Afhængigt af målet kan der bruges forskellige løsningsmetoder. Dataassimilation adskiller sig fra andre former for maskinlæring, billedanalyse og statistiske metoder ved, at den anvender en dynamisk model af det system, der analyseres.

Data assimilation udviklede oprindeligt inden for numerisk vejrforudsigelse . Numeriske vejrforudsigelsesmodeller er ligninger, der beskriver atmosfærens dynamiske adfærd, typisk kodet til et computerprogram. For at bruge disse modeller til at lave prognoser, er der behov for indledende betingelser for modellen, der ligner atmosfærens nuværende tilstand. Blot at indsætte punktvise målinger i de numeriske modeller gav ikke en tilfredsstillende løsning. Virkelige målinger indeholder fejl både på grund af instrumentets kvalitet og hvor præcist målingens position er kendt. Disse fejl kan forårsage ustabilitet i modellerne, der eliminerer ethvert niveau af dygtighed i en prognose. Således var der brug for mere sofistikerede metoder for at initialisere en model ved hjælp af alle tilgængelige data og samtidig sørge for at opretholde stabiliteten i den numeriske model. Sådanne data inkluderer typisk målingerne samt en tidligere prognose, der er gyldig på samme tid, som målingerne foretages. Hvis den anvendes iterativt, begynder denne proces at akkumulere oplysninger fra tidligere observationer i alle efterfølgende prognoser.

Fordi dataassimilation udviklede sig inden for feltet numerisk vejrudsigt, blev den oprindeligt populær blandt geovidenskaberne. Faktisk er en af ​​de mest citerede publikationer inden for alle geovidenskaberne en anvendelse af dataassimilering for at rekonstruere atmosfærens observerede historie.

Detaljer om dataassimilationsprocessen

Klassisk er dataassimilation blevet anvendt på kaotiske dynamiske systemer, der er for vanskelige at forudsige ved hjælp af enkle ekstrapolationsmetoder. Årsagen til denne vanskelighed er, at små ændringer i indledende forhold kan føre til store ændringer i forudsigelsesnøjagtigheden. Dette er undertiden kendt som sommerfugleeffekten - den følsomme afhængighed af indledende forhold , hvor en lille ændring i en tilstand af et deterministisk ikke -lineært system kan resultere i store forskelle i en senere tilstand.

På ethvert opdateringstidspunkt tager dataassimilation normalt en prognose (også kendt som det første gæt eller baggrundsinformation ) og anvender en korrektion til prognosen baseret på et sæt observerede data og estimerede fejl, der er til stede i både observationer og prognosen sig selv. Forskellen mellem prognosen og observationerne på det tidspunkt kaldes afgang eller innovationen (da den giver ny information til dataassimilationsprocessen). En vægtningsfaktor anvendes på innovationen for at bestemme, hvor meget en korrektion der skal foretages til prognosen baseret på de nye oplysninger fra observationerne. Det bedste estimat af systemets tilstand baseret på korrektionen til prognosen bestemt af en vægtningsfaktor gange innovationen kaldes analysen . I en dimension kunne beregning af analysen være lige så simpel som at danne et vejet gennemsnit af en forudsagt og observeret værdi. I flere dimensioner bliver problemet vanskeligere. Meget af arbejdet med dataassimilering er fokuseret på tilstrækkelig estimering af den passende vægtningsfaktor baseret på indviklet viden om fejlene i systemet.

Målingerne foretages normalt af et system i virkeligheden frem for modellens ufuldstændige repræsentation af dette system, og derfor er en særlig funktion kaldet observationsoperatoren (normalt afbildet af h () for en ikke-lineær operator eller H for dens linearisering) nødvendig for at kortlægge den modellerede variabel til en form, der direkte kan sammenlignes med observationen.

Data assimilering som statistisk estimering

Et af de almindelige matematiske filosofiske perspektiver er at se dataassimilering som et bayesisk estimeringsproblem. Fra dette perspektiv er analysetrinnet en anvendelse af Bayes 'sætning, og den overordnede assimileringsprocedure er et eksempel på rekursiv bayesisk estimering . Den sandsynlighedsanalyse er imidlertid normalt forenklet til en beregningsmæssigt gennemførlig form. At fremme sandsynlighedsfordelingen i tid ville blive udført nøjagtigt i det generelle tilfælde ved hjælp af Fokker-Planck-ligningen , men det er ikke muligt for højdimensionelle systemer, så der bruges i stedet forskellige tilnærminger, der fungerer på forenklede repræsentationer af sandsynlighedsfordelingerne. Ofte antages sandsynlighedsfordelingerne Gaussisk, så de kan repræsenteres ved deres middelværdi og kovarians, hvilket giver anledning til Kalman -filteret .

Mange metoder repræsenterer sandsynlighedsfordelingerne kun ved middelværdien og indtaster en forudberegnet kovarians. Et eksempel på en direkte (eller sekventiel ) metode til at beregne dette kaldes optimal statistisk interpolation eller simpelthen optimal interpolation ( OI ). En alternativ tilgang er iterativt at løse en omkostningsfunktion, der løser et identisk problem. Disse kaldes variationsmetoder , såsom 3D-Var og 4D-Var. Typiske minimeringsalgoritmer er metoden Conjugate gradient eller Generalized minimal residual method . The Ensemble Kalman filter er sekventiel fremgangsmåde, der anvender en Monte Carlo til at estimere både middelværdien og kovariansen af en Gauss sandsynlighedsfordeling af et ensemble af simuleringer. For nylig er hybridkombinationer af ensembletilgange og variationsmetoder blevet mere populære (f.eks. Bruges de til driftsprognoser både i European Center for Medium-Range Weather Forecasts (ECMWF) og på NOAA National Centers for Environmental Prediction (NCEP)) .

Vejrudsigtsprogrammer

I numeriske vejrforudsigelsesapplikationer er dataassimilering mest kendt som en metode til at kombinere observationer af meteorologiske variabler som temperatur og atmosfæretryk med tidligere prognoser for at initialisere numeriske prognosemodeller.

Hvorfor er det nødvendigt

Den Atmosfæren er en væske . Ideen med numerisk vejrforudsigelse er at prøve væskens tilstand på et givet tidspunkt og bruge ligningerne for væskedynamik og termodynamik til at estimere væskens tilstand på et eller andet tidspunkt i fremtiden. Processen med at indtaste observationsdata i modellen for at generere indledende betingelser kaldes initialisering . På land bruges terrænkort, der er tilgængelige i opløsninger ned til 1 kilometer globalt, til at hjælpe med at modellere atmosfæriske cirkulationer inden for områder med robust topografi for bedre at kunne skildre funktioner som nedadgående vind, bjergbølger og relateret uklarhed, der påvirker indgående sol stråling. De vigtigste input fra landbaserede vejrtjenester er observationer fra enheder (kaldet radiosondes ) i vejrballoner, der måler forskellige atmosfæriske parametre og sender dem til en fast modtager samt fra vejrsatellitter . Den Meteorologiske Verdensorganisation virker til at standardisere instrumentering, observere praksis og timingen af disse observationer verden over. Stationer rapporterer enten hver time i METAR -rapporter eller hver sjette time i SYNOP -rapporter. Disse observationer er uregelmæssigt fordelt, så de behandles ved dataassimilering og objektive analysemetoder, som udfører kvalitetskontrol og opnår værdier på steder, der kan bruges af modellens matematiske algoritmer. Nogle globale modeller anvender begrænsede forskelle , hvor verden er repræsenteret som diskrete punkter på et jævnligt mellemrum af bredde- og længdegrad; andre modeller bruger spektrale metoder, der løser for en række bølgelængder. Dataene bruges derefter i modellen som udgangspunkt for en prognose.

En række metoder bruges til at indsamle observationsdata til brug i numeriske modeller. Websteder lancerer radiosondes i vejrballoner, der stiger gennem troposfæren og langt ind i stratosfæren . Information fra vejrsatellitter bruges, hvor traditionelle datakilder ikke er tilgængelige. Handel leverer pilotrapporter langs flyruter og skibsrapporter langs forsendelsesruter. Forskningsprojekter bruger rekognoseringsfly til at flyve i og omkring vejrsystemer af interesse, såsom tropiske cykloner . Rekognoseringsfly flyves også over de åbne oceaner i den kolde årstid ind i systemer, der forårsager betydelig usikkerhed i vejledningen eller forventes at have stor indflydelse fra tre til syv dage i fremtiden over det nedstrøms kontinent. Havis begyndte at blive initialiseret i prognosemodeller i 1971. Bestræbelser på at inddrage havoverfladetemperatur i modelinitialisering begyndte i 1972 på grund af dets rolle i at modulere vejret på højere breddegrader i Stillehavet.

Historie

Lewis Fry Richardson

I 1922 offentliggjorde Lewis Fry Richardson det første forsøg på at forudsige vejret numerisk. Ved hjælp af en hydrostatisk variation af Bjerknes primitive ligninger fremstillede Richardson i hånden en 6-timers prognose for atmosfærens tilstand over to punkter i Centraleuropa, hvilket tog mindst seks uger at gøre det. Hans prognose beregnede, at ændringen i overfladetryk ville være 145 millibar (4,3  inHg ), en urealistisk værdi, der var forkert af to størrelsesordener. Den store fejl blev forårsaget af en ubalance i tryk- og vindhastighedsfelterne, der blev brugt som de indledende betingelser i hans analyse, hvilket indikerer behovet for et datassimilationsskema.

Oprindeligt var der blevet brugt "subjektiv analyse", hvor NWP -prognoser var blevet justeret af meteorologer ved hjælp af deres operationelle ekspertise. Derefter blev "objektiv analyse" (f.eks. Cressman -algoritme) introduceret til automatiseret dataassimilering. Disse objektive metoder anvendte simple interpolationsmetoder, og det var således 3DDA (tredimensionelle dataassimilering) metoder.

Senere blev 4DDA (fire-dimensionelle data assimilering) metoder, kaldet "nudging", udviklet, såsom i MM5 modellen. De er baseret på den enkle ide om newtonsk afslapning (2. aksionspunkt for Newton). De introducerer i den højre del af dynamiske ligninger af modellen et udtryk, der er proportional med forskellen mellem den beregnede meteorologiske variabel og den observerede værdi. Dette udtryk, der har et negativt tegn, holder den beregnede tilstandsvektor tættere på observationerne. Nudging kan tolkes som en variant af Kalman-Bucy-filteret (en kontinuerlig tidsversion af Kalman-filteret ) med forstærkningsmatrixen foreskrevet frem for at fås fra kovarianser.

En større udvikling blev opnået af L. Gandin (1963), der introducerede metoden "statistisk interpolation" (eller "optimal interpolation"), som udviklede tidligere ideer om Kolmogorov. Dette er en 3DDA -metode og er en type regressionsanalyse, der udnytter information om de rumlige fordelinger af kovariansfunktioner af fejlene i "første gæt" -feltet (tidligere prognose) og "sandt felt". Disse funktioner kendes aldrig. Imidlertid blev de forskellige tilnærmelser antaget.

Den optimale interpoleringsalgoritme er den reducerede version af Kalman filtrering (KF) algoritmen, og hvor kovariansmatricerne ikke beregnes ud fra de dynamiske ligninger, men er forudbestemt på forhånd.

Forsøg på at introducere KF -algoritmerne som et 4DDA -værktøj til NWP -modeller kom senere. Dette var (og er) imidlertid en vanskelig opgave, fordi den fulde version kræver løsning af det enorme antal yderligere ligninger (~ N*N ~ 10 ** 12, hvor N = Nx*Ny*Nz er størrelsen på tilstandsvektoren , Nx ~ 100, Ny ~ 100, Nz ~ 100 - beregningsnettets dimensioner). For at overvinde denne vanskelighed blev der udviklet omtrentlige eller suboptimale Kalman -filtre. Disse inkluderer Ensemble Kalman-filteret og Kalman-filtre med reduceret rang (RRSQRT).

Et andet betydeligt fremskridt i udviklingen af ​​4DDA-metoderne var at udnytte den optimale kontrolteori (variationstilgang) i værkerne fra Le Dimet og Talagrand (1986), baseret på de tidligere værker af J.-L. Lions og G. Marchuk, sidstnævnte var de første til at anvende denne teori i miljømodelleringen. Den væsentlige fordel ved de variationstilgange er, at de meteorologiske felter tilfredsstiller de dynamiske ligninger i NWP -modellen, og samtidig minimerer de det funktionelle og karakteriserer deres forskel fra observationer. Således er problemet med begrænset minimering løst. 3DDA -variationmetoderne blev udviklet for første gang af Sasaki (1958).

Som det blev vist af Lorenc (1986), er alle de ovennævnte 4DDA-metoder i nogle grænsekvivalenter, dvs. under nogle forudsætninger minimerer de den samme omkostningsfunktion . I praktiske applikationer opfyldes disse antagelser dog aldrig, de forskellige metoder fungerer forskelligt, og generelt er det ikke klart, hvilken tilgang (Kalman -filtrering eller variation) er bedre. De grundlæggende spørgsmål opstår også ved anvendelse af de avancerede DA -teknikker såsom konvergens af beregningsmetoden til det globale minimum af det funktionelle, der skal minimeres. For eksempel kan omkostningsfunktion eller det sæt, som løsningen søges i, ikke være konveks. Den 4DDA-metode, der i øjeblikket er mest succesfuld, er hybrid inkrementel 4D-Var, hvor et ensemble bruges til at forøge de klimatologiske baggrundsfejlkovarianter i begyndelsen af ​​datatilpasningstidsvinduet, men baggrundsfejlkovarianserne udvikles i tidsvinduet af en forenklet version af NWP -prognosemodellen. Denne dataassimilationsmetode bruges operationelt i prognosecentre som f.eks. Met Office .

Omkostningsfunktion

Processen med at oprette analysen i dataassimilation involverer ofte minimering af en omkostningsfunktion . En typisk omkostningsfunktion ville være summen af ​​de kvadrerede afvigelser af analyseværdierne fra observationer vægtet af observationsnøjagtigheden plus summen af ​​de kvadrerede afvigelser af prognosefelterne og de analyserede felter vægtet af prognosens nøjagtighed. Dette har den virkning, at det sikres, at analysen ikke driver for langt væk fra observationer og prognoser, der normalt vides at være pålidelige.

3D-Var

hvor betegner baggrundsfejlkovariansen, observationsfejlkovariansen.

4D-Var

forudsat at det er en lineær operator (matrix).

Fremtidig udvikling

Faktorer, der driver den hurtige udvikling af dataassimilationsmetoder til NWP -modeller, omfatter:

  • Udnyttelse af observationerne tilbyder i øjeblikket lovende forbedring af prognosefærdigheder på en række forskellige rumlige skalaer (fra global til meget lokal) og tidsskalaer.
  • Antallet af forskellige former for tilgængelige observationer ( sodarer , radarer , satellitter ) vokser hurtigt.

Andre applikationer

Overvågning af vand- og energioverførsler

General Data Assimilation diagram (Alpilles-ReSeDA)

Dataassimilering er blevet brugt i 1980'erne og 1990'erne i flere HAPEX -projekter (Hydrologic and Atmospheric Pilot Experiment) til overvågning af energioverførsler mellem jord, vegetation og atmosfære. For eksempel:

- HAPEX-MobilHy , HAPEX-Sahel,

-eksperimentet "Alpilles-ReSeDA" (Remote Sensing Data Assimilation), et europæisk projekt i FP4-ENV- programmet, der fandt sted i Alpilles- regionen, Sydøst-Frankrig (1996–97). Flow-diagram-diagrammet (til højre), udtrækket fra projektets slutrapport, viser, hvordan man udleder variabler af interesse, såsom baldakintilstand, strålingsstrømninger, miljøbudget, produktion i mængde og kvalitet, fra fjernsensningsdata og supplerende oplysninger. I dette diagram angiver de små blågrønne pile den direkte måde, modellerne rent faktisk kører på.

Andre applikationer til prognoser

Dataassimilationsmetoder bruges i øjeblikket også i andre miljøprognoseproblemer, f.eks. I hydrologisk prognose. Bayesianske netværk kan også bruges i en dataassimilationsmetode til at vurdere naturfarer, såsom jordskred.

I betragtning af overflod af rumfartøjsdata for andre planeter i solsystemet, anvendes dataassimilering nu også ud over Jorden for at opnå genanalyser af de udenjordiske planets atmosfæriske tilstand. Mars er den eneste udenjordiske planet, som dataassimilering hidtil er blevet anvendt på. Tilgængelige rumfartøjsdata omfatter især hentning af temperatur og støv/vandis optiske tykkelser fra det termiske emissionsspektrometer ombord på NASAs Mars Global Surveyor og Mars Climate Sounder ombord på NASAs Mars Reconnaissance Orbiter . To metoder til dataassimilering er blevet anvendt på disse datasæt: et analysekorrigeringsskema og to Ensemble Kalman Filter -skemaer, der begge anvender en global cirkulationsmodel af Mars -atmosfæren som fremadgående model. Mars Analysis Correction Data Assimilation (MACDA) datasættet er offentligt tilgængeligt fra British Atmospheric Data Center.

Data assimilering er en del af udfordringen for hvert prognoseproblem.

Håndtering af forudindtaget data er en alvorlig udfordring inden for dataassimilering. Yderligere udvikling af metoder til håndtering af bias vil være særlig nyttig. Hvis der er flere instrumenter, der observerer den samme variabel, kan det være lærerigt at sammenligne dem ved hjælp af sandsynlighedsfordelingsfunktioner .

De numeriske prognosemodeller bliver af højere opløsning på grund af stigningen af computerkraft , med operationelle atmosfæriske modeller kører nu med vandrette beslutninger af størrelsesordenen 1 km (fx ved det tyske nationale meteorologiske institut, den Deutscher Wetterdienst ( DWD ) og Met Office i England). Denne stigning i vandrette opløsninger begynder at give os mulighed for at løse mere kaotiske træk ved vores ikke-lineære modeller, f.eks. Løse konvektion på gitterskalaen, skyer, i de atmosfæriske modeller. Denne stigende ikke-linearitet i modellerne og observationsoperatørerne udgør et nyt problem i dataassimilering. De eksisterende dataassimilationsmetoder, såsom mange varianter af ensemble Kalman-filtre og variationmetoder, veletableret med lineære eller nær-lineære modeller, vurderes på ikke-lineære modeller, ligesom der udvikles mange nye metoder, f.eks. Partikelfiltre til høje -dimensionelle problemer, hybrider data assimilation metoder.

Andre anvendelser omfatter banestimering for Apollo -programmet , GPS og atmosfærisk kemi .

Se også

Referencer

Yderligere læsning

eksterne links

Eksempler på, hvordan variationsassimilation implementeres vejrudsigter ved:

Andre eksempler på assimilering: