Hamilton – Jacobi – Bellman ligning - Hamilton–Jacobi–Bellman equation

I optimal kontrol teori , den Hamilton-Jacobi-Bellman ( HJB ) ligning giver en nødvendig og tilstrækkelig betingelse for optimalitet af en kontrol med hensyn til et tab funktion . Det er generelt en ikke -lineær partiel differentialligning i værdifunktionen , hvilket betyder, at dens løsning er selve værdifunktionen. Når denne løsning er kendt, kan den bruges til at opnå den optimale kontrol ved at tage maximizer (eller minimizer) af den Hamiltonian, der er involveret i HJB -ligningen.

Ligningen er et resultat af teorien om dynamisk programmering, som blev banebrydende i 1950'erne af Richard Bellman og kolleger. Forbindelsen til Hamilton – Jacobi -ligningen fra klassisk fysik blev først tegnet af Rudolf Kálmán . I problemer med diskret tid betegnes den tilsvarende forskelsligning normalt som Bellman-ligningen .

Selvom klassiske variationsproblemer , såsom brachistochron -problemet , kan løses ved hjælp af Hamilton – Jacobi – Bellman -ligningen , kan metoden anvendes på et bredere spektrum af problemer. Yderligere kan det generaliseres til stokastiske systemer, i hvilket tilfælde HJB-ligningen er en andenordens elliptisk partiel differentialligning . En stor ulempe er imidlertid, at HJB -ligningen kun tillader klassiske løsninger for en tilstrækkelig jævn værdifunktion, hvilket ikke er garanteret i de fleste situationer. I stedet kræves forestillingen om en viskositetsløsning , hvor konventionelle derivater erstattes af (værdiansatte) underderivater .

Optimale kontrolproblemer

Overvej følgende problem i deterministisk optimal kontrol over tidsperioden : ${\ displaystyle [0, T]}$

{\ displaystyle V_ {T} (x (0), 0) = \ min _ {u} \ left \ {\ int _ {0}^{T} C [x (t), u (t)] \, dt+D [x (T)] \ højre \}}

hvor er skalarfunktionsfrekvensfunktionen og er en funktion, der giver legatværdien ved den endelige tilstand, er systemtilstandsvektoren, antages givet, og for er den kontrolvektor, vi forsøger at finde. ${\ displaystyle C [\ cdot]}$ ${\ displaystyle D [\ cdot]}$ ${\ displaystyle x (t)}$ ${\ displaystyle x (0)}$ ${\ displaystyle u (t)}$ ${\ displaystyle 0 \ leq t \ leq T}$

Systemet skal også være underlagt

{\ displaystyle {\ dot {x}} (t) = F [x (t), u (t)] \,}

hvor giver vektoren bestemmende fysisk udvikling af tilstandsvektoren over tid. ${\ displaystyle F [\ cdot]}$

Den delvise differentialligning

For dette enkle system (udlejning ) er Hamilton – Jacobi – Bellman delvis differentialligning ${\ displaystyle V = V_ {T}}$

{\ displaystyle {\ frac {\ delvis V (x, t)} {\ delvis t}}+\ min _ {u} \ venstre \ {{\ frac {\ delvis V (x, t)} {\ delvis x }} \ cdot F (x, u)+C (x, u) \ højre \} = 0}

underlagt terminalbetingelsen

{\ displaystyle V (x, T) = D (x), \,}

Det ukendte skalar i ovenstående partielle differentialligning er Bellman værdi funktion , som svarende til de omkostninger starte i tilstand på tidspunktet og styring af systemet optimalt fra da indtil tid . ${\ displaystyle V (x, t)}$ ${\ displaystyle x}$ ${\ displaystyle t}$ ${\ displaystyle T}$

Afledning af ligningen

Intuitivt kan HJB -ligningen udledes som følger. Hvis er den optimale cost-to-go-funktion (også kaldet 'værdifunktionen'), så har vi ved Richard Bellmans princip om optimalitet , der går fra tid t til t + dt , ${\ displaystyle V (x (t), t)}$

{\ displaystyle V (x (t), t) = \ min _ {u} \ left \ {V (x (t+dt), t+dt)+\ int _ {t}^{t+dt} C (x (s), u (s)) \, ds \ right \}.}

Bemærk, at Taylor-udvidelsen af det første udtryk på højre side er

{\ displaystyle V (x (t+dt), t+dt) = V (x (t), t)+{\ frac {\ delvis V (x, t)} {\ delvis t}} \, dt+{ \ frac {\ delvis V (x, t)} {\ delvis x}} \ cdot {\ punkt {x}} (t) \, dt+{\ mathcal {o}} (dt),}

hvor betegner udtrykkene i Taylorudviklingen af højere orden end én i lidet o notation . Så hvis vi trækker fra begge sider, dividerer med dt og tager grænsen, når dt nærmer sig nul, får vi HJB -ligningen defineret ovenfor. ${\ displaystyle {\ mathcal {o}} (dt)}$ ${\ displaystyle V (x (t), t)}$

Løsning af ligningen

HJB -ligningen løses normalt baglæns i tid , startende fra og slutter kl . ${\ displaystyle t = T}$ ${\ displaystyle t = 0}$

Når den løses over hele statsrummet og er kontinuerligt differentierbar, er HJB -ligningen en nødvendig og tilstrækkelig betingelse for et optimalt, når terminaltilstanden er ubegrænset. Hvis vi kan løse for så kan vi finde ud af det en kontrol, der opnår minimumsomkostningerne. ${\ displaystyle V (x)}$ ${\ displaystyle V}$ ${\ displaystyle u}$

I almindelighed har HJB -ligningen ikke en klassisk (glat) løsning. Flere forestillinger om generaliserede løsninger er blevet udviklet til at dække sådanne situationer, herunder viskositetsløsning ( Pierre-Louis Lions og Michael Crandall ), minimax-løsning ( Andrei Izmailovich Subbotin [ ru ] ) og andre.

Omtrentlig dynamisk programmering er blevet introduceret af DP Bertsekas og JN Tsitsiklis med brug af kunstige neurale netværk ( flerlags perceptroner ) til tilnærmelse af Bellman -funktionen generelt. Dette er en effektiv afbødningsstrategi til at reducere virkningen af dimensionalitet ved at erstatte memoriseringen af den komplette funktionskortlægning for hele rumdomænet med memorisering af de eneste neurale netværksparametre. Især for systemer med kontinuerlig tid blev der indført en omtrentlig dynamisk programmeringsmetode, der kombinerer begge politiske iterationer med neurale netværk. I diskret tid blev der indført en metode til at løse HJB-ligningen, der kombinerer værdi-iterationer og neurale netværk.

Alternativt er det blevet vist, at sum-of-squares-optimering kan give en omtrentlig polynomisk løsning til Hamilton-Jacobi-Bellman-ligningen vilkårligt godt i forhold til normen. ${\ displaystyle L^{1}}$

Udvidelse til stokastiske problemer

Ideen om at løse et kontrolproblem ved at anvende Bellmans princip om optimalitet og derefter træne baglæns i takt med en optimeringsstrategi kan generaliseres til stokastiske kontrolproblemer. Overvej lignende som ovenfor

{\ displaystyle \ min _ {u} \ mathbb {E} \ left \ {\ int _ {0}^{T} C (t, X_ {t}, u_ {t}) \, dt+D (X_ { T}) \ right \}}

nu med den stokastiske proces til optimering og styringen. Ved først at bruge Bellman og derefter udvide med Itôs regel finder man den stokastiske HJB -ligning ${\ displaystyle (X_ {t}) _ {t \ i [0, T]} \, \!}$ ${\ displaystyle (u_ {t}) _ {t \ i [0, T]} \, \!}$ ${\ displaystyle V (X_ {t}, t)}$

{\ displaystyle \ min _ {u} \ left \ {{\ mathcal {A}} V (x, t)+C (t, x, u) \ right \} = 0,}

hvor repræsenterer den stokastiske differentieringsoperator og underlagt terminalbetingelsen ${\ displaystyle {\ mathcal {A}}}$

{\ displaystyle V (x, T) = D (x) \, \ !.}

Bemærk, at tilfældigheden er forsvundet. I dette tilfælde løser en løsning af sidstnævnte ikke nødvendigvis det primære problem, det er kun en kandidat, og et yderligere verificeringsargument er påkrævet. Denne teknik bruges meget i finansiel matematik til at bestemme optimale investeringsstrategier på markedet (se f.eks. Mertons porteføljeproblem ). ${\ displaystyle V \, \!}$

Ansøgning til LQG Control

Som et eksempel kan vi se på et system med lineær stokastisk dynamik og kvadratisk pris. Hvis systemdynamikken er givet af

{\ displaystyle dx_ {t} = (ax_ {t}+bu_ {t}) dt+\ sigma dw_ {t},}

og omkostningerne akkumuleres i takt , HJB -ligningen er givet ved ${\ displaystyle C (x_ {t}, u_ {t}) = r (t) u_ {t}^{2}/2+q (t) x_ {t}^{2}/2}$

{\ displaystyle -{\ frac {\ delvis V (x, t)} {\ partiel t}} = {\ frac {1} {2}} q (t) x^{2}+{\ frac {\ delvis V (x, t)} {\ delvis x}} ax-{\ frac {b^{2}} {2r (t)}} \ venstre ({\ frac {\ delvis V (x, t)} {\ delvis x}} \ højre) ^{2}+{\ frac {\ sigma ^{2}} {2}} {\ frac {\ delvis ^{2} V (x, t)} {\ delvis x ^{ 2}}}.}

med optimal handling givet af

{\ displaystyle u_ {t} =-{\ frac {b} {r (t)}} {\ frac {\ delvis V (x, t)} {\ delvis x}}}

Forudsat en kvadratisk form for værdifunktionen , får vi den sædvanlige Riccati-ligning for Hessian af værdifunktionen, som det er sædvanligt for lineær-kvadratisk-gaussisk kontrol .

Se også

Bellman-ligning , diskret-tidens modstykke til Hamilton-Jacobi-Bellman-ligningen.
Pontryagins maksimumsprincip , nødvendig, men ikke tilstrækkelig betingelse for optimalt, ved at maksimere en Hamiltonian , men dette har den fordel i forhold til HJB, at det kun er nødvendigt at være tilfreds med den eneste bane, der overvejes.

Referencer

Yderligere læsning

Bertsekas, Dimitri P. (2005). Dynamisk programmering og optimal kontrol . Athena Scientific.
Pham, Huyên (2009). "Den klassiske PDE -tilgang til dynamisk programmering" . Kontinuerlig tidstokastisk kontrol og optimering med finansielle applikationer . Springer. s. 37–60. ISBN 978-3-540-89499-5.
Stengel, Robert F. (1994). "Betingelser for optimalitet" . Optimal kontrol og estimering . New York: Dover. s. 201–222. ISBN 0-486-68200-5.

Languages

In other projects