Optimal kontrol - Optimal control

Optimal kontrolteori er en gren af matematisk optimering, der handler om at finde en kontrol til et dynamisk system over en periode, så en objektiv funktion optimeres. Det har mange applikationer inden for videnskab, teknik og driftsforskning. For eksempel kan det dynamiske system være et rumfartøj med kontroller, der svarer til raketpropeller, og målet kan være at nå månen med et minimalt brændstofforbrug. Eller det dynamiske system kan være en nations økonomi med det formål at minimere arbejdsløsheden ; kontrollen i dette tilfælde kan være finans- og pengepolitik . Et dynamisk system kan også indføres for at integrere operationsforskningsproblemer inden for rammerne af optimal kontrolteori.

Optimal kontrol er en udvidelse af beregningen af ​​variationer og er en matematisk optimeringsmetode til at udlede kontrolpolitikker . Metoden skyldes i høj grad Lev Pontryagins og Richard Bellmans arbejde i 1950'erne, efter bidrag til beregning af variationer af Edward J. McShane . Optimal kontrol kan ses som en kontrolstrategi inden for kontrolteori .

Generel metode

Optimal kontrol omhandler problemet med at finde en kontrollov for et givet system, således at et bestemt optimitetskriterium opnås. Et kontrolproblem omfatter en omkostningsfunktion, der er en funktion af tilstands- og kontrolvariabler. En optimal kontrol er et sæt differentialligninger, der beskriver stierne for kontrolvariablerne, der minimerer omkostningsfunktionen. Den optimale kontrol kan udledes ved hjælp af Pontryagins maksimale princip (en nødvendig betingelse, også kendt som Pontryagins minimumsprincip eller blot Pontryagins princip), eller ved at løse Hamilton – Jacobi – Bellman -ligningen (en tilstrækkelig betingelse ).

Vi begynder med et enkelt eksempel. Overvej en bil, der kører i en lige linje på en kuperet vej. Spørgsmålet er, hvordan føreren skal trykke på speederpedalen for at minimere den samlede rejsetid? I dette eksempel refererer udtrykket kontrollov specifikt til den måde, hvorpå føreren trykker på speederen og skifter gear. Det Systemet består af både bilen og vejen, og optimalitet kriterium er minimering af den samlede rejsetid. Kontrolproblemer omfatter normalt accessoriske begrænsninger . For eksempel kan mængden af ​​tilgængeligt brændstof være begrænset, speederpedalen kan ikke skubbes gennem gulvet i bilen, hastighedsbegrænsninger osv.

En korrekt omkostningsfunktion vil være et matematisk udtryk, der giver rejsetiden som en funktion af systemets hastighed, geometriske overvejelser og indledende forhold . Begrænsninger kan ofte udskiftes med omkostningsfunktionen.

Et andet relateret optimalt kontrolproblem kan være at finde vejen til at køre bilen for at minimere brændstofforbruget, da den skal gennemføre et givent forløb på en tid, der ikke overstiger et vist beløb. Endnu et andet relateret kontrolproblem kan være at minimere de samlede monetære omkostninger ved færdiggørelse af turen i betragtning af antagne pengepriser for tid og brændstof.

En mere abstrakt ramme går som følger. Minimer funktionen til kontinuerlig tid

underlagt de første ordens dynamiske begrænsninger ( tilstandsligningen )

de algebraiske vejbegrænsninger

og slutpunktsbetingelserne

hvor er staten , er kontrollen , er den uafhængige variabel (generelt set tid), er den indledende tid og er terminaltiden. Vilkårene og kaldes henholdsvis slutpunktsomkostningerne og driftsomkostningerne . I beregningen af ​​variationer og omtales som henholdsvis Mayer -udtrykket og Lagrangian . Det bemærkes endvidere, at vejbegrænsningerne generelt er ulighedsbegrænsninger og derfor muligvis ikke er aktive (dvs. lig med nul) ved den optimale løsning. Det bemærkes også, at det optimale kontrolproblem som anført ovenfor kan have flere løsninger (dvs. at løsningen muligvis ikke er unik). Således er det oftest sådan, at enhver løsning på det optimale kontrolproblem minimeres lokalt .

Lineær kvadratisk kontrol

Et særligt tilfælde af det generelle ikke -lineære optimale kontrolproblem givet i det foregående afsnit er det lineære kvadratiske (LQ) optimale kontrolproblem . LQ -problemet er angivet som følger. Minimer den kvadratiske omkostningsfunktion i kontinuerlig tid

Underlagt de lineære førsteordens dynamiske begrænsninger

og den oprindelige tilstand

En særlig form for LQ problem, som opstår i mange kontrolsystem problemer er, at den lineære kvadratiske reguleringsindretning (LQR) hvor alle matricerne (dvs. , , , og ) er konstant , den oprindelige tid er arbitrært sat til nul, og terminaltiden tages i grænsen (denne sidste antagelse er det, der kaldes uendelig horisont ). LQR -problemet er angivet som følger. Minimer den uendelige horisont kvadratisk kontinuerlig omkostnings funktionel

Med forbehold for de lineære tid-invariante førsteordens dynamiske begrænsninger

og den oprindelige tilstand

I det endelige horisont-tilfælde er matricerne begrænset i det og er henholdsvis positive halv-bestemte og positive bestemte. I uendelig-horisont tilfælde, men de matricer og er ikke kun positiv-semidefinite og positiv-bestemt, henholdsvis, men er også konstant . Disse yderligere begrænsninger på og i uendelig horisont-sagen håndhæves for at sikre, at omkostningsfunktionen forbliver positiv. For at sikre, at omkostningsfunktionen er begrænset , pålægges den yderligere begrænsning, at parret er kontrollerbart . Bemærk, at LQ- eller LQR -omkostningsfunktionen fysisk kan betragtes som et forsøg på at minimere kontrolenergien (målt som en kvadratisk form).

Det uendelige horisontproblem (dvs. LQR) kan virke overdrevent restriktivt og i det væsentlige ubrugeligt, fordi det antager, at operatøren driver systemet til nul-tilstand og dermed driver systemets output til nul. Dette er virkelig korrekt. Problemet med at køre outputtet til et ønsket nul -niveau kan imidlertid løses, efter at den ene output er nul. Faktisk kan det bevises, at dette sekundære LQR -problem kan løses på en meget ligetil måde. Det er blevet vist i klassisk optimal kontrolteori, at LQ (eller LQR) optimal kontrol har feedbackformularen

hvor er en korrekt dimensioneret matrix, givet som

og er løsningen på differential Riccati -ligningen . Den differentielle Riccati -ligning er givet som

For det endelige horisont LQ -problem er Riccati -ligningen integreret bagud i tiden ved hjælp af terminalgrænsebetingelsen

For det uendelige horisont LQR -problem erstattes differential Riccati -ligningen med den algebraiske Riccati -ligning (ARE) givet som

Forståelse for, at ARE skyldes uendelig horisont problem, matricerne , , , og alle er konstant . Det bemærkes, at der generelt er flere løsninger til den algebraiske Riccati-ligning, og den positive bestemte (eller positive halv-bestemte) løsning er den, der bruges til at beregne feedbackforstærkningen. LQ (LQR) problemet blev elegant løst af Rudolf Kálmán .

Numeriske metoder til optimal kontrol

Optimale kontrolproblemer er generelt ikke-lineære og har derfor generelt ikke analytiske løsninger (f.eks. Ligesom det lineære-kvadratiske optimale kontrolproblem). Som et resultat er det nødvendigt at anvende numeriske metoder til at løse optimale kontrolproblemer. I de første år med optimal kontrol ( ca. 1950'erne til 1980'erne) var den foretrukne metode til løsning af optimale kontrolproblemer indirekte metoder . I en indirekte metode anvendes beregningen af ​​variationer for at opnå de første ordens optimalitetsbetingelser. Disse betingelser resulterer i et topunkts (eller, i tilfælde af et komplekst problem, et flerpunkts) grænseværdiproblem . Dette grænseværdiproblem har faktisk en særlig struktur, fordi det stammer fra at tage derivatet af en Hamiltonian . Det resulterende dynamiske system er således et hamiltonsystem af formen

hvor

er den udvidede Hamiltonian og i en indirekte metode er grænseværdiproblemet løst (ved hjælp af de passende grænse- eller transversalitetsbetingelser ). Skønheden ved at bruge en indirekte metode er, at tilstanden og adjoint (dvs. ) løses for, og den resulterende løsning let verificeres til at være en ekstrem bane. Ulempen ved indirekte metoder er, at grænseværdi-problemet ofte er ekstremt vanskeligt at løse (især for problemer, der spænder over store tidsintervaller eller problemer med indvendige punktbegrænsninger). Et velkendt softwareprogram, der implementerer indirekte metoder, er BNDSCO.

Den tilgang, der er steget til fremtrædende i numerisk optimal kontrol siden 1980'erne, er den af ​​såkaldte direkte metoder . I en direkte metode tilnærmes tilstanden eller kontrollen eller begge dele ved hjælp af en passende funktionstilnærmelse (f.eks. Polynomtilnærmelse eller stykkevis konstant parameterisering). Samtidig tilnærmes omkostningsfunktionen som en omkostningsfunktion . Derefter behandles koefficienterne for funktionstilnærmelser som optimeringsvariabler, og problemet "transskriberes" til et ikke -lineært optimeringsproblem i formen:

Minimer

underlagt de algebraiske begrænsninger

Afhængigt af den anvendte type direkte metode kan størrelsen af ​​det ikke -lineære optimeringsproblem være ganske lille (f.eks. Som ved en direkte optagelses- eller kvasilinarisationsmetode), moderat (f.eks. Pseudospektral optimal kontrol ) eller kan være ganske stor (f.eks. En direkte samlokationsmetode ). I sidstnævnte tilfælde (dvs. en kollokationsmetode) kan det ikke -lineære optimeringsproblem være bogstaveligt talt tusinder til titusinder af variabler og begrænsninger. I betragtning af størrelsen på mange NLP'er, der stammer fra en direkte metode, kan det virke noget kontraintuitivt, at løsning af det ikke-lineære optimeringsproblem er lettere end at løse grænseværdi-problemet. Det er imidlertid det faktum, at NLP er lettere at løse end grænseværdi-problemet. Årsagen til den relative lette beregning, især ved en direkte kollokationsmetode, er, at NLP er sparsom, og der findes mange velkendte softwareprogrammer (f.eks. SNOPT ) for at løse store sparsomme NLP'er. Som et resultat heraf er rækkevidden af ​​problemer, der kan løses via direkte metoder (især direkte kollokationsmetoder, der er meget populære i disse dage) betydeligt større end den række af problemer, der kan løses via indirekte metoder. Faktisk er direkte metoder blevet så populære i disse dage, at mange mennesker har skrevet udførlige softwareprogrammer, der anvender disse metoder. Især mange af disse programmer inkluderer DIRCOL , SOCS, OTIS, GESOP/ ASTOS , DITAN. og PyGMO/PyKEP. I de senere år, på grund af fremkomsten af MATLAB programmeringssprog, er optimal styringssoftware i MATLAB blevet mere almindelig. Eksempler på akademisk udviklede MATLAB -softwareværktøjer, der implementerer direkte metoder, omfatter RIOTS , DIDO , DIRECT , FALCON.m og GPOPS, mens et eksempel på et industriudviklet MATLAB -værktøj er PROPT . Disse softwareværktøjer har betydeligt øget mulighederne for mennesker til at udforske komplekse optimale kontrolproblemer både for akademisk forskning og industrielle problemer. Endelig bemærkes det, at generelle MATLAB-optimeringsmiljøer som TOMLAB har gjort kodning af komplekse optimale kontrolproblemer betydeligt lettere end tidligere var muligt på sprog som C og FORTRAN .

Diskret tid optimal kontrol

Eksemplerne hidtil har vist kontinuerlige tidssystemer og kontrolløsninger. Faktisk, da optimale styringsløsninger nu ofte implementeres digitalt , er nutidens kontrolteori nu primært optaget af diskrete tidssystemer og løsninger. Theory of Consistent Approximations giver betingelser, hvorunder løsninger på en række stadig mere præcise diskretiserede optimale kontrolproblemer konvergerer til løsningen af ​​det originale problem med kontinuerlig tid. Ikke alle diskretiseringsmetoder har denne egenskab, selv tilsyneladende indlysende. For eksempel kan brug af en rutine med variabel trinstørrelse til at integrere problemets dynamiske ligninger generere en gradient, der ikke konvergerer til nul (eller peger i den rigtige retning), når løsningen nærmer sig. Den direkte metode RIOTS er baseret på Theory of Consistent Approximation.

Eksempler

En fælles løsningstrategi i mange optimale kontrolproblemer er at løse for kostnaden (undertiden kaldet skyggeprisen ) . Costaten opsummerer i et tal marginalværdien af ​​at udvide eller kontrahere statens variabel næste tur. Den marginale værdi er ikke kun de gevinster, der tilkommer det næste sving, men er forbundet med programmets varighed. Det er rart, når det kan løses analytisk, men normalt er det mest, man kan gøre, at beskrive det tilstrækkeligt godt til, at intuitionen kan forstå løsningens karakter, og en ligningsløser kan løse numerisk for værdierne.

Efter at have opnået , kan turn-t optimale værdi for kontrollen normalt løses som en differentialligning, der er betinget af viden om . Igen er det sjældent, især i problemer med kontinuerlig tid, at man eksplicit opnår værdien af ​​kontrollen eller staten. Normalt er strategien at løse for tærskler og regioner, der kendetegner den optimale kontrol og bruge en numerisk solver til at isolere de faktiske valgværdier i tide.

Endelig tid

Overvej problemet med en mineejer, der skal beslutte med hvilken hastighed man vil udvinde malm fra deres mine. De ejer rettigheder til malmen fra dato til dato . På nuværende tidspunkt er der malm i jorden, og den tidsafhængige mængde malm, der er tilbage i jorden, falder med den hastighed , som mineejeren udvinder den. Mineejeren udvinder malm til kostpris (omkostningerne ved udvinding stiger med kvadratet af ekstraktionshastigheden og inversen af ​​mængden af ​​malm tilbage) og sælger malm til en konstant pris . Enhver malm, der efterlades i jorden på det tidspunkt, kan ikke sælges og har ingen værdi (der er ingen "skrotværdi"). Ejeren vælger ekstraktionshastigheden, der varierer med tiden for at maksimere overskuddet i ejerperioden uden diskontering.

1. Diskret-tid version

Lederen maksimerer overskuddet :

underlagt evolutionens lov for statsvariablen

Form hamiltleren og differentier:

Da mineejeren ikke værdsætter den malm, der er tilbage til tiden ,

Ved hjælp af ovenstående ligninger er det let at løse for og -serierne

og ved hjælp af de indledende og turn-T betingelser kan serien løses eksplicit og give .

2. Kontinuerlig version

Lederen maksimerer overskuddet :

hvor tilstandsvariablen udvikler sig som følger:

Form hamiltleren og differentier:

Da mineejeren ikke værdsætter den malm, der er tilbage til tiden ,

Ved hjælp af ovenstående ligninger er det let at løse for de differentialligninger, der styrer og

og ved hjælp af de indledende og turn-T-betingelser kan funktionerne løses for at give

Se også

Referencer

Yderligere læsning

eksterne links