Kæderegel - Chain rule

I calculus , den kæde regel er en formel , som udtrykker derivat af sammensætningen af to differentiable funktioner f og g i form af derivaterne f og g . Mere præcist, hvis funktionen er sådan, at for hvert x , så er kædereglen i Lagranges notation ,

eller tilsvarende

Kædereglen kan også komme til udtryk i Leibniz 'notation . Hvis en variabel z afhænger af variablen y , som i sig selv afhænger af variablen x (det vil sige, at y og z er afhængige variabler ), så afhænger z også af x via den mellemliggende variabel y . I dette tilfælde udtrykkes kædereglen som

og

for at angive på hvilke punkter derivaterne skal evalueres.

I integration er modstykket til kædereglen substitutionsreglen .

Intuitiv forklaring

Intuitivt angiver kædereglen, at kendskab til den øjeblikkelige ændringshastighed for z i forhold til y og for y i forhold til x giver en mulighed for at beregne den øjeblikkelige ændringshastighed af z i forhold til x som produktet af de to ændringshastigheder.

Som udtrykt af George F. Simmons : "hvis en bil kører dobbelt så hurtigt som en cykel, og cyklen er fire gange så hurtig som en gående mand, så kører bilen 2 × 4 = 8 gange så hurtigt som manden."

Forholdet mellem dette eksempel og kædereglen er som følger. Lad z , y og x være henholdsvis bilens (cykelens) og gangmandens (variable) positioner. Ændringshastigheden for bilens og cyklens relative positioner er på samme måde, så ændringshastigheden for bilens og den gående mands relative positioner er

Hastigheden for ændring af positioner er forholdet mellem hastighederne, og hastigheden er positionens afledte med hensyn til tiden; det er,

eller tilsvarende

hvilket også er en anvendelse af kædereglen.

Historie

Kædereglen synes først at have været brugt af Gottfried Wilhelm Leibniz . Han brugte det til at beregne derivatet som sammensætningen af ​​kvadratrodsfunktionen og funktionen . Han nævnte det første gang i en erindring fra 1676 (med en tegnfejl i beregningen). Den almindelige betegnelse for kæderegel skyldes Leibniz. Guillaume de l'Hôpital brugte kædereglen implicit i sine Analyze des infiniment petits . Kædereglen findes ikke i nogen af Leonhard Eulers analysebøger, selvom de blev skrevet over hundrede år efter Leibniz 'opdagelse.

Udmelding

Den enkleste form for kædereglen er for værdiansatte funktioner af en reel variabel. Det hedder, at hvis g er en funktion, der er differentierbar ved et punkt c (dvs. derivatet g ′ ( c ) eksisterer) og f er en funktion, der er differentierbar ved g ( c ) , så er den sammensatte funktion differentierbar ved c , og derivatet er

Reglen forkortes undertiden som

Hvis y = f ( u ) og u = g ( x ) , så er denne forkortede form skrevet i Leibniz -notation som:

De punkter, hvor derivaterne evalueres, kan også udtrykkeligt angives:

Hvis den samme begrundelse videreføres, givet n funktioner med den sammensatte funktion , hvis hver funktion er differentierbar ved sin umiddelbare input, så er den sammensatte funktion også differentierbar ved gentagen anvendelse af kæderegel, hvor derivatet er (i Leibniz's notation):

Ansøgninger

Kompositter med mere end to funktioner

Kædereglen kan anvendes på kompositter med mere end to funktioner. For at tage afledningen af ​​en sammensat af mere end to funktioner skal du bemærke, at sammensætningen af f , g og h (i den rækkefølge) er sammensætningen af f med gh . Kædereglen siger, at for at beregne derivatet af fgh , er det tilstrækkeligt at beregne derivatet af f og derivatet af gh . Derivatet af f kan beregnes direkte, og derivatet af gh kan beregnes ved at anvende kædereglen igen.

Overvej funktionen for at være konkret

Dette kan nedbrydes som sammensat af tre funktioner:

Deres derivater er:

Kædereglen siger, at derivatet af deres sammensatte i punktet x = a er:

I Leibniz -notation er dette:

eller kort sagt,

Den afledte funktion er derfor:

En anden måde at beregne dette derivat på er at se den sammensatte funktion fgh som sammensætningen af fg og h . Anvendelse af kædereglen på denne måde ville give:

Dette er det samme som det, der blev beregnet ovenfor. Dette bør forventes, fordi ( fg ) ∘ h = f ∘ ( gh ) .

Nogle gange er det nødvendigt at differentiere en vilkårligt lang sammensætning af formen . I dette tilfælde skal du definere

hvor og hvornår . Så tager kædereglen form

eller, i Lagrange -notationen,

Kvotientregel

Kædereglen kan bruges til at udlede nogle velkendte differentieringsregler. For eksempel er kvotreglen en konsekvens af kædereglen og produktreglen . For at se dette skal du skrive funktionen f ( x )/ g ( x ) som produktet f ( x ) · 1/ g ( x ) . Anvend først produktreglen:

For at beregne derivatet af 1/ g ( x ) skal du bemærke, at det er sammensætningen af g med den gensidige funktion, det vil sige funktionen, der sender x til 1/ x . Afledningen af ​​den gensidige funktion er . Ved at anvende kædereglen bliver det sidste udtryk:

som er den sædvanlige formel for kvotientreglen.

Derivater af inverse funktioner

Antag at y = g ( x ) har en omvendt funktion . Kald dens inverse funktion f, så vi har x = f ( y ) . Der er en formel for derivatet af f med hensyn til derivatet af g . For at se dette skal du bemærke, at f og g opfylder formlen

Og fordi funktionerne og x er ens, skal deres derivater være ens. Derivatet af x er den konstante funktion med værdi 1, og derivatet af bestemmes af kædereglen. Derfor har vi det:

For at udtrykke f' som en funktion af en uafhængig variabel y , vi erstatte for x , hvor den vises. Så kan vi løse for f ' .

Overvej f.eks. Funktionen g ( x ) = e x . Den har en invers f ( y ) = ln y . Fordi g ′ ( x ) = e x , siger ovenstående formel det

Denne formel er sand, når g er differentierbar, og dens inverse f er også differentierbar. Denne formel kan mislykkes, når en af ​​disse betingelser ikke er sand. Overvej f.eks. G ( x ) = x 3 . Dens inverse er f ( y ) = y 1/3 , hvilket ikke er differentierbart ved nul. Hvis vi forsøger at bruge ovenstående formel til at beregne derivatet af f på nul, skal vi evaluere 1/ g ′ ( f (0)) . Da f (0) = 0 og g ′ (0) = 0 , skal vi evaluere 1/0, hvilket er udefineret. Derfor mislykkes formlen i dette tilfælde. Dette er ikke overraskende, fordi f ikke er differentierbar ved nul.

Højere derivater

Faà di Brunos formel generaliserer kædereglen til højere derivater. Forudsat at y = f ( u ) og u = g ( x ) , så er de første få derivater:

Beviser

Første bevis

Et bevis på kædereglen begynder med definitionen af ​​derivatet:

Antag for øjeblikket, at der ikke er lig med nogen x nær a . Så er det foregående udtryk lig med produktet af to faktorer:

Hvis det svinger i nærheden af a , så kan det ske, at uanset hvor tæt man kommer på a , er der altid et endnu tættere x,g ( x ) = g ( a ) . For eksempel sker dette nær a = 0 for den kontinuerlige funktion g defineret af g ( x ) = 0 for x = 0 og g ( x ) = x 2 sin (1/ x ) ellers. Når dette sker, er ovenstående udtryk udefineret, fordi det involverer division med nul . For at omgå dette skal du indføre en funktion som følger:

Vi vil vise, at differenskvotienten for fg altid er lig med:

Når g ( x ) ikke er lig med g ( a ) , er dette klart, fordi faktorerne g ( x ) - g ( a ) annullerer. Når g ( x ) er lig g ( a ) , så er differenskvoten for fg nul, fordi f ( g ( x )) er lig f ( g ( a )) , og ovenstående produkt er nul, fordi det er lig med f ′ ( g ( a )) gange nul. Så ovenstående produkt er altid lig med differenskvoten, og for at vise, at derivatet af fg ved a eksisterer og for at bestemme dets værdi, behøver vi kun at vise, at grænsen som x går til a af ovenstående produkt eksisterer og bestemmer dens værdi.

For at gøre dette skal du huske på, at grænsen for et produkt eksisterer, hvis grænserne for dets faktorer eksisterer. Når dette sker, vil grænsen for produktet af disse to faktorer svare til produktet af faktorernes grænser. De to faktorer er Q ( g ( x )) og ( g ( x ) - g ( a )) / ( x - a ) . Sidstnævnte er forskellen kvotient for gen , og fordi g er differentiabel i en af antagelse, sin grænse som x tendens til en eksisterer og er lig g «( a ) .

Hvad angår Q ( g ( x )) , bemærk at Q er defineret, uanset hvor f er. Endvidere er f differentierbar ved g ( a ) ved antagelse, så Q er kontinuerlig ved g ( a ) , per definition af derivatet. Funktionen g er kontinuerlig ved a, fordi den er differentierbar ved a , og derfor er Qg kontinuerlig ved a . Så dens grænse som x går til a eksisterer og er lig med Q ( g ( a )) , som er f ′ ( g ( a )) .

Dette viser, at grænserne for begge faktorer eksisterer, og at de er lig med henholdsvis f ′ ( g ( a )) og g ′ ( a ) . Derfor eksisterer derivatet af fg ved a og er lig med f ′ ( g ( a )) g ′ ( a ) .

Andet bevis

En anden måde at bevise kædereglen er at måle fejlen i den lineære tilnærmelse bestemt af derivatet. Dette bevis har den fordel, at det generaliserer til flere variabler. Den bygger på følgende ækvivalente definition af differentierbarhed på et punkt: En funktion g er differentierbar ved a, hvis der findes et reelt tal g ′ ( a ) og en funktion ε ( h ), der har tendens til nul, da h har tendens til nul, og endvidere

Her repræsenterer venstre side den sande forskel mellem værdien af g ved a og ved a + h , hvorimod den højre side repræsenterer den tilnærmelse, der bestemmes af derivatet plus et fejlterm.

I kædereglens situation eksisterer en sådan funktion ε , fordi g antages at være differentierbar ved a . Igen ved antagelse eksisterer en lignende funktion også for f at g ( a ). Opkald denne funktion η , vi har

Ovenstående definition pålægger η (0) ingen begrænsninger , selvom det antages, at η ( k ) har en tendens til nul, da k har en tendens til nul. Hvis vi sætter η (0) = 0 , så er η kontinuerlig på 0.

At bevise sætningen kræver, at man studerer forskellen f ( g ( a + h )) - f ( g ( a )), da h har tendens til nul. Det første trin er at erstatte g ( a + h ) ved hjælp af definitionen af ​​differentierbarhed af g ved a :

Det næste trin er at bruge definitionen på differentiering af f at g ( a ). Dette kræver et udtryk af formen f ( g ( a ) + k ) for nogle k . I ovenstående ligning varierer den korrekte k med h . Indstil k h = g ′ ( a ) h + ε ( h ) h, og højre side bliver f ( g ( a ) + k h ) - f ( g ( a )) . Anvendelse af definitionen af ​​derivatet giver:

For at studere adfærden for dette udtryk, da h har tendens til nul, udvid k h . Efter omgruppering af vilkårene bliver højre side:

Fordi ε ( h ) og η ( k h ) har tendens til nul, da h har tendens til nul, har de to første parenteser en tendens til nul, da h har tendens til nul. Når den samme sætning anvendes på produkter med grænser som i det første bevis, har det tredje parentes -udtryk også en tendens til nul. Fordi ovenstående udtryk er lig med forskellen f ( g ( a + h )) - f ( g ( a )) , er definitionen af ​​derivatet fg differentierbar ved a, og dets derivat er f ′ ( g ( a )) g ′ ( a ).

Qs rolle i det første bevis spilles af η i dette bevis. De hænger sammen med ligningen:

Behovet for at definere Q ved g ( a ) er analogt med behovet for at definere η ved nul.

Tredje bevis

Constantin Carathéodorys alternative definition af funktions differentierbarhed kan bruges til at give et elegant bevis på kædereglen.

Under denne definition er en funktion f differentierbar på et punkt a hvis og kun hvis der er en funktion q , kontinuerlig ved a og sådan at f ( x ) - f ( a ) = q ( x ) ( x - a ) . Der er højst en sådan funktion, og hvis f er differentierbar ved a så er f ′ ( a ) = q ( a ) .

I betragtning af kædereglens antagelser og det faktum, at differentierbare funktioner og sammensætninger af kontinuerlige funktioner er kontinuerlige, har vi, at der eksisterer funktioner q , kontinuerlige ved g ( a ) og r , kontinuerlige ved a , og sådan at,

og

Derfor,

men funktionen givet af h ( x ) = q ( g ( x )) r ( x ) er kontinuerlig ved a , og vi får, for dette en

En lignende tilgang fungerer for kontinuerligt differentierbare (vektor-) funktioner af mange variabler. Denne factoring -metode tillader også en samlet tilgang til stærkere former for differentierbarhed, når derivatet skal være Lipschitz -kontinuerligt , Hölder -kontinuert osv. Differentiering i sig selv kan ses som den polynomiske restsætning (den lille Bézout -sætning eller faktorsætning) , generaliseret til en passende klasse af funktioner.

Bevis via uendelige tal

Hvis og derefter vælger uendelig lille beregner vi det tilsvarende og derefter det tilsvarende , så det

og anvender den standarddel, vi får

som er kædereglen.

Multivariabel sag

Generaliseringen af ​​kædereglen til multi-variable funktioner er temmelig teknisk. Det er imidlertid lettere at skrive i tilfælde af formularens funktioner

Da dette tilfælde ofte forekommer i studiet af funktioner i en enkelt variabel, er det værd at beskrive det separat.

Tilfælde af f ( g 1 ( x ), ..., g k ( x ))

Til at skrive kædereglen for en funktion af formularen

f ( g 1 ( x ), ..., g k ( x )) ,

man har brug for de delvise derivater af f med hensyn til dets k -argumenter. De sædvanlige betegnelser for partielle derivater involverer navne til funktionens argumenter. Da disse argumenter ikke er navngivet i ovenstående formel, er det enklere og klarere at betegne med

derivatet af f med hensyn til dets i th argument, og ved

værdien af ​​dette derivat ved z .

Med denne notation er kædereglen

Eksempel: aritmetiske operationer

Hvis funktionen f er tilføjelse, det vil sige hvis

derefter og . Således giver kædereglen

Til multiplikation

partialerne er og . Dermed,

Sagen om eksponentiering

er lidt mere kompliceret, som

og som

Den følger det

Generel regel

Den enkleste måde at skrive kædereglen i det generelle tilfælde er at bruge det totale derivat , som er en lineær transformation, der indfanger alle retningsafledte derivater i en enkelt formel. Overvej differentierbare funktioner f  : R mR k og g  : R nR m , og et punkt a i R n . Lad D a g betegne det totale derivat af g ved a og D g ( a ) f betegne det totale derivat af f ved g ( a ) . Disse to derivater er henholdsvis lineære transformationer R nR m og R mR k , så de kan sammensættes. Kædereglen for samlede derivater er, at deres sammensatte er det totale derivat af fg ved a :

eller kort sagt,

Den højere dimensionelle kæderegel kan bevises ved hjælp af en teknik, der ligner det andet bevis ovenfor.

Fordi det samlede derivat er en lineær transformation, kan funktionerne i formlen omskrives som matricer. Matrixen, der svarer til et totalderivat , kaldes en Jacobian -matrix , og sammensætningen af ​​to derivater svarer til produktet af deres jakobiske matricer. Fra dette perspektiv siger kædereglen derfor:

eller kort sagt,

Det vil sige, at jakobianeren af ​​en sammensat funktion er produktet af jakobianerne af de sammensatte funktioner (evalueret på de relevante punkter).

Den højere dimensionelle kæderegel er en generalisering af den endimensionelle kæderegel. Hvis k , m , og n er 1, således at f  : RR og g  : RR , derefter Jacobi-matrixer af f og g er 1 × 1 . Specifikt er de:

Jacobian af fg er produktet af disse 1 × 1 matricer, så det er f ′ ( g ( a )) ⋅ g ′ ( a ) , som forventet fra den endimensionelle kæderegel. I sproget med lineære transformationer er D a ( g ) den funktion, der skalerer en vektor med en faktor g ′ ( a ), og D g ( a ) ( f ) er den funktion, der skalerer en vektor med en faktor f ′ ( g ( a )). Kædereglen siger, at sammensætningen af ​​disse to lineære transformationer er den lineære transformation D a ( fg ) , og derfor er det funktionen, der skalerer en vektor med f ′ ( g ( a )) ⋅ g ′ ( a ).

En anden måde at skrive kædereglen på, bruges når f og g udtrykkes i form af deres komponenter som y = f ( u ) = ( f 1 ( u ),…, f k ( u )) og u = g ( x ) = ( g 1 ( x ),…, g m ( x )) . I dette tilfælde er ovenstående regel for jakobiske matricer normalt skrevet som:

Kædereglen for totalderivater indebærer en kæderegel for partielle derivater. Husk på, at når det totale derivat eksisterer, findes det partielle derivat i den i koordinatretning ved at multiplicere den jacobiske matrix med den i basisvektor. Ved at gøre dette til formlen ovenfor finder vi:

Da posterne i den jakobiske matrix er partielle derivater, kan vi forenkle ovenstående formel for at få:

Mere konceptuelt udtrykker denne regel det faktum, at en ændring i x i -retningen kan ændre hele g 1 til g m , og enhver af disse ændringer kan påvirke f .

I det særlige tilfælde, hvor k = 1 , så f er en reelt værdsat funktion, så forenkler denne formel endnu mere:

Dette kan omskrives som et prikprodukt . I erindring om, at u = ( g 1 ,…, g m ) , er det partielle derivat u / ∂ x i også en vektor, og kædereglen siger, at:

Eksempel

Givet u ( x , y ) = x 2 + 2 y hvor x ( r , t ) = r sin ( t ) og y ( r , t ) = sin 2 ( t ) , skal du bestemme værdien af u / ∂ r og u / ∂ t bruge kæden reglen.

og

Højere derivater af multivariable funktioner

Faà di Brunos formel for derivater af højere orden af ​​enkeltvariable funktioner generaliserer til den multivariable sag. Hvis y = f ( u ) er en funktion af u = g ( x ) som ovenfor, så er anden derivat af fg :

Yderligere generaliseringer

Alle udvidelser af beregning har en kæderegel. I de fleste af disse forbliver formlen den samme, selvom betydningen af ​​denne formel kan være meget forskellig.

En generalisering er til mangfoldige . I denne situation repræsenterer kædereglen det faktum, at derivatet af fg er sammensætningen af ​​derivatet af f og derivatet af g . Denne sætning er en umiddelbar konsekvens af den højere dimensionelle kæderegel givet ovenfor, og den har nøjagtig den samme formel.

Kædereglen er også gældende for Fréchet -derivater i Banach -mellemrum . Den samme formel holder som før. Denne sag og den forrige indrømmer en samtidig generalisering til Banach -manifolder .

I differentialalgebra fortolkes derivatet som en morfisme af moduler af Kähler -differentialer . En ringhomomorfisme af kommutative ringe f  : RS bestemmer en morfisme af Kähler -differentialer Df  : Ω R → Ω S, som sender et element dr til d ( f ( r )), den ydre differential af f ( r ). Formlen D ( fg ) = DfDg holder også i denne sammenhæng.

Det fælles træk ved disse eksempler er, at de er udtryk for tanken om, at derivatet er en del af en funktor . En funktor er en operation på mellemrum og funktioner mellem dem. Det forbinder hvert rum et nyt rum og til hver funktion mellem to mellemrum en ny funktion mellem de tilsvarende nye rum. I hvert af de ovennævnte tilfælde sender funktoren hvert rum til sit tangentbundt, og det sender hver funktion til sit derivat. For eksempel i manifolden tilfælde derivatet sender en C r -manifold til en C r -1 -manifold (dens tangent bundle) og en C r -funktionen til dens samlede derivat. Der er et krav for at dette skal være en funktor, nemlig at derivatet af et komposit skal være det sammensatte af derivaterne. Dette er præcis formlen D ( fg ) = DfDg .

Der er også kæderegler i stokastisk regning . En af disse, Itos lemma , udtrykker sammensætningen af ​​en Itō-proces (eller mere generelt en semimartingale ) dX t med en to-differentierbar funktion f . I Itos lemma afhænger derivatet af den sammensatte funktion ikke kun af dX t og derivatet af f, men også af det andet derivat af f . Afhængigheden af ​​det andet derivat er en konsekvens af den ikke-nul kvadratiske variation af den stokastiske proces, hvilket i store træk betyder, at processen kan bevæge sig op og ned på en meget grov måde. Denne variant af kædereglen er ikke et eksempel på en funktor, fordi de to funktioner, der sammensættes, er af forskellige typer.

Se også

Referencer

eksterne links