Forklaret variation - Explained variation
I statistikker , forklarede variation foranstaltninger andelen hvortil en matematisk model udgør variationen ( dispersion ) af et givet datasæt. Ofte kvantificeres variation som varians ; derefter kan det mere specifikke udtryk, der er forklaret varians, bruges.
Den komplementære del af den samlede variation kaldes uforklarlig eller restvariation .
Definition i form af informationsgevinst
Informationsgevinst ved bedre modellering
Efter Kent (1983) bruger vi Fraser-oplysningerne (Fraser 1965)
hvor er sandsynlighedstætheden for en tilfældig variabel , og med ( ) er to familier af parametriske modeller. Modelfamilien 0 er den enkleste med et begrænset parameterrum .
Parametre bestemmes af estimering af maksimal sandsynlighed ,
Informationsgevinsten for model 1 over model 0 skrives som
hvor en faktor 2 er inkluderet for nemheds skyld. Γ er altid ikke-negativ; det måler i hvilken grad den bedste model af familie 1 er bedre end den bedste model for familie 0 ved at forklare g ( r ).
Informationsgevinst ved en betinget model
Antag en todimensional tilfældig variabel, hvor X skal betragtes som en forklarende variabel, og Y som en afhængig variabel. Modeller af familie 1 "forklarer" Y i form af X ,
- ,
hvorimod i familie 0 antages X og Y at være uafhængige. Vi definerer tilfældigheden af Y ved og tilfældigheden af Y , givet X , ved . Derefter,
kan fortolkes som andel af data dispersion, som er "forklarede" af X .
Særtilfælde og generaliseret brug
Lineær regression
Den uforklarlige variansfraktion er et etableret koncept i sammenhæng med lineær regression . Den sædvanlige definition af bestemmelseskoefficienten er baseret på det grundlæggende begreb forklaret varians.
Korrelationskoefficient som mål for forklaret varians
Lad X være en tilfældig vektor, og Y en tilfældig variabel, der er modelleret af en normalfordeling med center . I dette tilfælde svarer den ovenfor afledte andel af forklaret variation til den kvadratiske korrelationskoefficient .
Bemærk de stærke modelantagelser: centrum for Y- fordelingen skal være en lineær funktion af X , og for en given x skal Y- fordelingen være normal. I andre situationer er det generelt ikke berettiget at fortolke som andel af forklaret varians.
I hovedkomponentanalyse
Forklaret varians bruges rutinemæssigt i hovedkomponentanalyse . Forholdet til informationsgevinsten Fraser – Kent er stadig afklaret.
Kritik
Da fraktionen af "forklaret varians" svarer til den kvadratiske korrelationskoefficient , deler den alle ulemperne ved sidstnævnte: den afspejler ikke kun kvaliteten af regressionen, men også fordelingen af de uafhængige (konditionerende) variabler.
Med ord fra en kritiker: "Således giver 'variansprocenten forklaret' af regressionen, et udtryk, der for de fleste samfundsvidenskabere er af tvivlsom betydning, men stor retorisk værdi. Hvis dette tal er stort, giver regressionen en god pasform, og der er ringe mening med at søge efter yderligere variabler. Andre regressionsligninger på forskellige datasæt siges at være mindre tilfredsstillende eller mindre kraftfulde, hvis de er lavere. Intet om understøtter disse påstande ". Og efter at have konstrueret et eksempel, hvor forstærkes bare ved i fællesskab at overveje data fra to forskellige populationer: "'Forklaret varians' forklarer intet."