Standardafvigelse - Standard deviation

Et plot med normalfordeling (eller klokkeformet kurve), hvor hvert bånd har en bredde på 1 standardafvigelse-Se også: 68–95–99.7 regel .
Kumulativ sandsynlighed for en normalfordeling med forventet værdi 0 og standardafvigelse 1

I statistik er standardafvigelsen et mål for mængden af ​​variation eller spredning af et sæt værdier. En lav standardafvigelse angiver, at værdierne har en tendens til at være tæt på sætets middelværdi (også kaldet den forventede værdi ), mens en høj standardafvigelse indikerer, at værdierne er spredt ud over et bredere område.

Standardafvigelse kan forkortes SD og er mest almindeligt repræsenteret i matematiske tekster og ligninger med det små græske bogstav sigma σ , for populationsstandardafvigelsen, eller det latinske bogstav s , for prøvestandardafvigelsen.

Standardafvigelsen for en tilfældig variabel , prøve , statistisk population , datasæt eller sandsynlighedsfordeling er kvadratroden af dens varians . Det er algebraisk enklere, men i praksis mindre robust end den gennemsnitlige absolutte afvigelse . En nyttig egenskab ved standardafvigelsen er, at den i modsætning til variansen udtrykkes i samme enhed som dataene.

Standardafvigelsen for en population eller stikprøve og standardfejlen for en statistik (f.eks. For prøveværdien) er ganske forskellige, men relaterede. Prøve middelværdiets standardfejl er standardafvigelsen for det sæt af midler, der ville findes ved at tegne et uendeligt antal gentagne prøver fra befolkningen og beregne et middel for hver prøve. Middelværdiets standardfejl viser sig at være lig med populationsstandardafvigelsen divideret med kvadratroden af ​​stikprøvestørrelsen og estimeres ved hjælp af prøvestandardafvigelsen divideret med kvadratroden af ​​stikprøvestørrelsen. For eksempel er en meningsmåles standardfejl (det der rapporteres som afstemningens fejlmargin ) den forventede standardafvigelse af det estimerede gennemsnit, hvis den samme meningsmåling skulle udføres flere gange. Således estimerer standardfejlen standardafvigelsen af ​​et estimat, som selv måler, hvor meget estimatet afhænger af den særlige prøve, der blev taget fra befolkningen.

I videnskaben er det almindeligt at rapportere både standardafvigelsen af ​​dataene (som en summarisk statistik) og standardfejlen i estimatet (som et mål for potentiel fejl i fundene). Ved konvention betragtes kun effekter mere end to standardfejl væk fra en nulforventning som "statistisk signifikante" , en beskyttelse mod falsk konklusion, der virkelig skyldes tilfældige samplingsfejl.

Når kun en stikprøve af data fra en population er tilgængelig, kan udtrykket standardafvigelse for prøven eller prøvestandardafvigelsen referere til enten den ovennævnte mængde, der anvendes på disse data, eller til en modificeret mængde, der er et upartisk estimat af befolkningsstandardafvigelse (standardafvigelsen for hele befolkningen).

Grundlæggende eksempler

Befolkningens standardafvigelse af karakterer på otte elever

Antag, at hele befolkningen af ​​interesse er otte elever i en bestemt klasse. For et begrænset antal tal findes populationsstandardafvigelsen ved at tage kvadratroden af gennemsnittet af de kvadrerede afvigelser af de værdier, der trækkes fra deres gennemsnitlige værdi. Karaktererne for en klasse på otte elever (det vil sige en statistisk population ) er følgende otte værdier:

Disse otte datapunkter har gennemsnittet (gennemsnit) på 5:

Beregn først afvigelserne for hvert datapunkt fra middelværdien og kvadrater resultatet af hvert:

Den varians er gennemsnittet af disse værdier:

og populationsstandardafvigelsen er lig med kvadratroden af ​​variansen:

Denne formel er kun gyldig, hvis de otte værdier, som vi begyndte med, danner hele befolkningen. Hvis værdierne i stedet var en tilfældig stikprøve trukket fra en stor forældrepopulation (for eksempel var de 8 elever tilfældigt og uafhængigt valgt fra en klasse på 2 millioner), så dividerer man med 7 (hvilket er n - 1) i stedet for 8 ( som er n ) i nævneren af ​​den sidste formel, og resultatet er I så fald vil resultatet af den oprindelige formel blive kaldt prøvestandardafvigelsen og betegnet med s i stedet for at dividere med n  - 1 frem for med n giver en upartisk skøn over variansen i den større forældrepopulation. Dette er kendt som Bessel's korrektion . I grove træk er årsagen til det, at formlen for prøvevariansen er afhængig af at beregne forskelle mellem observationer fra stikprøven, og selve middelværdien blev konstrueret til at være så tæt som muligt på observationerne, så bare dividere med n ville undervurdere variation.

Standardafvigelse af gennemsnitshøjde for voksne mænd

Hvis befolkningen af ​​interesse er cirka normalfordelt, giver standardafvigelsen oplysninger om andelen af ​​observationer over eller under bestemte værdier. For eksempel er gennemsnitshøjden for voksne mænd i USA omkring 70 tommer (177,8 cm), med en standardafvigelse på omkring 3 tommer (7,62 cm). Det betyder, at de fleste mænd (ca. 68%, under forudsætning af en normal fordeling ) har en højde inden for 7,62 cm fra middelværdien (170,18–185,42 cm)) - en standardafvigelse - og næsten alle mænd ( ca. 95%) har en højde inden for 15,24 cm fra middelværdien (162,56-193,04 cm)) - to standardafvigelser. Hvis standardafvigelsen var nul, ville alle mænd være nøjagtigt 177,8 cm høje. Hvis standardafvigelsen var 20 tommer (50,8 cm), ville mændene have meget mere variable højder med et typisk område på omkring 50–90 tommer (127–228,6 cm). Tre standardafvigelser tegner sig for 99,7% af prøvepopulationen , der undersøges, forudsat at fordelingen er normal eller klokkeformet (se 68-95-99.7-reglen eller den empiriske regel for flere oplysninger).

Definition af befolkningsværdier

Lad μ være den forventede værdi (gennemsnittet) af tilfældig variabel X med densitet f ( x ):

Standardafvigelsen σ for X er defineret som

som kan vises til lige

Bruge ord, standardafvigelsen er kvadratroden af variansen af X .

Standardafvigelsen for en sandsynlighedsfordeling er den samme som for en tilfældig variabel med denne fordeling.

Ikke alle tilfældige variabler har en standardafvigelse. Hvis fordelingen har fedthaler, der går ud i det uendelige, findes standardafvigelsen muligvis ikke, fordi integralet muligvis ikke konvergerer. Den normale fordeling har haler gå ud til uendelig, men dens middelværdi og standardafvigelse eksisterer, fordi halerne aftage hurtigt nok. Den Pareto fordeling med parameter har en gennemsnitlig, men ikke en standardafvigelse (løst sagt, standardafvigelsen er uendelig). Den Cauchy fordeling har hverken en middelværdi eller en standardafvigelse.

Diskret tilfældig variabel

I det tilfælde, hvor X tager tilfældige værdier fra et begrænset datasæt x 1 , x 2 , ..., x N , hvor hver værdi har samme sandsynlighed, er standardafvigelsen

eller ved anvendelse summation notation,

Hvis man i stedet for at have lige sandsynligheder, værdierne har forskellige sandsynligheder, lad x 1 har sandsynlighed p 1 , x 2 har sandsynlighed p 2 , ..., x N har sandsynlighed p N . I dette tilfælde vil standardafvigelsen være

Kontinuerlig tilfældig variabel

Standardafvigelsen for en kontinuerlig realværdieret tilfældig variabel X med sandsynlighedstæthedsfunktion p ( x ) er

og hvor integralerne er bestemte integraler tages for x spænder over sæt af mulige værdier af den stokastiske variabel  X .

I tilfælde af en parametrisk distributionsfamilie kan standardafvigelsen udtrykkes i parametre. For eksempel for log-normalfordelingen med parametre μ og σ 2 er standardafvigelsen

Estimering

Man kan finde standardafvigelsen for en hel befolkning i tilfælde (f.eks. Standardiseret test ), hvor hvert medlem af en befolkning udtages. I tilfælde, hvor det ikke kan gøres, estimeres standardafvigelsen σ ved at undersøge en tilfældig stikprøve taget fra befolkningen og beregne en statistik over prøven, som bruges som et estimat af populationsstandardafvigelsen. En sådan statistik kaldes en estimator , og estimatoren (eller estimatorens værdi, nemlig estimatet) kaldes en prøve standardafvigelse, og betegnes med s (muligvis med modifikatorer).

I modsætning til ved estimering af populationsgennemsnittet, for hvilket prøvegennemsnittet er en simpel estimator med mange ønskelige egenskaber ( upartisk , effektiv , maksimal sandsynlighed), er der ingen enkelt estimator for standardafvigelsen med alle disse egenskaber og upartisk estimering af standardafvigelse er et meget teknisk involveret problem. Oftest estimeres standardafvigelsen ved hjælp af den korrigerede prøvestandardafvigelse (ved hjælp af N  - 1), defineret nedenfor, og dette omtales ofte som "prøvestandardafvigelsen" uden kvalifikationer. Andre estimatorer er imidlertid bedre i andre henseender: Den ukorrigerede estimator (ved hjælp af N ) giver lavere gennemsnitlig kvadratfejl, mens brug af N  - 1.5 (til normalfordeling) eliminerer næsten fuldstændigt bias.

Ukorrigeret prøve standardafvigelse

Formlen for populationsstandardafvigelsen (for en begrænset population) kan anvendes på prøven ved hjælp af prøvens størrelse som populationsstørrelsen (selvom den faktiske populationsstørrelse, hvorfra prøven udtages, kan være meget større). Denne estimator, betegnet med s N , er kendt som den ikke -korrigerede prøve standardafvigelse , eller undertiden standardafvigelsen for prøven (betragtes som hele populationen), og er defineret som følger:

hvor er de observerede værdier for prøveemnerne, og er middelværdien af ​​disse observationer, mens nævneren  N står for prøvens størrelse: dette er kvadratroden af ​​prøvevariansen, som er gennemsnittet af de kvadrerede afvigelser ca. stikprøven betyder.

Dette er en konsekvent estimator (den konvergerer sandsynligt til befolkningsværdien, da antallet af prøver går til uendeligt), og er estimatet for maksimal sandsynlighed, når befolkningen er normalt fordelt. Dette er imidlertid en forudindtaget estimator , da estimaterne generelt er for lave. Skævheden falder, når prøvestørrelsen vokser og falder som 1/ N , og er derfor mest signifikant for små eller moderate prøvestørrelser; for bias er under 1%. For meget store prøvestørrelser er den ukorrigerede prøvestandardafvigelse derfor generelt acceptabel. Denne estimator har også en ensartet mindre gennemsnitlig kvadratfejl end den korrigerede prøvestandardafvigelse.

Korrigeret prøve standardafvigelse

Hvis den partiske prøvevarians (det andet centrale moment i stikprøven, som er et nedadgående forudbestemt estimat af populationsvariansen) bruges til at beregne et skøn over befolkningens standardafvigelse, er resultatet

Her introducerer kvadratroden yderligere bias nedad ved Jensens ulighed , fordi kvadratroden er en konkav funktion . Skævheden i variansen er let korrigeret, men bias fra kvadratroden er vanskeligere at korrigere og afhænger af den pågældende fordeling.

En upartisk estimator for variansen er givet ved at anvende Bessels korrektion ved hjælp af N  - 1 i stedet for N for at give den objektive prøvevarians, betegnet s 2 :

Denne estimator er upartisk, hvis variansen eksisterer, og prøveværdierne tegnes uafhængigt med udskiftning. N  - 1 svarer til antallet af frihedsgrader i vektoren for afvigelser fra middelværdien,

At tage kvadratrødder genindfører bias (fordi kvadratroden er en ikke -lineær funktion, som ikke pendler med forventningen), hvilket giver den korrigerede prøve standardafvigelse, betegnet med s:

Som forklaret ovenfor, mens s 2 er en upartisk estimator for populationsvariansen, er s stadig en forudindtaget estimator for populationsstandardafvigelsen, dog markant mindre forudindtaget end den ikke -korrigerede prøvestandardafvigelse. Denne estimator er almindeligt anvendt og almindeligvis kendt som "prøve standardafvigelsen". Skævheden kan stadig være stor for små prøver ( N mindre end 10). Når prøvestørrelsen stiger, falder mængden af ​​bias. Vi får mere information og forskellen mellem og bliver mindre.

Uvildig prøve standardafvigelse

Til upartisk estimering af standardafvigelse er der ingen formel, der fungerer på tværs af alle distributioner, i modsætning til middelværdi og varians. I stedet s anvendes som grundlag, og skaleres med en korrektionsfaktor til at producere en uvildig vurdering. For normalfordelingen er en upartisk estimator givet ved s / c 4 , hvor korrektionsfaktoren (som afhænger af N ) er angivet med hensyn til gamma -funktionen , og er lig med:

Dette opstår, fordi prøveudtagningsfordelingen af ​​prøvestandardafvigelsen følger en (skaleret) chifordeling , og korrektionsfaktoren er middelværdien af ​​chifordelingen.

En tilnærmelse kan gives ved at erstatte N  - 1 med N  - 1,5, hvilket giver:

Fejlen i denne tilnærmelse falder kvadratisk (som 1/ N 2 ), og den er velegnet til alle undtagen de mindste prøver eller højeste præcision: for N = 3 er forspændingen lig med 1,3%, og for N = 9 er forspændingen allerede mindre end 0,1%.

En mere præcis tilnærmelse er at erstatte ovenstående med .

For andre distributioner afhænger den korrekte formel af fordelingen, men en tommelfingerregel er at bruge den yderligere forfining af tilnærmelsen:

hvor γ 2 betegner befolkningen overskydende kurtosis . Den overskydende kurtose kan enten være kendt på forhånd for visse distributioner eller estimeret ud fra dataene.

Konfidensinterval for en prøveudtaget standardafvigelse

Den standardafvigelse, vi opnår ved at prøveudtagning af en fordeling, er i sig selv ikke helt nøjagtig, både af matematiske årsager (forklaret her med konfidensintervallet) og af praktiske måleårsager (målefejl). Den matematiske effekt kan beskrives ved konfidensintervallet eller CI.

For at vise, hvordan en større prøve vil gøre konfidensintervallet smallere, skal du overveje følgende eksempler: En lille population på N = 2 har kun 1 frihedsgrad til at estimere standardafvigelsen. Resultatet er, at et 95% CI af SD kører fra 0,45 × SD til 31,9 × SD; faktorerne her er som følger :

hvor er p -t -kvanten af ​​chi -kvadratfordelingen med k frihedsgrader, og er konfidensniveauet. Dette svarer til følgende:

Med k = 1 og . Gensidigheden af ​​kvadratrødderne af disse to tal giver os faktorerne 0,45 og 31,9 angivet ovenfor.

En større befolkning på N = 10 har 9 frihedsgrader til at estimere standardafvigelsen. De samme beregninger som ovenfor giver os i dette tilfælde et 95% CI, der kører fra 0,69 × SD til 1,83 × SD. Så selv med en prøvepopulation på 10 kan den faktiske SD stadig være næsten en faktor 2 højere end den udtagne SD. For en prøvepopulation N = 100 er dette nede på 0,88 × SD til 1,16 × SD. For at være mere sikker på, at det samplede SD er tæt på det faktiske SD, skal vi prøve et stort antal punkter.

De samme formler kan bruges til at opnå konfidensintervaller for variansen af ​​residualer fra mindst kvadrater, der passer under standard normal teori, hvor k nu er antallet af frihedsgrader for fejl.

Grænser for standardafvigelse

For et sæt N > 4 data, der spænder over et område med værdier R , er en øvre grænse for standardafvigelsen s givet med s = 0,6R . Et skøn over standardafvigelsen for N > 100 data, der anses for at være omtrent normale, følger af heuristen, at 95% af arealet under normalkurven ligger omtrent to standardafvigelser til hver side af middelværdien, så med 95% sandsynlighed er det samlede værdiområde R repræsenterer fire standardafvigelser, så s ≈ R/4 . Denne såkaldte områderegel er nyttig ved estimering af stikprøvestørrelse , da rækkevidden af ​​mulige værdier er lettere at estimere end standardafvigelsen. Andre divisorer K (N) i området, således at s ≈ R/K (N) er tilgængelige for andre værdier af N og for ikke-normale fordelinger.

Identiteter og matematiske egenskaber

Standardafvigelsen er invariant under ændringer i placering og skaleres direkte med omfanget af den tilfældige variabel. Således for en konstant c og tilfældige variabler X og Y :

Standardafvigelsen af ​​summen af ​​to tilfældige variabler kan relateres til deres individuelle standardafvigelser og kovariansen mellem dem:

hvor og står for henholdsvis varians og kovarians .

Beregningen af ​​summen af ​​kvadrerede afvigelser kan relateres til momenter beregnet direkte ud fra dataene. I den følgende formel tolkes bogstavet E til at betyde forventet værdi, dvs. middelværdi.

Prøven standardafvigelse kan beregnes som:

For en begrænset befolkning med lige sandsynligheder på alle punkter har vi

hvilket betyder, at standardafvigelsen er lig med kvadratroden af ​​forskellen mellem gennemsnittet af værdiernes kvadrater og kvadratet af gennemsnitsværdien.

Se beregningsformel for varians for bevis og for et analogt resultat for prøve standardafvigelse.

Fortolkning og anvendelse

Eksempel på prøver fra to populationer med samme middelværdi, men forskellige standardafvigelser. Rød befolkning har middelværdi 100 og SD 10; blå befolkning har middelværdi 100 og SD 50.

En stor standardafvigelse indikerer, at datapunkterne kan sprede sig langt fra middelværdien, og en lille standardafvigelse angiver, at de er grupperet tæt omkring middelværdien.

For eksempel har hver af de tre populationer {0, 0, 14, 14}, {0, 6, 8, 14} og {6, 6, 8, 8} et gennemsnit på 7. Deres standardafvigelser er 7, 5 og henholdsvis 1. Den tredje population har en meget mindre standardafvigelse end de to andre, fordi dens værdier alle er tæt på 7. Disse standardafvigelser har de samme enheder som datapunkterne selv. Hvis datasættet {0, 6, 8, 14} f.eks. Repræsenterer en alder af en befolkning på fire søskende i år, er standardafvigelsen 5 år. Som et andet eksempel kan befolkningen {1000, 1006, 1008, 1014} repræsentere de afstande, som fire atleter har tilbagelagt, målt i meter. Det har et gennemsnit på 1007 meter og en standardafvigelse på 5 meter.

Standardafvigelse kan tjene som et mål for usikkerhed. I fysikken, for eksempel rapporterede standardafvigelse for en gruppe af gentagne målinger giver præcision af disse parametre. Når man afgør, om målinger stemmer overens med en teoretisk forudsigelse, er standardafvigelsen for disse målinger af afgørende betydning: hvis middelværdien af ​​målingerne er for langt væk fra forudsigelsen (med afstanden målt i standardafvigelser), så testes teorien sandsynligvis skal revideres. Dette giver mening, da de falder uden for de værdier, der med rimelighed kan forventes at forekomme, hvis forudsigelsen var korrekt og standardafvigelsen passende kvantificeres. Se forudsigelsesinterval .

Selvom standardafvigelsen måler, hvor langt typiske værdier har en tendens til at være fra middelværdien, er der andre mål tilgængelige. Et eksempel er den absolutte gennemsnitlige afvigelse , som kan betragtes som et mere direkte mål for gennemsnitsafstand, sammenlignet med den gennemsnitlige kvadratafstand, der ligger i standardafvigelsen.

Anvendelseseksempler

Den praktiske værdi ved at forstå standardafvigelsen for et sæt værdier er at forstå, hvor stor variation der er fra gennemsnittet (middelværdien).

Eksperiment, industriel og hypotesetest

Standardafvigelse bruges ofte til at sammenligne data fra den virkelige verden med en model for at teste modellen. For eksempel i industrielle applikationer skal vægten af ​​produkter, der kommer fra en produktionslinje, muligvis overholde en lovmæssigt påkrævet værdi. Ved at veje en brøkdel af produkterne kan man finde en gennemsnitlig vægt, som altid vil være lidt anderledes end det langsigtede gennemsnit. Ved at bruge standardafvigelser kan en minimums- og maksimumværdi beregnes, at den gennemsnitlige vægt vil være inden for en meget høj procentdel af tiden (99,9% eller mere). Hvis det falder uden for området, skal produktionsprocessen muligvis korrigeres. Sådanne statistiske tests er særlig vigtige, når testen er relativt dyr. For eksempel hvis produktet skal åbnes og drænes og vejes, eller hvis produktet på anden måde blev brugt op af testen.

I eksperimentel videnskab bruges en teoretisk virkelighedsmodel. Partikelfysik bruger konventionelt en standard på " 5 sigma " til erklæring om et fund. Et fem-sigma-niveau oversætter til en chance på 3,5 millioner for, at en tilfældig udsving ville give resultatet. Dette niveau af sikkerhed var påkrævet for at hævde, at en partikel i overensstemmelse med Higgs -bosonet var blevet opdaget i to uafhængige forsøg på CERN , hvilket også førte til erklæringen om den første observation af gravitationsbølger og bekræftelse af global opvarmning .

Vejr

Som et enkelt eksempel kan du overveje de gennemsnitlige daglige maksimale temperaturer for to byer, en inde i landet og en på kysten. Det er nyttigt at forstå, at rækkevidden af ​​daglige maksimale temperaturer for byer nær kysten er mindre end for byer inde i landet. Selvom disse to byer hver især kan have den samme gennemsnitlige maksimumstemperatur, vil standardafvigelsen af ​​den daglige maksimumstemperatur for kystbyen være mindre end den for indre by, da den faktiske maksimale temperatur på en bestemt dag er mere sandsynlig at være længere fra den gennemsnitlige maksimumtemperatur for indlandsbyen end for den kystnære.

Finansiere

I finansiering bruges standardafvigelse ofte som et mål for risikoen forbundet med kursudsving på et givet aktiv (aktier, obligationer, ejendomme osv.) Eller risikoen for en portefølje af aktiver (aktivt forvaltede investeringsforeninger, indeksforandringer fonde eller ETF'er). Risiko er en vigtig faktor for at bestemme, hvordan man effektivt kan styre en portefølje af investeringer, fordi den bestemmer variationen i afkastet på aktivet og/eller porteføljen og giver investorer et matematisk grundlag for investeringsbeslutninger (kendt som middelvariansoptimering ). Det grundlæggende risikobegreb er, at når det stiger, bør det forventede afkast af en investering også stige, en stigning kendt som risikopræmien. Med andre ord bør investorer forvente et højere afkast af en investering, når investeringen har et højere risiko eller usikkerhed. Ved vurdering af investeringer bør investorer estimere både det forventede afkast og usikkerheden om fremtidigt afkast. Standardafvigelse giver et kvantificeret estimat af usikkerheden om fremtidigt afkast.

Antag f.eks., At en investor skulle vælge mellem to aktier. Aktie A havde i løbet af de sidste 20 år et gennemsnitligt afkast på 10 procent, med en standardafvigelse på 20 procentpoint (pp), og aktie B havde i samme periode et gennemsnitligt afkast på 12 procent, men en højere standardafvigelse på 30 pp. På grundlag af risiko og afkast kan en investor beslutte, at Stock A er det sikrere valg, fordi Stock B's yderligere to procentpoints afkast ikke er værd at den ekstra 10 pp standardafvigelse (større risiko eller usikkerhed om det forventede afkast). Aktie B kommer sandsynligvis til at mangle den oprindelige investering (men også at overstige den oprindelige investering) oftere end lager A under de samme omstændigheder og skønnes kun at returnere to procent mere i gennemsnit. I dette eksempel forventes aktie A at tjene cirka 10 procent plus + minus 20 pp (et interval på 30 procent til −10 procent), cirka to tredjedele af det kommende års afkast. Når man overvejer mere ekstreme mulige afkast eller resultater i fremtiden, bør en investor forvente resultater på op til 10 procent plus eller minus 60 pp, eller et interval fra 70 procent til −50 procent, hvilket inkluderer resultater for tre standardafvigelser fra det gennemsnitlige afkast (ca. 99,7 procent af sandsynlige afkast).

Beregning af gennemsnittet (eller det aritmetiske middel) af afkastet af et værdipapir over en given periode vil generere det forventede afkast af aktivet. For hver periode trækker det forventede afkast fra det faktiske afkast forskellen fra middelværdien. At kvadrere forskellen i hver periode og tage gennemsnittet giver den samlede varians for aktivets afkast. Jo større afvigelse, desto større risiko medfører sikkerheden. At finde kvadratroden af ​​denne varians vil give standardafvigelsen for det pågældende investeringsværktøj.

Befolkningens standardafvigelse bruges til at indstille bredden af Bollinger Bands , et vidt anvendt teknisk analyseværktøj . For eksempel er det øvre Bollinger -bånd givet som Den mest almindeligt anvendte værdi for n er 2; der er omkring fem procents chance for at gå udenfor, forudsat en normal fordeling af afkast.

Finansielle tidsserier vides at være ikke-stationære serier, hvorimod de ovenstående statistiske beregninger, f.eks. Standardafvigelse, kun gælder for stationære serier. For at anvende de ovennævnte statistiske værktøjer på ikke-stationære serier, skal serien først omdannes til en stationær serie, hvilket muliggør brug af statistiske værktøjer, der nu har et gyldigt grundlag at arbejde fra.

Geometrisk fortolkning

For at få nogle geometriske indsigter og afklaring starter vi med en population på tre værdier, x 1 , x 2 , x 3 . Dette definerer et punkt P = ( x 1 , x 2 , x 3 ) i R 3 . Overvej linjen L = {( r , r , r ): rR }. Dette er den "vigtigste diagonal", der går gennem oprindelsen. Hvis vores tre givne værdier blev alle lige, så standardafvigelsen ville være nul og P ville ligge på L . Så det er ikke urimeligt at antage, at standardafvigelsen er relateret til afstanden fra P til L . Det er faktisk tilfældet. For at flytte ortogonalt fra L til punktet P begynder man ved punktet:

hvis koordinater er middelværdien af ​​de værdier, vi startede med.

Afledning af

er på derfor for nogle .

Linjen skal være ortogonal i forhold til vektoren fra til . Derfor:

En lille algebra viser, at afstanden mellem P og M (som er den samme som den ortogonale afstand mellem P og linjen L ) er lig med vektorens standardafvigelse ( x 1 , x 2 , x 3 ) ganget med kvadratrod af vektorens dimensioner (3 i dette tilfælde).

Chebyshevs ulighed

En observation er sjældent mere end et par standardafvigelser væk fra middelværdien. Chebyshevs ulighed sikrer, at mængden af ​​data inden for et antal standardafvigelser af middelværdien for alle distributioner, for hvilke standardafvigelsen er defineret, er mindst lige så meget som angivet i følgende tabel.

Afstand fra middelværdi Mindste befolkning
50%
2 σ 75%
3 σ 89%
4 σ 94%
5 σ 96%
6 σ 97%

Regler for normalt distribuerede data

Mørkeblå er en standardafvigelse på hver side af middelværdien. For normalfordelingen tegner dette sig for 68,27 procent af sættet; mens to standardafvigelser fra middelværdien (medium og mørkeblå) tegner sig for 95,45 procent; tre standardafvigelser (lys, medium og mørkeblå) tegner sig for 99,73 procent; og fire standardafvigelser tegner sig for 99,994 procent. De to punkter i kurven, der er en standardafvigelse fra middelværdien, er også bøjningspunkterne .

Den centrale grænsesætning siger, at fordelingen af ​​et gennemsnit af mange uafhængige, identisk fordelte tilfældige variabler har tendens til den berømte klokkeformede normalfordeling med en sandsynlighedstæthedsfunktion

hvor μ er den forventede værdi af de tilfældige variabler, σ er lig med deres fordelings standardafvigelse divideret med n 1/2 , og n er antallet af tilfældige variabler. Standardafvigelsen er derfor simpelthen en skaleringsvariabel, der justerer, hvor bred kurven vil være, selvom den også vises i normaliseringskonstanten .

Hvis en datafordeling er omtrent normal, er andelen af ​​dataværdier inden for z standardafvigelser af middelværdien defineret af:

hvor er fejlfunktionen . Andelen, der er mindre end eller lig med et tal, x , er givet ved den kumulative fordelingsfunktion :

.

Hvis en datafordeling er omtrent normal, er omkring 68 procent af dataværdierne inden for en standardafvigelse af middelværdien (matematisk μ  ±  σ , hvor μ er det aritmetiske middel), er omkring 95 procent inden for to standardafvigelser ( μ  ± 2 σ ), og omkring 99,7 procent ligger inden for tre standardafvigelser ( μ  ± 3 σ ). Dette er kendt som 68-95-99.7-reglen eller den empiriske regel .

For forskellige værdier af z er procentdelen af ​​værdier, der forventes at ligge i og uden for det symmetriske interval, CI = ( - ), som følger:

Procentdel inden for ( z )
z (Procentdel inden for)

Confidence
interval
Andel indeni Andel uden
Procent Procent Brøk
0,318 639 σ 25% 75% 3/4
0,674 490 σ 50 % 50 % 1 / 2
0,977 925 σ 66,6667% 33.3333% 1/3
0,994 458 σ 68% 32% 1 / 3.125
1 σ 68.268 9492 % 31.731 0508 % 1 / 3.151 4872
1.281 552 σ 80% 20% 1/5
1,644 854 σ 90% 10% 1/10
1.959 964 σ 95% 5% 1/20
2 σ 95.449 9736 % 4.550 0264 % 1 / 21.977 895
2.575 829 σ 99% 1% 1/100
3 σ 99.730 0204 % 0,269 9796 % 1 / 370.398
3.290 527 σ 99,9% 0,1% 1 / 1000
3.890 592 σ 99,99% 0,01% 1 / 10 000
4 σ 99.993 666 % 0,006 334 % 1 / 15 787
4.417 173 σ 99,999% 0,001% 1 / 100 000
4,5 σ 99.999 320 465 3751% 0,000 679 534 6249% 1 / 147 159 .5358
6.8 / 1 000 000
4.891 638 σ 99,9999 % 0,0001 % 1 / 1 000 000
5 σ 99.999 942 6697 % 0,000 057 3303 % 1 / 1 744 278
5.326 724 σ 99,999 99 % 0,000 01 % 1 / 10 000 000
5,730 729 σ 99,999 999 % 0,000 001 % 1 / 100 000 000
6 σ 99.999 999 8027 % 0,000 000 1973 % 1 / 506 797 346
6,109 410 σ 99,999 9999 % 0,000 0001 % 1 / 1 000 000 000
6.466 951 σ 99.999 999 99 % 0,000 000 01 % 1 / 10 000 000 000
6,806 502 σ 99.999 999 999 % 0,000 000 001 % 1 / 100 000 000 000
7 σ 99.999 999 999 7440% 0.000 000 000 256 % 1 / 390 682 215 445

Forholdet mellem standardafvigelse og middelværdi

Middelværdien og standardafvigelsen for et datasæt er beskrivende statistik, der normalt rapporteres sammen. I en vis forstand er standardafvigelsen et "naturligt" mål for statistisk spredning, hvis midten af ​​dataene måles omkring middelværdien. Dette skyldes, at standardafvigelsen fra middelværdien er mindre end fra noget andet punkt. Den præcise erklæring er følgende: Antag, at x 1 , ..., x n er reelle tal og definer funktionen:

Ved hjælp af beregning eller ved at udfylde firkanten er det muligt at vise, at σ ( r ) har et unikt minimum i middelværdien:

Variabilitet kan også måles ved variationskoefficienten , som er forholdet mellem standardafvigelsen og middelværdien. Det er et dimensionsløst tal .

Standardafvigelse af middelværdien

Ofte ønsker vi nogle oplysninger om præcisionen af ​​middelværdien, vi opnåede. Vi kan opnå dette ved at bestemme standardafvigelsen for det samplede middel. Under forudsætning af statistisk uafhængighed af værdierne i prøven er standardafvigelsen af ​​middelværdien relateret til standardafvigelsen af ​​fordelingen ved:

hvor N er antallet af observationer i prøven, der bruges til at estimere middelværdien. Dette kan let bevises med (se variansens grundlæggende egenskaber ):

(Statistisk uafhængighed antages.)

derfor

Resulterende i:

For at estimere standardafvigelsen for middelværdien er det nødvendigt at kende standardafvigelsen for hele befolkningen på forhånd. I de fleste applikationer er denne parameter imidlertid ukendt. For eksempel, hvis der udføres en serie på 10 målinger af en tidligere ukendt mængde i et laboratorium, er det muligt at beregne det resulterende prøve middel og prøve standardafvigelse, men det er umuligt at beregne standardafvigelsen af ​​middelværdien.

Hurtige beregningsmetoder

De følgende to formler kan repræsentere en løbende (gentagne gange opdateret) standardafvigelse. Et sæt med to effektsummer s 1 og s 2 beregnes over et sæt N -værdier på x , angivet som x 1 , ..., x N :

I betragtning af resultaterne af disse løbende summeringer kan værdierne N , s 1 , s 2 til enhver tid bruges til at beregne den aktuelle værdi for den løbende standardafvigelse:

Hvor N, som nævnt ovenfor, er størrelsen af ​​værdisættet (eller kan også betragtes som s 0 ).

Tilsvarende for prøve standardafvigelse,

I en computerimplementering, når de to s j- summer bliver store, skal vi overveje afrundingsfejl , aritmetisk overløb og aritmetisk underflow . Metoden herunder beregner metoden for løbende beløb med reducerede afrundingsfejl. Dette er en "one pass" -algoritme til beregning af varians af n -prøver uden behov for at gemme forudgående data under beregningen. Anvendelse af denne metode til en tidsserie vil resultere i successive værdier af standardafvigelse svarende til n datapunkter, når n vokser sig større med hver ny prøve, frem for en beregning af et glidende vindue med konstant bredde.

For k = 1, ..., n :

hvor A er middelværdien.

Bemærk: siden eller

Prøvevarians:

Befolkningsvariation:

Vægtet beregning

Når værdierne x i vægtes med ulige vægte w i , beregnes effektsummerne s 0 , s 1 , s 2 hver som:

Og standardafvigelsesligningerne forbliver uændrede. s 0 er nu summen af vægtene og ikke antallet af prøver N .

Den inkrementelle metode med reducerede afrundingsfejl kan også anvendes med en vis kompleksitet.

En løbende sum af vægte skal beregnes for hver k fra 1 til n :

og steder, hvor 1 / n bruges ovenfor, skal erstattes af w i / W n :

I den sidste division,

og

eller

hvor n er det samlede antal elementer, og n ' er antallet af elementer med ikke-nul vægt.

Ovenstående formler bliver lig med de enklere formler, der er angivet ovenfor, hvis vægte er lig med en.

Historie

Begrebet standardafvigelse blev først brugt skriftligt af Karl Pearson i 1894 efter hans brug af det i foredrag. Dette var en erstatning for tidligere alternative navne til den samme idé: for eksempel brugte Gauss middelværdi .

Højere dimensioner

I to dimensioner kan standardafvigelsen illustreres med standardafvigelseselipse, se Multivariat normalfordeling § Geometrisk fortolkning .

Standardafvigelseselipse (grøn) for en todimensionel normalfordeling.

Se også

Referencer

eksterne links