Ordinære data - Ordinal data

Ordinære data er en kategorisk, statistisk datatype, hvor variablerne har naturlige, ordnede kategorier, og afstandene mellem kategorierne ikke kendes. Disse data findes på en ordinær skala , et af fire måleniveauer beskrevet af SS Stevens i 1946. Ordinalskalaen adskilles fra den nominelle skala ved at have en rangering . Det adskiller sig også fra intervalskalaen og forholdsskalaen ved ikke at have kategoribredder, der repræsenterer lige store trin af den underliggende attribut.

Eksempler på ordinære data

Et velkendt eksempel på ordinære data er Likert-skalaen . Et eksempel på en Likert -skala er:

Synes godt om	Ligesom lidt	Neutral	Kan ikke lide noget	Kan ikke lide
1	2	3	4	5

Eksempler på ordinære data findes ofte i spørgeskemaer: for eksempel undersøgelsesspørgsmålet "Er dit generelle helbred dårligt, rimeligt, godt eller fremragende?" kan have disse svar kodet hhv. 1, 2, 3 og 4. Nogle gange er data på en intervalskala eller forholdsskala grupperet på en ordinær skala: for eksempel personer, hvis indkomst er kendt, kan grupperes i indkomstkategorierne $ 0– $ 19.999 , $ 20.000– $ 39.999, $ 40.000– $ 59.999, ..., som derefter kan kodes som 1, 2, 3, 4, .... Andre eksempler på ordinære data omfatter socioøkonomisk status, militære rækker og bogstavkarakterer for kurser.

Måder at analysere ordinære data på

Ordinal dataanalyse kræver et andet sæt analyser end andre kvalitative variabler. Disse metoder inkorporerer den naturlige rækkefølge af variablerne for at undgå tab af strøm. Det frarådes at beregne middelværdien af en stikprøve af ordinære data; andre mål for central tendens, herunder medianen eller tilstanden, er generelt mere passende.

Generel

Stevens (1946) hævdede, at fordi antagelsen om lige afstand mellem kategorier ikke holder for ordinære data, var det ikke hensigtsmæssigt at anvende midler og standardafvigelser til beskrivelse af ordinære fordelinger og af inferentiel statistik baseret på midler og standardafvigelser. I stedet bør positionsmålinger som median og percentiler ud over beskrivende statistik, der er passende for nominelle data (antal tilfælde, tilstand, beredskabskorrelation), anvendes. Ikke -parametriske metoder er blevet foreslået som de mest hensigtsmæssige procedurer for inferentiel statistik, der involverer ordinære data, især dem, der er udviklet til analyse af rangerede målinger. Imidlertid kan brug af parametriske statistikker til ordinære data være tilladt med visse forbehold for at drage fordel af det større udvalg af tilgængelige statistiske procedurer.

Univariat statistik

I stedet for midler og standardafvigelser omfatter univariate statistikker, der er passende for ordinære data, medianen, andre percentiler (såsom kvartiler og deciler) og kvartilafvigelsen. One-sample tests for Ordinaldata omfatter Kolmogorov-Smirnov one-sample test , den ene-prøven kørsler test , og ændringen-punkt test.

Bivariat statistik

I stedet for at teste forskelle i midler med t- test kan forskelle i distributioner af ordinære data fra to uafhængige prøver testes med Mann-Whitney , kørsler , Smirnov og signerede ranks- test. Test for to beslægtede eller matchede prøver omfatter skiltest og Wilcoxon -signeret ranks -test . Variansanalyse med rækker og Jonckheere -testen for bestilte alternativer kan udføres med ordinære data i stedet for uafhængige prøver ANOVA . Tests for mere end to relaterede prøver omfatter Friedman tovejs variansanalyse efter rang og sidetesten for bestilte alternativer . Korrelationsforanstaltninger, der er passende for to ordinalskalerede variabler, omfatter Kendalls tau , gamma , r _s og d _yx /d _xy .

Regressionsprogrammer

Ordinære data kan betragtes som en kvantitativ variabel. I logistisk regression , ligningen

{\ displaystyle logit [P (Y = 1)] = \ alpha +\ beta _ {1} c +\ beta _ {2} x}

er modellen, og c tager de tildelte niveauer af den kategoriske skala. I regressionsanalyse kan resultater ( afhængige variabler ), der er ordinære variabler, forudsiges ved hjælp af en variant af ordinal regression , såsom ordnet logit eller ordnet probit .

Ved multiple regressions-/korrelationsanalyser kan ordinære data indkvarteres ved hjælp af effektpolynomer og gennem normalisering af scores og rækker.

Lineære tendenser

Lineære tendenser bruges også til at finde associationer mellem ordinære data og andre kategoriske variabler, normalt i en beredskabstabel . En korrelation r findes mellem variablerne, hvor r ligger mellem -1 og 1. For at teste tendensen, en teststatistik:

{\ displaystyle M^{2} = (n-1) r^{2}}

bruges, hvor n er stikprøvestørrelsen.

R kan findes ved at lade være rækkescorer og kolonnescores. Lad være middelværdien af rækken scorer mens . Så er sandsynligheden for den marginale række og sandsynligheden for den marginale kolonne. R beregnes af: ${\ displaystyle u_ {1} \ leq u_ {2} \ leq ... \ leq u_ {I}}$ ${\ displaystyle v_ {1} \ leq v_ {2} \ leq ... \ leq v_ {I}}$ ${\ displaystyle {\ bar {u}} \ = \ sum _ {i} u_ {i} p_ {i+}}$ ${\ displaystyle {\ bar {v}} \ = \ sum _ {j} v_ {j} p_ {j+}.}$ ${\ displaystyle p_ {i+}}$ ${\ displaystyle p _ {+j}}$

{\ displaystyle r = {\ frac {\ sum _ {i, j} \ left (u_ {i}-{\ bar {u}} \ \ right) \ left (v_ {j}-{\ bar {v} } \ \ right) p_ {ij}} {\ sqrt {\ left \ lbrack \ sum _ {i} (u_ {i}-{\ bar {u}} \ \ right)^{2} p_ {i+} \ rbrack \ lbrack \ sum _ {j} (v_ {j}-{\ bar {v}} \)^{2} p _ {+j} \ rbrack}}}}}

Klassificeringsmetoder

Der er også udviklet klassificeringsmetoder til ordinære data. Dataene er opdelt i forskellige kategorier, så hver observation ligner andre. Spredning måles og minimeres i hver gruppe for at maksimere klassificeringsresultater. Spredningsfunktionen bruges i informationsteori .

Statistiske modeller for ordinære data

Der er flere forskellige modeller, der kan bruges til at beskrive strukturen af ordinære data. Fire hovedklasser af modeller er beskrevet nedenfor, hver defineret for en tilfældig variabel , med niveauer indekseret af . ${\ displaystyle Y}$ ${\ displaystyle k = 1,2, \ dots, q}$

Bemærk, at i modeldefinitionerne nedenfor er værdierne for og ikke de samme for alle modellerne for det samme datasæt, men notationen bruges til at sammenligne strukturen af de forskellige modeller. ${\ displaystyle \ mu _ {k}}$ ${\ displaystyle \ mathbf {\ beta}}$

Proportional odds model

Den mest almindeligt anvendte model for ordinære data er proportionaloddsmodellen, defineret af hvor parametrene beskriver basisfordelingen af ordinaldataene, er kovariaterne og er koefficienterne, der beskriver virkningerne af kovariaterne. ${\ displaystyle \ log \ left [{\ frac {\ Pr (Y \ leq k)} {Pr (Y> k)}} \ right] = \ log \ left [{\ frac {\ Pr (Y \ leq k )} {1- \ Pr (Y \ leq k)}} \ right] = \ mu _ {k}+\ mathbf {\ beta} ^{T} \ mathbf {x}}$ ${\ displaystyle \ mu _ {k}}$ ${\ displaystyle \ mathbf {x}}$ ${\ displaystyle \ mathbf {\ beta}}$

Denne model kan generaliseres ved at definere modellen ved hjælp af i stedet for , og dette ville gøre modellen velegnet til nominelle data (hvor kategorierne ikke har nogen naturlig rækkefølge) såvel som ordinære data. Denne generalisering kan imidlertid gøre det meget vanskeligere at tilpasse modellen til dataene. ${\ displaystyle \ mu _ {k}+\ mathbf {\ beta} _ {k}^{T} \ mathbf {x}}$ ${\ displaystyle \ mu _ {k}+\ mathbf {\ beta} ^{T} \ mathbf {x}}$

Baseline kategori logit model

Baseline -kategorimodellen er defineret af ${\ displaystyle \ log \ left [{\ frac {\ Pr (Y = k)} {\ Pr (Y = 1)}} \ right] = \ mu _ {k}+\ mathbf {\ beta} _ {k }^{T} \ mathbf {x}}$

Denne model pålægger ikke en ordning på kategorierne og kan derfor anvendes på nominelle data såvel som ordinære data.

Bestilt stereotype model

Den bestilte stereotypemodel er defineret af, hvor score -parametrene er begrænset, således at . ${\ displaystyle \ log \ left [{\ frac {\ Pr (Y = k)} {\ Pr (Y = 1)}} \ right] = \ mu _ {k}+\ phi _ {k} \ mathbf { \ beta} ^{T} \ mathbf {x}}$ ${\ displaystyle 0 = \ phi _ {1} \ leq \ phi _ {2} \ leq \ dots \ leq \ phi _ {q} = 1}$

Dette er en mere sparsom og mere specialiseret model end logit -modellen i grundlinjekategorien: kan betragtes som ligner . ${\ displaystyle \ phi _ {k} \ mathbf {\ beta}}$ ${\ displaystyle \ mathbf {\ beta} _ {k}}$

Den ikke-ordnede stereotypemodel har samme form som den ordnede stereotypemodel, men uden den pålagt pålæg . Denne model kan anvendes på nominelle data. ${\ displaystyle \ phi _ {k}}$

Bemærk, at de tilpassede scores,, angiver, hvor let det er at skelne mellem de forskellige niveauer af . Hvis det så indikerer, at det aktuelle datasæt for kovariaterne ikke giver megen information for at skelne mellem niveauer og , men det betyder ikke nødvendigvis, at de faktiske værdier og er langt fra hinanden. Og hvis værdierne for kovariaterne ændres, så scorer de tilpassede data for de nye data og kan være langt fra hinanden. ${\ displaystyle {\ hat {\ phi}} _ {k}}$ ${\ displaystyle Y}$ ${\ displaystyle {\ hat {\ phi}} _ {k} \ approx {\ hat {\ phi}} _ {k-1}}$ ${\ displaystyle \ mathbf {x}}$ ${\ displaystyle k}$ ${\ displaystyle k-1}$ ${\ displaystyle k}$ ${\ displaystyle k-1}$ ${\ displaystyle {\ hat {\ phi}} _ {k}}$ ${\ displaystyle {\ hat {\ phi}} _ {k-1}}$

Tilstødende kategorier logit model

Den tilstødende kategorimodel er defineret af, selvom den mest almindelige form, der i Agresti (2010) omtales som "proportionel oddsform", er defineret af ${\ displaystyle \ log \ left [{\ frac {\ Pr (Y = k)} {\ Pr (Y = k+1)}} \ right] = \ mu _ {k}+\ mathbf {\ beta} _ {k}^{T} \ mathbf {x}}$ ${\ displaystyle \ log \ left [{\ frac {\ Pr (Y = k)} {\ Pr (Y = k+1)}} \ right] = \ mu _ {k}+\ mathbf {\ beta} ^ {T} \ mathbf {x}}$

Denne model kan kun anvendes på ordinære data, da modellering af sandsynlighederne for skift fra en kategori til den næste kategori indebærer, at der findes en rækkefølge af disse kategorier.

De tilstødende kategorier logit -modellen kan betragtes som et specielt tilfælde af logit -modellen med baseline -kategorien, hvor . De tilstødende kategorier logit -modellen kan også betragtes som et specielt tilfælde af den ordnede stereotypemodel, hvor , dvs. afstandene mellem de er defineret på forhånd, frem for at blive estimeret ud fra dataene. ${\ displaystyle \ mathbf {\ beta} _ {k} = \ mathbf {\ beta} (k-1)}$ ${\ displaystyle \ phi _ {k} \ propto k-1}$ ${\ displaystyle \ phi _ {k}}$

Sammenligninger mellem modellerne

Proportionaloddsmodellen har en meget anden struktur end de tre andre modeller, og også en anden underliggende betydning. Bemærk, at størrelsen af referencekategorien i proportionaloddsmodellen varierer med , siden sammenlignes med , hvorimod i de andre modeller størrelsen på referencekategorien forbliver fast, sammenlignet med eller . ${\ displaystyle k}$ ${\ displaystyle Y \ leq k}$ ${\ displaystyle Y> k}$ ${\ displaystyle Y = k}$ ${\ displaystyle Y = 1}$ ${\ displaystyle Y = k+1}$

Forskellige linkfunktioner

Der er varianter af alle modellerne, der bruger forskellige linkfunktioner, f.eks. Probit-linket eller det komplementære log-log-link.

Visualisering og visning

Ordinære data kan visualiseres på flere forskellige måder. Almindelige visualiseringer er søjlediagrammet eller et cirkeldiagram . Tabeller kan også være nyttige til visning af ordinære data og frekvenser. Mosaic plots kan bruges til at vise forholdet mellem en ordinal variabel og en nominel eller ordinal variabel. Et bumpdiagram - et stregdiagram, der viser elementernes relative placering fra et tidspunkt til det næste - er også passende for ordinære data.

Farve eller gråtone trindeling kan bruges til at repræsentere det bestilte karakter af dataene. En enkeltretningsskala, såsom indkomstområder, kan repræsenteres med et søjlediagram, hvor stigende (eller faldende) mætning eller lethed af en enkelt farve indikerer højere (eller lavere) indkomst. Ordinær fordeling af en variabel målt på en toretningsskala, f.eks. En Likert-skala, kunne også illustreres med farve i et stablet søjlediagram. En neutral farve (hvid eller grå) kan bruges til det midterste (nul eller neutrale) punkt med kontrastfarver, der bruges i de modsatte retninger fra midtpunktet, hvor stigende mætning eller mørke i farverne kan indikere kategorier i stigende afstand fra midtpunktet. Choropleth -kort bruger også farve eller gråtoner til at vise ordinære data.

Eksempel bar udtalelse om forsvarsudgifter.

Eksempel støder på en udtalelse om politiske partiers forsvarsudgifter.

Eksempel mosaikopfattelse af politiske partiers forsvarsudgifter.

Eksempel på en stavet udtalelse om politiske partiers forsvarsudgifter.

Ansøgninger

Brugen af ordinære data kan findes på de fleste forskningsområder, hvor kategoriske data genereres. Indstillinger, hvor ordinære data ofte indsamles, omfatter social- og adfærdsvidenskab og regerings- og forretningsindstillinger, hvor målinger indsamles fra personer ved observation, test eller spørgeskemaer . Nogle fælles sammenhænge for indsamling af ordinære data omfatter undersøgelsesforskning ; og intelligens , evner og personlighedstest .

Beregning af 'effektstørrelse' (Cliff's Delta d ) ved hjælp af ordinære data er blevet anbefalet som et mål for statistisk dominans. {Cliff, N. (1993). Dominansstatistik: Ordinære analyser for at besvare ordinære spørgsmål. Psychological Bulletin, 114, 494-509.}

Se også

Liste over analyser af kategoriske data

Referencer

Yderligere læsning

Agresti, Alan (2010). Analyse af ordinære kategoriske data (2. udgave). Hoboken, New Jersey: Wiley. ISBN 978-0470082898.

Languages

In other projects