Spred plot - Scatter plot

Spred plot
Spred plot
Et af de syv grundlæggende kvalitetsværktøjer
Først beskrevet af	John Herschel
Formål	At identificere typen af relation (hvis nogen) mellem to kvantitative variabler

Ventetid mellem udbrud og udbrudets varighed for Old Faithful Geyser i Yellowstone National Park , Wyoming , USA. Dette diagram viser, at der generelt er to typer udbrud: kort-vent-kort-varighed og lang-vent-lang-varighed.

Et 3D -spredningsdiagram tillader visualisering af multivariate data. Dette spredningsdiagram tager flere skalarvariabler og bruger dem til forskellige akser i faserum. De forskellige variabler kombineres for at danne koordinater i faserummet, og de vises ved hjælp af glyfer og farves ved hjælp af en anden skalarvariabel.

Et spredningsdiagram (også kaldet et spredningsdiagram , et spredningsdiagram , et spredningsdiagram , et spredningsdiagram eller et spredningsdiagram ) er en plottype eller et matematisk diagram, der bruger kartesiske koordinater til at vise værdier for typisk to variabler for et datasæt. Hvis punkterne er kodet (farve/form/størrelse), kan der vises en ekstra variabel. Dataene vises som en samling punkter, der hver har værdien af en variabel, der bestemmer positionen på den vandrette akse, og værdien af den anden variabel, der bestemmer positionen på den lodrette akse .

Oversigt

Et spredningsdiagram kan bruges enten, når den ene kontinuerlige variabel er under kontrol af eksperimentatoren, og den anden afhænger af den, eller når begge kontinuerlige variabler er uafhængige. Hvis der findes en parameter , der systematisk øges og/eller reduceres af den anden, kaldes den kontrolparameteren eller den uafhængige variabel og er normalt afbildet langs den vandrette akse. Den målte eller afhængige variabel er sædvanligvis afbildet langs den lodrette akse. Hvis der ikke findes en afhængig variabel, kan hver af variablerne afbildes på hver akse, og et spredningsdiagram illustrerer kun graden af korrelation (ikke årsagssammenhæng ) mellem to variabler.

Et spredningsdiagram kan foreslå forskellige slags korrelationer mellem variabler med et bestemt konfidensinterval . For eksempel vil vægt og højde være på $y$ -aksen, og højde ville være på $x$ -aksen. Korrelationer kan være positive (stigende), negative (faldende) eller null (ukorrelerede). Hvis prikkemønsteret fra nederste venstre til øverste højre indikerer en positiv sammenhæng mellem de variabler, der undersøges. Hvis prikkemønsteret skråner fra øverste venstre til nederste højre, angiver det en negativ korrelation. En linje med bedst pasning (alternativt kaldet 'trendlinje') kan trækkes for at studere forholdet mellem variablerne. En ligning for korrelationen mellem variablerne kan bestemmes ved etablerede bedst passende procedurer. For en lineær korrelation er proceduren med bedst tilpasning kendt som lineær regression og vil med garanti generere en korrekt løsning på en endelig tid. Ingen universel best-fit-procedure garanterer en korrekt løsning til vilkårlige forhold. Et spredningsdiagram er også meget nyttigt, når vi ønsker at se, hvordan to sammenlignelige datasæt er enige om at vise ikke -lineære forhold mellem variabler. Evnen til at gøre dette kan forbedres ved at tilføje en glat linje som LOESS . Hvis dataene desuden er repræsenteret ved en blandingsmodel af simple relationer, vil disse forhold være visuelt tydelige som overlejrede mønstre.

Spredningsdiagrammet er et af de syv grundlæggende værktøjer til kvalitetskontrol .

Spredningsdiagrammer kan bygges i form af boble- , markør- eller/og stregdiagrammer .

Eksempel

For eksempel, for at vise en sammenhæng mellem en persons lungekapacitet, og hvor længe vedkommende kunne holde vejret, ville en forsker vælge en gruppe mennesker at studere og derefter måle hver sin lungekapacitet (første variabel) og hvor lang tid denne person kunne holde vejret (anden variabel). Forskeren vil derefter plotte dataene i et spredningsdiagram, tildele "lungekapacitet" til den vandrette akse og "tiden holder vejret" til den lodrette akse.

En person med en lungekapacitet på 400 cl, der holdt vejret for21,7 s ville blive repræsenteret af en enkelt prik på spredningsdiagrammet ved punktet (400, 21,7) i de kartesiske koordinater . Spredningsdiagrammet for alle mennesker i undersøgelsen ville gøre det muligt for forskeren at opnå en visuel sammenligning af de to variabler i datasættet og vil hjælpe med at bestemme, hvilken slags relation der kan være mellem de to variabler.

Spred plot -matricer

For et sæt datavariabler (dimensioner) X ₁ , X ₂ , ..., X _k viser scatterplotmatrixen alle de parvise spredningsdiagrammer af variablerne på en enkelt visning med flere scatterplots i et matrixformat. For $k$ -variabler vil scatterplotmatrixen indeholde $k$ rækker og $k$ kolonner. Et plot placeret i skæringspunktet mellem række og $j$ th kolonne er et plot af variabler X _i versus X _j . Det betyder, at hver række og kolonne er en dimension, og hver celle tegner et spredningsdiagram med to dimensioner.

En generaliseret scatterplotmatrix tilbyder en række displays af parrede kombinationer af kategoriske og kvantitative variabler. Et mosaikplot , fluktuationsdiagram eller facetteret søjlediagram kan bruges til at vise to kategoriske variabler. Andre plots bruges til en kategorisk og en kvantitativ variabel.

Visualisering af 3D -data sammen med korrespondent -scatterplot -matrixen

Eksempel på spredningsdiagram

Hobbs Pearson -forsøg

Se også

Referencer

eksterne links

Medier relateret til Scatterplots på Wikimedia Commons
Hvad er en scatterplot?
Korrelation scatter-plot matrix for ordnede-kategoriske data -Forklaring og R-kode
Densitetsspredningsplot til store datasæt (hundredvis af millioner af punkter)

Languages

In other projects