Prediktiv analyse - Predictive analytics

Prediktiv analyse omfatter en række forskellige statistiske teknikker fra datamining , forudsigelig modellering og maskinlæring, der analyserer aktuelle og historiske fakta for at forudsige fremtidige eller på anden måde ukendte begivenheder.

I erhvervslivet udnytter forudsigelsesmodeller mønstre i historiske og transaktionsdata til at identificere risici og muligheder. Modeller indfanger relationer mellem mange faktorer for at muliggøre vurdering af risiko eller potentiale forbundet med et bestemt sæt betingelser, der styrer beslutningstagning for kandidattransaktioner.

Den definerende funktionelle effekt af disse tekniske tilgange er, at prædiktiv analyse giver en forudsigelig score (sandsynlighed) for hver enkelt person (kunde, medarbejder, sundhedspatient, produkt -SKU, køretøj, komponent, maskine eller anden organisatorisk enhed) for at bestemme, informere , eller påvirke organisatoriske processer, der vedrører et stort antal enkeltpersoner, f.eks. inden for markedsføring, kreditrisikovurdering, afsløring af svig, fremstilling, sundhedspleje og offentlige operationer, herunder retshåndhævelse.

Prediktiv analyse bruges inden for aktuarmæssig videnskab , marketing , forretningsstyring , sport/ fantasy sport , forsikring , politi , telekommunikation , detail , rejser , mobilitet , sundhedspleje , børnebeskyttelse , lægemidler , kapacitetsplanlægning , sociale netværk og andre områder.

En af de mest kendte applikationer er kredit scoring , som bruges i hele virksomhedsledelse . Scoringsmodeller behandler en kundes kredithistorik , låneansøgning , kundedata osv. For at rangordne enkeltpersoner efter deres sandsynlighed for at foretage fremtidige kreditbetalinger til tiden.

Definition

Prediktiv analyse er et statistikområde, der omhandler udtrækning af oplysninger fra data og brug af dem til at forudsige tendenser og adfærdsmønstre. Forbedringen af ​​forudsigelig webanalyse beregner statistiske sandsynligheder for fremtidige begivenheder online. Prediktive analytiske statistiske teknikker omfatter datamodellering , maskinlæring , AI , deep learning -algoritmer og data mining . Ofte er den ukendte interessehændelse i fremtiden, men forudsigende analyser kan anvendes på enhver form for ukendt, uanset om det er i fortiden, nutiden eller fremtiden. For eksempel at identificere mistænkte efter en forbrydelse er begået, eller svindel med kreditkort, når det sker. Kernen i prædiktiv analyse er afhængig af at fange relationer mellem forklarende variabler og de forudsagte variabler fra tidligere forekomster og udnytte dem til at forudsige det ukendte resultat. Det er imidlertid vigtigt at bemærke, at nøjagtigheden og anvendeligheden af ​​resultaterne vil i høj grad afhænge af dataanalyseniveau og forudsætningernes kvalitet.

Prediktiv analyse defineres ofte som forudsigelse på et mere detaljeret granularitetsniveau, det vil sige at generere forudsigelige scoringer (sandsynligheder) for hvert enkelt organisatorisk element. Dette adskiller det fra prognoser . For eksempel "Predictive analytics - Teknologi, der lærer af erfaring (data) at forudsige individers fremtidige adfærd for at få bedre beslutninger." I fremtidige industrisystemer vil værdien af ​​forudsigelig analyse være at forudsige og forhindre potentielle problemer for at opnå nedbrud nær nul og yderligere integreres i forskriftsmæssig analyse til beslutningsoptimering.

Typer

Generelt bruges udtrykket forudsigende analyse til at betyde forudsigelig modellering , "scoring" af data med forudsigelsesmodeller og prognoser . Imidlertid bruger folk i stigende grad udtrykket til at henvise til beslægtede analytiske discipliner, såsom beskrivende modellering og beslutningsmodellering eller optimering. Disse discipliner involverer også streng dataanalyse og bruges i vid udstrækning i erhvervslivet til segmentering og beslutningstagning, men har forskellige formål, og de statistiske teknikker, der ligger til grund for dem, varierer.

Forudsigelige modeller

Prediktiv modellering bruger forudsigelsesmodeller til at analysere forholdet mellem en enheds specifikke ydeevne i en prøve og en eller flere kendte attributter eller funktioner i denne enhed. Formålet med modellen er at vurdere sandsynligheden for, at en lignende enhed i en anden prøve vil udvise den specifikke ydelse. Denne kategori omfatter modeller på mange områder, f.eks. Markedsføring, hvor de søger subtile datamønstre for at besvare spørgsmål om kunders ydeevne eller modeller for afsløring af svig. Prediktive modeller udfører ofte beregninger under live -transaktioner, for eksempel for at evaluere en given kundes eller transaktions risiko eller mulighed for at styre en beslutning. Med fremskridt inden for computerhastighed er individuelle agentmodelleringssystemer blevet i stand til at simulere menneskelig adfærd eller reaktioner på givne stimuli eller scenarier.

De tilgængelige prøveenheder med kendte attributter og kendte præstationer omtales som "træningsprøven". Enhederne i andre prøver, med kendte attributter, men ukendte præstationer, omtales som "out of [training] sample" -enheder. Antallet af eksemplarer har ikke nødvendigvis et kronologisk forhold til træningsprøveenhederne. Eksempelvis kan træningsprøven bestå af litterære attributter til skrifter fra victorianske forfattere, med kendt tilskrivning, og enheden uden for prøven kan være nyligt fundet skrift med ukendt forfatterskab; en forudsigelsesmodel kan hjælpe med at tilskrive et værk til en kendt forfatter. Et andet eksempel er givet ved analyse af blodsprøjt i simulerede gerningssteder, hvor enheden uden for prøve er det faktiske blodsprøjtemønster fra et gerningssted. Enheden uden for prøve kan være fra samme tid som træningsenhederne, fra en tidligere tid eller fra et fremtidigt tidspunkt.

Beskrivende modeller

Beskrivende modeller kvantificerer relationer i data på en måde, der ofte bruges til at klassificere kunder eller kundeemner i grupper. I modsætning til forudsigelsesmodeller, der fokuserer på at forudsige en enkelt kundeadfærd (f.eks. Kreditrisiko), identificerer beskrivende modeller mange forskellige relationer mellem kunder eller produkter. Beskrivende modeller rangerer ikke kunder efter deres sandsynlighed for at foretage en bestemt handling, som forudsigelsesmodeller gør. I stedet kan beskrivende modeller f.eks. Bruges til at kategorisere kunder efter deres produktpræferencer og livscyklus. Beskrivende modelleringsværktøjer kan bruges til at udvikle yderligere modeller, der kan simulere et stort antal individualiserede agenter og lave forudsigelser.

Beslutningsmodeller

Beslutningsmodeller beskriver forholdet mellem alle elementer i en beslutning - de kendte data (herunder resultater af forudsigelsesmodeller), beslutningen og prognosens resultater af beslutningen - for at forudsige resultaterne af beslutninger, der involverer mange variabler. Disse modeller kan bruges til optimering, maksimere visse resultater, mens andre minimeres. Beslutningsmodeller bruges generelt til at udvikle beslutningslogik eller et sæt forretningsregler, der frembringer den ønskede handling for hver kunde eller omstændighed.

Ansøgninger

Selvom forudsigelsesanalyse kan bruges i mange applikationer, skitserer vi et par eksempler, hvor forudsigende analyser har vist positiv indvirkning i de seneste år.

Forretning

Analytisk kundeforholdsstyring (CRM) er en hyppig kommerciel anvendelse af forudsigelig analyse. Metoder til forudsigende analyse anvendes på kundedata for at konstruere et helhedsorienteret syn på kunden. CRM bruger forudsigende analyse i applikationer til marketingkampagner, salg og kundeservice. Analytisk CRM kan anvendes i hele kundernes livscyklus ( erhvervelse , relationsvækst , fastholdelse og win-back).

Ofte indsamler og vedligeholder virksomhedsorganisationer rigelige data, såsom kundeoptegnelser eller salgstransaktioner. I disse tilfælde kan prediktiv analyse hjælpe med at analysere kunders forbrug, brug og anden adfærd, hvilket fører til effektivt krydssalg eller salg af yderligere produkter til nuværende kunder.

Korrekt anvendelse af forudsigende analyser kan føre til mere proaktive og effektive opbevaringsstrategier. Ved en hyppig undersøgelse af en kundes tidligere servicebrug, serviceydelse, forbrug og andre adfærdsmønstre kan forudsigelsesmodeller bestemme sandsynligheden for, at en kunde afslutter service engang snart. En intervention med tilbud med høj opfattet værdi kan øge chancen for at konvertere eller fastholde kunden. Prediktiv analyse kan også forudsige stille nedslidning, en kundes adfærd for langsomt men støt at reducere brugen.

Børnebeskyttelse

Nogle børneværnsagenturer er begyndt at bruge forudsigende analyser til at markere højrisikosager. For eksempel i Hillsborough County, Florida , har børns velfærdsagenturs brug af et forudsigeligt modelleringsværktøj forhindret misbrugsrelaterede børnedødsfald i målpopulationen.

Kliniske beslutningsstøttesystemer

Prediktiv analyse har fundet anvendelse i sundhedsvæsenet primært til at bestemme, hvilke patienter der er i risiko for at udvikle tilstande som diabetes, astma eller hjertesygdomme. Derudover indeholder sofistikerede kliniske beslutningsstøttesystemer forudsigelsesanalyse for at understøtte medicinsk beslutningstagning.

En undersøgelse fra 2016 af neurodegenerative lidelser giver et stærkt eksempel på en CDS -platform til at diagnosticere, spore, forudsige og overvåge udviklingen af Parkinsons sygdom .

Forudsigelse af resultaterne af juridiske beslutninger

Forudsigelsen af ​​resultatet af juridiske beslutninger kan foretages af AI -programmer. Disse programmer kan bruges som hjælpemidler til erhverv i denne branche.

Forudsigelse af portefølje, produkt eller økonomi

Ofte er analysens fokus ikke forbrugeren, men produktet, porteføljen, firmaet, industrien eller endda økonomien. For eksempel kan en forhandler være interesseret i at forudsige butiksniveau efterspørgsel til lagerstyringsformål. Eller Federal Reserve Board kan være interesseret i at forudsige arbejdsløsheden i det næste år. Disse typer problemer kan løses ved forudsigende analyse ved hjælp af tidsserieteknikker (se nedenfor). De kan også adresseres via maskinindlæringsmetoder, der omdanner de originale tidsserier til et funktionsvektorrum, hvor læringsalgoritmen finder mønstre, der har forudsigelseskraft.

Undertegning

Mange virksomheder skal tage højde for risikoeksponering på grund af deres forskellige tjenester og bestemme de omkostninger, der er nødvendige for at dække risikoen. Predictive analytics kan hjælpe med at tegne disse mængder ved at forudsige chancerne for sygdom, misligholdelse , konkurs osv. Predictive analytics kan strømline processen med at erhverve kunder ved at forudsige en kundes fremtidige risikeadfærd ved hjælp af data på applikationsniveau. Prædiktiv analyse i form af kreditresultater har reduceret den tid, det tager for lånegodkendelser, især på realkreditmarkedet. Korrekt forudsigende analyse kan føre til korrekte prisbeslutninger, som kan hjælpe med at afbøde fremtidig risiko for misligholdelse.

Teknologi og big data -påvirkninger

Big data er en samling af datasæt, der er så store og komplekse, at de bliver akavede at arbejde med ved hjælp af traditionelle databasestyringsværktøjer . Volumen, variation og hastighed af big data har introduceret udfordringer over hele linjen for registrering, lagring, søgning, deling, analyse og visualisering. Eksempler på store datakilder omfatter weblogs , RFID , sensordata , sociale netværk , internetsøgningsindeksering, opkaldsdetaljer, militær overvågning og komplekse data inden for astronomiske, biogeokemiske, genomiske og atmosfæriske videnskaber. Big Data er kernen i de mest forudsigelige analytiske tjenester, der tilbydes af it -organisationer. Takket være teknologiske fremskridt inden for computerhardware-hurtigere CPU'er, billigere hukommelse og MPP- arkitekturer-og nye teknologier som Hadoop , MapReduce og in-database og tekstanalyse til behandling af store data, er det nu muligt at indsamle, analysere og mine massive mængder af strukturerede og ustrukturerede data til ny indsigt. Det er også muligt at køre forudsigelsesalgoritmer på streaming af data. I dag er udforskning af big data og brug af forudsigelig analyse inden for rækkevidde af flere organisationer end nogensinde før, og nye metoder, der er i stand til at håndtere sådanne datasæt, foreslås.

Analytiske teknikker

De tilgange og teknikker, der bruges til at udføre forudsigende analyser, kan stort set grupperes i regressionsteknikker og maskinlæringsteknikker.

Regressionsteknikker

Regressionsmodeller er grundpillen i forudsigelig analyse. Fokus ligger på at etablere en matematisk ligning som en model til at repræsentere interaktionerne mellem de forskellige variabler, der er i betragtning. Afhængigt af situationen er der en lang række modeller, der kan anvendes, mens der udføres forudsigelig analyse. Nogle af dem diskuteres kort nedenfor.

Lineær regressionsmodel

Den lineære regressionsmodel forudsiger responsvariablen som en lineær funktion af parametrene med ukendte koefficienter. Disse parametre justeres, så et mål for pasform optimeres. Meget af indsatsen i modeltilpasning er fokuseret på at minimere størrelsen af ​​den resterende samt sikre, at den er tilfældigt fordelt i forhold til modelforudsigelserne.

Målet med regression er at vælge parametrene for modellen for at minimere summen af ​​de kvadrerede rester. Dette kaldes almindelig mindst kvadratestimering (OLS).

Diskrete udvalgsmodeller

Multiple regression (ovenfor) bruges generelt, når responsvariablen er kontinuerlig og har et ubegrænset område. Ofte er responsvariablen muligvis ikke kontinuerlig, men snarere diskret. Selvom det matematisk er muligt at anvende multiple regression på diskrete ordnede afhængige variabler, holder nogle af antagelserne bag teorien om multipel lineær regression ikke længere, og der er andre teknikker såsom diskrete valgmodeller, der er bedre egnet til denne type analyse. Hvis den afhængige variabel er diskret, er nogle af disse overlegne metoder logistisk regression , multinomial logit og probit -modeller. Logistisk regressions- og probit -modeller bruges, når den afhængige variabel er binær .

Logistisk regression

I en klassifikationsindstilling kan tildeling af udfaldssandsynligheder til observationer opnås ved brug af en logistisk model (også kaldet en logisk model), som omdanner oplysninger om den binære afhængige variabel til en ubegrænset kontinuerlig variabel og estimerer en almindelig multivariat model.

Den Wald og sandsynligheden-kvotientkriteriet til at teste den statistiske signifikans af hver koefficient b i modellen (analoge med t-tests anvendt i OLS regression, se ovenfor). En test, der vurderer, om en klassificeringsmodel er god til at passe, er "korrekt forudsagt procent".

Probit regression

Probit -modeller tilbyder et alternativ til logistisk regression til modellering af kategorisk afhængige variabler.

Multinomial logistisk regression

En udvidelse af den binære logit -model til tilfælde, hvor den afhængige variabel har mere end 2 kategorier, er multinomial logit -modellen . I sådanne tilfælde giver kollaps af dataene i to kategorier muligvis ikke god mening eller kan føre til tab af dataens rigdom. Multinomial logit -modellen er den passende teknik i disse tilfælde, især når de afhængige variabelkategorier ikke er ordnet (for eksempler farver som rød, blå, grøn). Nogle forfattere har udvidet multinomial regression til at omfatte funktionsvalg/betydningsmetoder såsom tilfældig multinomial logit .

Logit versus probit

De to regressioner har en tendens til at opføre sig ens, bortset fra at den logistiske fordeling har en tendens til at være lidt fladere. Koefficienterne opnået fra logit- og probit -modellen er normalt tæt sammen. , Det er dog odds ratio er lettere at fortolke i logit-modellen.

Praktiske grunde til at vælge probit -modellen frem for den logistiske model kan omfatte:

  • Der er en stærk tro på, at den underliggende fordeling er normal
  • Den faktiske begivenhed er ikke et binært resultat ( f.eks . Konkursstatus), men en andel ( f.eks . Andel af befolkningen på forskellige gældsniveauer).

Tidsseriemodeller

Tidsseriemodeller bruges til at forudsige eller forudsige variablers fremtidige adfærd. Disse modeller forklarer det faktum, at datapunkter taget over tid kan have en intern struktur (f.eks. Autokorrelation, trend eller sæsonvariation), der skal tages højde for. Som følge heraf kan standard regressionsteknikker ikke anvendes på tidsseriedata, og metodologi er blevet udviklet til at dekomponere trendens, sæsonmæssige og cykliske komponent i serien.

Tidsseriemodeller estimerer forskelsligninger, der indeholder stokastiske komponenter. To almindeligt anvendte former for disse modeller er autoregressive modeller (AR) og glidende gennemsnit (MA) -modeller. De Box-Jenkins metode kombinerer AR og MA-modeller til at producere den ARMA (autoregressivt glidende gennemsnit) model, som er hjørnestenen i stationære tidsserier analyse. ARIMA (autoregressive integrerede glidende gennemsnitsmodeller) bruges derimod til at beskrive ikke-stationære tidsserier.

I de senere år er tidsseriemodeller blevet mere sofistikerede og forsøger at modellere betinget heteroskedasticitet. Sådanne modeller inkluderer ARCH -modellen ( autoregressiv betinget heteroskedasticitet ) og GARCH -modellen (generaliseret autoregressiv betinget heteroskedasticitet), begge ofte brugt til økonomiske tidsserier.

Overlevelses- eller varighedsanalyse

Overlevelsesanalyse er et andet navn for time-to-event-analyse. Disse teknikker blev primært udviklet inden for de medicinske og biologiske videnskaber, men de er også meget udbredt inden for samfundsvidenskab som økonomi og teknik.

Censurering og ikke-normalitet, som er karakteristiske for overlevelsesdata, skaber vanskeligheder, når man forsøger at analysere dataene ved hjælp af konventionelle statistiske modeller, såsom multipel lineær regression . Den normale fordeling , er en symmetrisk fordeling, tager såvel positive som negative værdier, men varigheden af sin natur ikke kan være negativ, og derfor normalitet kan ikke antages når det drejer sig varighed / overlevelsesdata.

Varighedsmodeller kan være parametriske, ikke-parametriske eller semi-parametriske. Nogle af de almindeligt anvendte modeller er Kaplan-Meier og Cox proportional hazard model (ikke parametrisk).

Klassificering og regressionstræer (CART)

Klassificering og regressionstræer (CART) er en ikke-parametrisk beslutningstræindlæringsteknik , der producerer enten klassifikations- eller regressionstræer, afhængigt af om den afhængige variabel er henholdsvis kategorisk eller numerisk.

Beslutningstræer dannes af en samling regler baseret på variabler i modelleringsdatasættet:

  • Regler baseret på variablernes værdier vælges for at få den bedste opdeling til at differentiere observationer baseret på den afhængige variabel
  • Når en regel er valgt og opdeler en knude i to, anvendes den samme proces på hver "barn" -knude (dvs. det er en rekursiv procedure)
  • Opdelingen stopper, når CART registrerer, at der ikke kan opnås yderligere gevinst, eller nogle forudindstillede stopregler er opfyldt. (Alternativt opdeles dataene så meget som muligt, og derefter beskæres træet .)

Hver gren af ​​træet ender i en terminal knude. Hver observation falder ind i en og nøjagtigt en terminal knude, og hver terminal knude er entydigt defineret af et sæt regler.

En meget populær metode til forudsigelig analyse er tilfældige skove .

Multivariat adaptiv regression splines

Multivariat adaptiv regression splines (MARS) er en ikke-parametrisk teknik, der bygger fleksible modeller ved at montere stykkevis lineære regressioner .

Multivariat og adaptiv regressionsspline -tilgang overbeviser modellen bevidst og beskærer derefter for at komme til den optimale model. Algoritmen er beregningsmæssigt meget intensiv, og i praksis er en øvre grænse for antallet af basisfunktioner specificeret.

Maskinlæringsteknikker

Maskinlæring omfatter en række avancerede statistiske metoder til regression og klassificering og finder anvendelse inden for en lang række områder, herunder medicinsk diagnostik , afsløring af kreditkortbedrageri , ansigts- og talegenkendelse og analyse af aktiemarkedet .

Værktøjer

Historisk set krævede avancerede færdigheder brug af forudsigelige analyseværktøjer - samt forståelse af de resultater, de leverede. Moderne værktøjer til forudsigende analyse er imidlertid ikke længere begrænset til it -specialister. Efterhånden som flere organisationer anvender forudsigende analyser i beslutningsprocesser og integrerer det i deres drift, skaber de et skift i markedet mod erhvervsbrugere som de primære forbrugere af oplysningerne. Forretningsbrugere vil have værktøjer, de kan bruge alene. Leverandører reagerer ved at oprette ny software, der fjerner den matematiske kompleksitet, giver brugervenlige grafiske grænseflader og/eller bygger genveje, der f.eks. Kan genkende den tilgængelige type data og foreslå en passende forudsigelsesmodel. Prediktive analyseværktøjer er blevet sofistikerede nok til tilstrækkeligt at præsentere og dissekere dataproblemer, så enhver datakyndig informationsmedarbejder kan bruge dem til at analysere data og hente meningsfulde og nyttige resultater. For eksempel præsenterer moderne værktøjer fund ved hjælp af enkle diagrammer, grafer og score, der angiver sandsynligheden for mulige resultater.

Der findes mange værktøjer på markedet, der hjælper med udførelsen af ​​forudsigelig analyse. Disse spænder fra dem, der har brug for meget lidt sofistikeret bruger til dem, der er designet til den praktiserende læge. Forskellen mellem disse værktøjer er ofte i niveauet for tilpasning og tilladte tunge dataløft.

PMML

Den prædiktiv model Markup Language (PMML) blev foreslået for standard sprog til at udtrykke prognosemodeller. Et sådant XML-baseret sprog giver de forskellige værktøjer mulighed for at definere forudsigelsesmodeller og dele dem. PMML 4.0 blev udgivet i juni 2009.

Kritik

Der er masser af skeptikere, når det kommer til computere og algoritmers evner til at forudsige fremtiden, herunder Gary King , professor fra Harvard University og direktør for Institute for Quantitative Social Science. Mennesker påvirkes af deres omgivelser på utallige måder. At forudsige perfekt, hvad folk vil gøre næste gang, kræver, at alle de indflydelsesrige variabler kendes og måles nøjagtigt. "Folks miljø ændrer sig endnu hurtigere, end de selv gør. Alt fra vejret til deres forhold til deres mor kan ændre den måde, folk tænker og handler på. Alle disse variabler er uforudsigelige. Hvordan de vil påvirke en person er endnu mindre forudsigelig. Hvis sat i nøjagtig samme situation i morgen, kan de træffe en helt anden beslutning. Det betyder, at en statistisk forudsigelse kun er gyldig under sterile laboratorieforhold, som pludselig ikke er så nyttig, som den virkede før. "

I en undersøgelse af 1072 artikler, der blev offentliggjort i Information Systems Research og MIS Quarterly mellem 1990 og 2006, forsøgte kun 52 empiriske artikler at forudsige påstande, hvoraf kun 7 udførte korrekt forudsigelig modellering eller testning.

Se også

Referencer

Yderligere læsning

  • Agresti, Alan (2002). Kategorisk dataanalyse . Hoboken: John Wiley og sønner. ISBN 0-471-36093-7.
  • Coggeshall, Stephen, Davies, John, Jones, Roger. og Schutzer, Daniel, "Intelligent Security Systems", i Freedman, Roy S., Flein, Robert A. og Lederman, Jess, Editors (1995). Kunstig intelligens på kapitalmarkederne . Chicago: Irwin. ISBN 1-55738-811-3.CS1 maint: flere navne: forfatterliste ( link )
  • L. Devroye; L. Györfi; G. Lugosi (1996). En sandsynlighedsteori om mønstergenkendelse . New York: Springer-Verlag. ISBN 9781461207115.
  • Enders, Walter (2004). Anvendt tidsserie økonometri . Hoboken: John Wiley og sønner. ISBN 0-521-83919-X.
  • Greene, William (2012). Økonometrisk analyse, 7. udgave . London: Prentice Hall. ISBN 978-0-13-139538-1.
  • Guidère, Mathieu; Howard N, Sh. Argamon (2009). Rich Language Analysis for counterterrorism . Berlin, London, New York: Springer-Verlag. ISBN 978-3-642-01140-5.
  • Mitchell, Tom (1997). Machine Learning . New York: McGraw-Hill. ISBN 0-07-042807-7.
  • Siegel, Eric (2016). Predictive Analytics: Magt til at forudsige hvem der klikker, køber, lyver eller dør . John Wiley. ISBN 978-1119145677.
  • Tukey, John (1977). Undersøgelsesdataanalyse . New York: Addison-Wesley. ISBN 0-201-07616-0.
  • Finlay, Steven (2014). Predictive Analytics, Data Mining og Big Data. Myter, misforståelser og metoder . Basingstoke: Palgrave Macmillan. ISBN 978-1-137-37927-6.
  • Coker, Frank (2014). Pulse: Forståelse af virksomhedens vitale tegn . Bellevue, WA: Ambient Light Publishing. ISBN 978-0-9893086-0-1.