Uovervåget læring - Unsupervised learning

Uovervåget indlæring er en form for maskinlæring , hvor algoritmen ikke er forsynet med foruddefinerede etiketter eller scoringer for træningsdataene. Som et resultat heraf skal uovervågede læringsalgoritmer først selv opdage eventuelle naturligt forekommende mønstre i dette træningsdatasæt. Almindelige eksempler omfatter clustering , hvor algoritmen automatisk grupperer sine træningseksempler i kategorier med lignende funktioner og hovedkomponentanalyse , hvor algoritmen finder måder at komprimere træningsdatasættet ved at identificere, hvilke funktioner der er mest nyttige til at skelne mellem forskellige træningseksempler, og kasserer resten. Dette står i kontrast til overvåget læring , hvor træningsdataene indeholder forudinddelte kategorimærker (ofte af et menneske eller fra output fra ikke-lærende klassifikationsalgoritme). Andre mellemniveauer i supervisionsspektret inkluderer forstærkningslæring , hvor der kun er numeriske scoringer tilgængelige for hvert træningseksempel i stedet for detaljerede tags, og semi-superviseret læring, hvor kun en del af træningsdataene er blevet mærket.

Fordelene ved uovervåget læring omfatter en minimal arbejdsbyrde for at forberede og revidere træningssættet, i modsætning til overvåget læringsteknik, hvor der kræves en betydelig mængde ekspert menneskeligt arbejde for at tildele og verificere de oprindelige tags, og større frihed til at identificere og udnytte tidligere uopdagede mønstre det er måske ikke blevet bemærket af "eksperterne". Dette kommer ofte på bekostning af ikke -overvågede teknikker, der kræver en større mængde træningsdata og konvergerer langsommere til acceptabel ydeevne, øgede beregnings- og opbevaringskrav under den undersøgende proces og potentielt større modtagelighed for artefakter eller anomalier i træningsdata, der muligvis er åbenlyse irrelevant eller anerkendt som fejlagtig af et menneske, men tillægges unødig betydning af den uovervåget læringsalgoritme.

Tilgange

Almindelige familier af algoritmer, der bruges i uovervåget indlæring, omfatter: (1) klynger, (2) anomaliedetektering, (3) neurale netværk (bemærk, at ikke alle neurale netværk er uden opsyn; de kan trænes af overvåget, uden opsyn, semi-overvåget eller forstærkningsmetoder) og (4) latente variable modeller.

Klyngemetoder inkluderer hierarkisk klynge , k-midler , blandingsmodeller , DBSCAN og OPTICS-algoritme
Anomalisøgning metoder omfatter Lokal Outlier Factor , og Isolation Skov
Tilgange til indlæring af latente variabelmodeller inkluderer algoritme til forventning-maksimalisering , momentmetoden og teknikker til adskillelse af blinde signaler ( hovedkomponentanalyse , uafhængig komponentanalyse , ikke-negativ matrixfaktorisering , ental værdi-dekomponering )
Neurale netværksmetoder inkluderer autoencodere , deep faith- netværk , hebbisk læring , generative adversarial netværk (GAN'er) og selvorganiserende kort

Metoder til øjeblikke

En statistisk tilgang til læring uden opsyn er metoden til øjeblikke . I metoden til øjeblikke er de ukendte parametre af interesse i modellen relateret til øjeblikke i en eller flere tilfældige variabler. Disse øjeblikke estimeres empirisk ud fra de tilgængelige dataprøver og bruges til at beregne de mest sandsynlige værdifordelinger for hver parameter. Momentmetoden viser sig at være effektiv til at lære parametrene for latente variabelmodeller , hvor der ud over de observerede variabler, der er tilgængelige i trænings- og inputdatasættene, også antages at eksistere en række ikke -observerede latente variabler og til at bestemme kategoriseringen af hver den samme. Et praktisk eksempel på latente variabelmodeller inden for maskinlæring er emnemodellering , som er en statistisk model til forudsigelse af ordene (observerede variabler) i et dokument baseret på dokumentets emne (latent variabel). Momentmetoden (tensor -dekomponeringsteknikker) har vist sig at konsekvent gendanne parametrene for en stor klasse latente variable modeller under visse forudsætninger.

Den forventning-maksimering algoritme er en anden praktisk metode til at lære latente variable modeller. Det kan dog sidde fast i lokal optima, og det garanteres ikke at konvergere til de sande ukendte parametre i modellen. I modsætning hertil er global konvergens garanteret under visse betingelser ved hjælp af momentmetoden.

Neurale netværk

De næste fem underafsnit indeholder grundmateriale. Flere materialer på mellemliggende niveau følger det i sammenligning af netværk og specifikke netværk. Avanceret materiale har deres egne Wikipedia -poster.

Opgaver vs. metoder

Tendens til en opgave til at anvende Supervised vs. Uovervåget metoder. Adskillelsen kan sløres.

Traditionelt bruges overvågede metoder til genkendelsesopgaver, og metoder uden overvågning bruges til generative opgaver. Efterhånden som fremskridt marcherer videre, anvender nogle opgaver begge metoder, og nogle opgaver svinger fra en metode til en anden. For eksempel startede billedgenkendelse som stærkt overvåget, men blev hybrid ved at anvende uovervåget foruddannelse og gik derefter mod overvågning igen med fremkomsten af frafald, relu og adaptive læringshastigheder.

Uddannelse

Under indlæringsfasen forsøger et netværk uden opsyn at efterligne de data, det har givet, og bruger fejlen i sit efterlignede output til at rette sig selv (dvs. korrigere dets vægte og forspændinger). Dette ligner børns mimikadfærd, når de lærer et sprog. Nogle gange udtrykkes fejlen som en lav sandsynlighed for, at den fejlagtige output forekommer, eller den kan udtrykkes som en ustabil højenergitilstand i netværket.

I modsætning til den overvågede metodes dominerende brug af Backpropagation anvender ikke -overvågede metoder forskellige læringsalgoritmer, herunder: Hopfield -læringsregel, Boltzmann -læringsregel, Kontrastiv divergens, Wake Sleep, Variational Inference, Maximum A Posteriori, Gibbs Sampling, backpropagering af rekonstruktionsfejlen eller backpropagering af skjulte tilstandsreparametre. Se tabellen herunder for flere detaljer.

Energi

I Boltzmann -maskiner spiller energi rollen som omkostningsfunktionen. En energifunktion er et makroskopisk mål for et netværks tilstand. Denne analogi med fysik er inspireret af Ludwig Boltzmanns analyse af en gas makroskopisk energi fra de mikroskopiske sandsynligheder for partikelbevægelse p e ^E/kT , hvor k er Boltzmann -konstanten og T er temperaturen. I RBM -netværket er forholdet p = e ^−E / Z, hvor p & E varierer over alle mulige aktiveringsmønstre og Z = e ^{-E (mønster)} . For at være mere præcis, p (a) = e ^{-E (a)} / Z, hvor a er et aktiveringsmønster for alle neuroner (synlige og skjulte). Derfor bærer tidlige neurale netværk navnet Boltzmann Machine. Paul Smolensky kalder -E Harmonien. Et netværk søger lav energi, hvilket er høj harmoni. ${\ displaystyle \ propto}$ ${\ displaystyle \ sum _ {AllPatterns}}$

Netværk

Denne tabel viser forbindelsesdiagrammer for forskellige netværk uden opsyn, hvis detaljer vil blive givet i afsnittet Sammenligning af netværk. Af de netværk, der bærer folks navne, arbejdede kun Hopfield direkte med neurale netværk. Boltzmann og Helmholtz levede før opfindelsen af kunstige neurale netværk, men de inspirerede til de anvendte analysemetoder.

Hopfield	Boltzmann	RBM	Helmholtz	Autoencoder	VAE
Et netværk baseret på magnetiske domæner i jern med et enkelt selvforbundet lag.	2 lag. Bruger symmetriske 2-vejs vægte. Efter Boltzmanns termodynamik giver individuelle sandsynligheder anledning til makroskopiske energier.	Begrænset Boltzmann -maskine. Dette er en Boltzmann -maskine, hvor laterale forbindelser i et lag er forbudt for at gøre analysen mulig.	I stedet for den tovejssymmetriske forbindelse af en Boltzmann-maskine har vi separate envejsforbindelser for at danne en sløjfe. Det gør både generation og diskrimination.	Et feed forward -netværk, der har til formål at finde en god mellemlagsrepræsentation af sin inputverden.	Anvender variationskonference til Autoencoder. Det midterste lag er et sæt midler og variationer for gaussiske fordelinger.

Historie

1969	Perceptrons af Minsky & Papert viser, at en perceptron uden skjulte lag fejler på XOR
1970'erne	(omtrentlige datoer) AI vinter I
1974	Ising magnetisk model foreslået af WA Little til erkendelse
1980	Fukushima introducerer neocognitron, som senere kaldes et konvolut neuralt netværk. Det bruges mest i SL, men fortjener at blive nævnt her.
1982	Ising variant Hopfield net beskrevet som CAM'er og klassifikatorer af John Hopfield.
1983	Ising variant Boltzmann -maskine med sandsynlige neuroner beskrevet af Hinton & Sejnowski efter Sherington & Kirkpatricks arbejde fra 1975.
1986	Paul Smolensky udgiver Harmony Theory, som er en RBM med praktisk talt samme Boltzmann energifunktion. Smolensky gav ikke en praktisk uddannelse. Hinton gjorde i midten af 2000'erne
1995	Schmidthuber introducerer LSTM -neuronen til sprog.
1995	Dayan & Hinton introducerer Helmholtz -maskine
1995-2005	(omtrentlige datoer) AI vinter II
2013	Kingma, Rezende og co. introducerede Variational Autoencoders som Bayesiansk grafisk sandsynlighedsnetværk, med neurale net som komponenter.

Specifikke netværk

Her fremhæver vi nogle karakteristika ved hvert netværk. Ferromagnetisme inspirerede Hopfield -netværk, Boltzmann -maskiner og RBM'er. En neuron svarer til et jerndomæne med binære magnetiske øjeblikke op og ned, og neurale forbindelser svarer til domænet indflydelse på hinanden. Symmetriske forbindelser muliggør en global energiformulering. Under slutning opdaterer netværket hver tilstand ved hjælp af standardaktiveringstrinfunktionen. Symmetriske vægte garanterer konvergens til et stabilt aktiveringsmønster.

Hopfield: netværk bruges som CAM'er og vil med garanti gå til et vist mønster. Uden symmetriske vægte er netværket meget svært at analysere. Med den rigtige energifunktion vil et netværk konvergere.
Boltzmann maskiner: Disse er stokastiske Hopfield -net. Deres tilstandsværdi udtages fra denne pdf som følger: Antag, at en binær neuron affyrer med Bernoulli -sandsynligheden p (1) = 1/3 og hviler med p (0) = 2/3. Man prøver fra det ved at tage et UNIFORMLY fordelt tilfældigt tal y og tilslutte det til den inverterede kumulative fordelingsfunktion, som i dette tilfælde er trinfunktionen tærsklet til 2/3. Den omvendte funktion = {0 hvis x <= 2/3, 1 hvis x> 2/3}
Helmholtz: Disse er tidlige inspirationskilder til Variational Auto Encoders. Det er 2 netværk kombineret til et - fremadvægte fungerer genkendelse og bagudvægte implementerer fantasi. Det er måske det første netværk, der gør begge dele. Helmholtz arbejdede ikke inden for maskinlæring, men han inspirerede synet til "statistisk inferensmotor, hvis funktion er at udlede sandsynlige årsager til sensorisk input" (3). den stokastiske binære neuron udsender en sandsynlighed for, at dets tilstand er 0 eller 1. Datainput er normalt ikke betragtet som et lag, men i Helmholtz maskingenereringstilstand modtager datalaget input fra mellemlaget har separate vægte til dette formål, så det betragtes som et lag. Derfor har dette netværk 3 lag.
Variational Autoencoder: Disse er inspireret af Helmholtz -maskiner og kombinerer sandsynlighedsnetværk med neurale netværk. En Autoencoder er et 3-lags CAM-netværk, hvor det midterste lag formodes at være en vis intern repræsentation af inputmønstre. Encoderens neurale netværk er en sandsynlighedsfordeling q _φ (z givet x), og dekodernetværket er p _θ (x givet z). Vægtene hedder phi & theta frem for W og V som i Helmholtz - en kosmetisk forskel. Disse 2 netværk her kan være fuldt tilsluttet, eller bruge en anden NN -ordning.

Sammenligning af netværk

	Hopfield	Boltzmann	RBM	Helmholtz	Autoencoder	VAE
brug og bemærkelsesværdige	CAM, rejsende sælger problem	CAM. Forbindelsesfriheden gør dette netværk svært at analysere.	mønstergenkendelse (MNIST, talegenkendelse)	fantasi, efterligning	sprog: kreativ skrivning, oversættelse. Vision: forbedring af slørede billeder	generere realistiske data
neuron	deterministisk binær tilstand. Aktivering = {0 (eller -1) hvis x er negativ, 1 ellers}	stokastisk binær Hopfield neuron	stokastisk binær. Udvidet til virkelig værdi i midten af 2000'erne	stokastisk, binær, sigmoid	sprog: LSTM. vision: lokale modtagelige felter. normalt reel værdsat reluaktivering.	mellemlagsneuroner koder midler og variationer for gaussere. I driftstilstand (inferens) samples output fra det midterste lag fra værdier fra gausserne.
forbindelser	1-lags med symmetriske vægte. Ingen selvforbindelser.	2-lag. 1-skjult og 1-synlig. symmetriske vægte.	<- samme. ingen laterale forbindelser i et lag.	3-lags: asymmetriske vægte. 2 netværk kombineret til 1.	3-lag. Input betragtes som et lag, selvom det ikke har nogen indgående vægte. tilbagevendende lag til NLP. feedforward -konvolutter for syn. input & output har de samme neurontællinger.	3-lags: input, encoder, distribution sampler decoder. prøvetageren betragtes ikke som et lag (e)
slutning og energi	energi er givet ved Gibbs sandsynlighedsmåling: ${\ displaystyle E =-{\ frac {1} {2}} \ sum _ {i, j} {w_ {ij} {s_ {i}} {s_ {j}}}+\ sum _ {i} { \ theta _ {i}} {s_ {i}}}$	← samme	← samme	minimere KL -divergens	slutning er kun feed-forward. tidligere UL -netværk løb frem og tilbage	minimer fejl = rekonstruktionsfejl - KLD
uddannelse	Δw _ij = s _i *s _j , for +1/-1 neuron	Δw _ij = e*(p _ij - p ' _ij ). Dette stammer fra minimering af KLD. e = læringshastighed, p '= forudsagt og p = faktisk fordeling.	kontrastiv divergens m/ Gibbs -prøveudtagning	wake-sleep 2-faset træning	tilbage udbred rekonstruktionsfejlen	reparameterize skjult tilstand for backprop
styrke	ligner fysiske systemer, så det arver deres ligninger	<--- samme. skjulte neuroner fungerer som en intern repræsentation af den ydre verden	hurtigere mere praktisk uddannelse end Boltzmann -maskiner	mildt anatomisk. analyserbar med informationsteori og statistisk mekanik
svaghed		svært at træne på grund af laterale forbindelser

Hebbisk læring, KUNST, SOM
Det klassiske eksempel på læring uden opsyn i undersøgelsen af neurale netværk er Donald Hebbs princip, det vil sige neuroner, der brænder sammen, kører sammen. I hebbisk læring forstærkes forbindelsen uanset en fejl, men er udelukkende en funktion af sammenfaldet mellem handlingspotentialer mellem de to neuroner. En lignende version, der ændrer synaptiske vægte, tager hensyn til tiden mellem handlingspotentialerne ( spike-timing-afhængig plasticitet eller STDP). Hebbisk læring har været en hypotese om at ligge til grund for en række kognitive funktioner, såsom mønstergenkendelse og erfaringslæring.

Blandt neurale netværksmodeller bruges det selvorganiserende kort (SOM) og adaptiv resonansteori (ART) almindeligt i uovervåget læringsalgoritme. SOM er en topografisk organisation, hvor steder i nærheden på kortet repræsenterer input med lignende egenskaber. ART-modellen tillader antallet af klynger at variere med problemstørrelse og lader brugeren kontrollere graden af lighed mellem medlemmer af de samme klynger ved hjælp af en brugerdefineret konstant kaldet årvågenhedparameteren. ART -netværk bruges til mange mønstergenkendelsesopgaver, såsom automatisk målgenkendelse og seismisk signalbehandling.

Se også

Referencer

Yderligere læsning

Bousquet, O .; von Luxburg, U .; Raetsch, G., red. (2004). Avancerede forelæsninger om maskinlæring . Springer-Verlag. ISBN 978-3540231226.
Duda, Richard O .; Hart, Peter E .; Stork, David G. (2001). "Uovervåget læring og klynger". Mønsterklassificering (2. udgave). Wiley. ISBN 0-471-05669-3.
Hastie, Trevor; Tibshirani, Robert (2009). Elementerne i statistisk læring: Data mining, slutning og forudsigelse . New York: Springer. s. 485–586. doi : 10.1007/978-0-387-84858-7_14 . ISBN 978-0-387-84857-0.
Hinton, Geoffrey ; Sejnowski, Terrence J. , red. (1999). Unsupervised Learning: Foundations of Neural Computation . MIT Tryk . ISBN 0-262-58168-X.(Denne bog fokuserer på uovervåget læring i neurale netværk )

Languages

In other projects