CMU Sphinx - CMU Sphinx

Sfinx 4
Stabil udgivelse
5-prealpha / 3. august 2015 ; 6 år siden ( 2015-08-03 )
Skrevet i Java
Operativ system På tværs af platforme
Type Billedbibliotek
Licens BSD-stil
Internet side cmusphinx .github .io /wiki /
Pocketsphinx
Stabil udgivelse
5-prealpha / 5. august 2015 ; 6 år siden ( 2015-08-05 )
Skrevet i C
Operativ system På tværs af platforme
Type Billedbibliotek
Licens BSD-stil
Internet side cmusphinx .github .io /wiki /

CMU Sphinx , også kort sagt Sphinx, er det generelle udtryk for at beskrive en gruppe talegenkendelsessystemer udviklet på Carnegie Mellon University . Disse inkluderer en række talegenkendere (Sphinx 2 - 4) og en akustisk modeltræner (SphinxTrain).

I 2000 forpligtede Sphinx -gruppen i Carnegie Mellon sig til at open source flere talegenkenderkomponenter, herunder Sphinx 2 og senere Sphinx 3 (i 2001). Taledekoderne leveres med akustiske modeller og eksempler. De tilgængelige ressourcer omfatter desuden software til akustisk model træning, Sprog model kompilering og en public domain udtale ordbog, cmudict .

Sphinx omfatter en række softwaresystemer beskrevet nedenfor.

Sfinx

Sphinx er et kontinuerligt talende, højttaleruafhængigt genkendelsessystem, der gør brug af skjulte Markov-akustiske modeller ( HMM'er ) og en n-gram statistisk sprogmodel. Det blev udviklet af Kai-Fu Lee . Sphinx fremhævede gennemførligheden af ​​kontinuerlig tale, højttaleruafhængig storordforrådsgenkendelse, hvis mulighed var tvist på det tidspunkt (1986). Sfinx er kun af historisk interesse; det er blevet afløst i ydeevne af efterfølgende versioner. En arkivartikel beskriver systemet i detaljer.

Sfinx 2

En hurtig performanceorienteret genkender, oprindeligt udviklet af Xuedong Huang i Carnegie Mellon og udgivet som Open-source med en BSD- stil licens på SourceForge af Kevin Lenzo på LinuxWorld i 2000. Sphinx 2 fokuserer på realtidsgenkendelse, der er velegnet til talesprogsprogrammer . Som sådan inkorporerer den funktionalitet som slutpunkt, delvis hypotese-generering, dynamisk sprogmodelskift og så videre. Det bruges i dialogsystemer og sprogindlæringssystemer. Det kan bruges i computerbaserede PBX -systemer såsom Asterisk . Sphinx 2 -koden er også blevet inkorporeret i en række kommercielle produkter. Det er ikke længere under aktiv udvikling (andet end til rutinemæssig vedligeholdelse). Den aktuelle real-time dekoderudvikling finder sted i Pocket Sphinx- projektet. En arkivartikel beskriver systemet.

Sfinx 3

Sphinx 2 brugte en semi-kontinuerlig repræsentation til akustisk modellering (dvs. et enkelt sæt gaussere bruges til alle modeller, med individuelle modeller repræsenteret som en vægtvektor over disse gaussere). Sphinx 3 vedtog den fremherskende kontinuerlige HMM-repræsentation og er primært blevet brugt til højnøjagtighed, ikke-realtidsgenkendelse. Den seneste udvikling (i algoritmer og hardware) har gjort Sphinx 3 til "nær" realtid, selvom den endnu ikke er egnet til kritiske interaktive applikationer. Sphinx 3 er under aktiv udvikling og giver sammen med SphinxTrain adgang til en række moderne modelleringsteknikker, såsom LDA/MLLT, MLLR og VTLN, der forbedrer genkendelsesnøjagtigheden (se artiklen om talegenkendelse for beskrivelser af disse teknikker).

Sfinx 4

Sphinx 4 er en komplet omskrivning af Sphinx-motoren med det formål at tilvejebringe en mere fleksibel ramme for forskning inden for talegenkendelse, udelukkende skrevet i Java-programmeringssproget. Sun Microsystems understøttede udviklingen af ​​Sphinx 4 og bidrog med softwareteknisk ekspertise til projektet. Deltagerne omfattede personer på MERL, MIT og CMU . (I øjeblikket understøttede sprog er: C, C ++, C#, Python, Ruby, Java, Javascript).

Nuværende udviklingsmål omfatter:

  • at udvikle en ny (akustisk model) træner
  • implementering af højttalertilpasning (f.eks. MLLR)
  • forbedring af konfigurationsstyring
  • oprettelse af et grafbaseret brugergrænseflade til grafisk systemdesign

PocketSphinx

En version af Sphinx, der kan bruges i integrerede systemer (f.eks. Baseret på en ARM -processor). PocketSphinx er under aktiv udvikling og inkorporerer funktioner såsom fast-punkts aritmetik og effektive algoritmer til GMM- beregning.

Se også

Referencer

eksterne links