Google Oversæt - Google Translate

Google Oversæt
Google Translate logo.svg
Skærmbillede af Google Translate.png
Google Translate -startside
Type websted
Neural maskinoversættelse
Tilgængelig i 109 sprog, se nedenfor
Ejer Google
URL oversæt .google .com
Kommerciel Ja
Registrering Valgfri
Brugere Over 500 millioner mennesker dagligt
Lanceret 28. april 2006 ; 15 år siden (som statistisk maskinoversættelse ) 15. november 2016 ; 4 år siden (som neural maskinoversættelse ) ( 2006-04-28 )
 ( 2016-11-15 )
Nuværende status Aktiv

Google Translate er en flersproget neural maskinoversættelsestjeneste udviklet af Google til at oversætte tekst, dokumenter og websteder fra et sprog til et andet. Det tilbyder en webstedsgrænseflade , en mobilapp til Android og iOS og en applikationsprogrammeringsgrænseflade, der hjælper udviklere med at bygge browserudvidelser og softwareapplikationer . Fra oktober 2021 understøtter Google Translate 109 sprog på forskellige niveauer, og i april 2016 krævede over 500 millioner brugere i alt, med mere end 100 milliarder ord oversat dagligt.

Den blev lanceret i april 2006 som en statistisk maskinoversættelsestjeneste og brugte FN og Europa -Parlamentets dokumenter og udskrifter til at indsamle sproglige data. I stedet for at oversætte sprog direkte, oversætter det først tekst til engelsk og drejer derefter til målsproget i de fleste sprogkombinationer, det udgør i sit gitter, med nogle få undtagelser, herunder catalansk-spansk. Under en oversættelse leder det efter mønstre i millioner af dokumenter for at hjælpe med at beslutte, hvilke ord der skal vælges, og hvordan de skal ordnes på målsproget. Dens nøjagtighed, som er blevet kritiseret og latterliggjort ved flere lejligheder, er blevet målt til at variere meget på tværs af sprog. I november 2016 annoncerede Google, at Google Translate ville skifte til en neural maskinoversættelsesmotor - Google Neural Machine Translation (GNMT) - som oversætter "hele sætninger ad gangen, snarere end bare stykke for stykke. Det bruger denne bredere kontekst til at hjælpe det finde ud af den mest relevante oversættelse, som den derefter omarrangerer og justerer for mere at ligne et menneske, der taler med korrekt grammatik ". Oprindeligt kun aktiveret for få sprog i 2016, bruges GNMT nu på alle 109 sprog i Google Translate -oversigten fra oktober 2021, undtagen når der oversættes mellem engelsk og latin .

Historie

Google Translate er en komplementær oversættelsestjeneste udviklet af Google i april 2006. Den oversætter flere former for tekster og medier, såsom ord, sætninger og websider.

Oprindeligt blev Google Translate udgivet som en statistisk maskinoversættelsestjeneste . Inputteksten skulle først oversættes til engelsk, før den blev oversat til det valgte sprog. Siden SMT bruger forudsigende algoritmer til at oversætte tekst, det havde dårlig grammatisk korrekthed. På trods af dette hyrede Google i første omgang ikke eksperter til at løse denne begrænsning på grund af sprogets stadigt voksende karakter.

I januar 2010 introducerede Google en Android -app og iOS -version i februar 2011 for at fungere som en bærbar personlig tolk. Fra februar 2010 blev den integreret i browsere som f.eks. Chrome og kunne udtale den oversatte tekst, automatisk genkende ord i et billede og få øje på ukendt tekst og sprog.

I maj 2014 købte Google Word Lens for at forbedre kvaliteten af ​​visuel og stemmeoversættelse. Det er i stand til at scanne tekst eller et billede ved hjælp af enheden og få det oversat med det samme. Desuden identificerer systemet automatisk fremmedsprog og oversætter tale uden at kræve, at enkeltpersoner trykker på mikrofonknappen, når taleoversættelse er nødvendig.

I november 2016 overgik Google sin oversættelsesmetode til et system kaldet neural maskinoversættelse . Det bruger deep learning -teknikker til at oversætte hele sætninger ad gangen, som er blevet målt til at være mere præcise mellem engelsk og fransk, tysk, spansk og kinesisk. Google -forskere har ikke leveret måleresultater for GNMT fra engelsk til andre sprog, andre sprog til engelsk eller mellem sprogpar, der ikke inkluderer engelsk. Fra 2018 oversætter det mere end 100 milliarder ord om dagen.

Funktioner

Google Oversæt kan oversætte flere former for tekst og medier, som omfatter tekst, tale og tekst i stillbilleder eller bevægelige billeder. Konkret omfatter dets funktioner:

  • Oversættelse af skriftlige ord: en funktion, der oversætter skrevne ord eller tekst til et fremmedsprog.
  • Webstedsoversættelse: en funktion, der oversætter en hel webside til udvalgte sprog
  • Dokumentoversættelse: en funktion, der oversætter et dokument, der overføres af brugerne til udvalgte sprog. Dokumenterne skal være i form af: .doc, .docx, .odf, .pdf, .ppt, .pptx, .ps, .rtf, .txt, .xls, .xlsx.
  • Taleoversættelse: en funktion, der øjeblikkeligt oversætter talesprog til det valgte fremmedsprog.
  • Oversættelse af mobilapp: i 2018 har Google Translate introduceret sin nye funktion kaldet "Tap to Translate", som gjorde øjeblikkelig oversættelse tilgængelig i enhver app uden at afslutte eller skifte den.
  • Billedoversættelse: en funktion, der identificerer tekst på et billede taget af brugerne og oversætter tekst på skærmen med det samme med billeder.
  • Håndskrevet oversættelse: en funktion, der oversætter sprog, der er håndskrevne på telefonens skærm eller tegnet på et virtuelt tastatur uden understøttelse af et tastatur.

For de fleste af dens funktioner giver Google Translate udtalen, ordbogen og lytter til oversættelse. Derudover har Google Translate introduceret sin egen Translate -app, så oversættelse er tilgængelig med en mobiltelefon i offline -tilstand.

Funktioner

Google Translate producerer tilnærmelser på tværs af sprog af flere former for tekst og medier, herunder tekst, tale, websteder eller tekst, der vises i stillbilleder eller levende videobilleder. For nogle sprog kan Google Translate syntetisere tale fra tekst, og i visse par er det muligt at fremhæve specifikke tilsvarende ord og sætninger mellem kilde- og målteksten. Resultaterne vises undertiden med dikterede oplysninger under oversættelsesboksen, men det er ikke en ordbog og har vist sig at opfinde oversættelser på alle sprog for ord, det ikke genkender. Hvis der er valgt "Find sprog", kan tekst på et ukendt sprog automatisk identificeres. I webgrænsefladen kan brugerne foreslå alternative oversættelser, f.eks. For tekniske termer eller rette fejl. Disse forslag kan være inkluderet i fremtidige opdateringer af oversættelsesprocessen. Hvis en bruger indtaster en URL i kildeteksten, producerer Google Translate et hyperlink til en maskinoversættelse af webstedet. Brugere kan gemme oversættelsesforslag i en "parlør" til senere brug. For nogle sprog kan tekst indtastes via et tastatur på skærmen , gennem håndskriftsgenkendelse eller talegenkendelse . Det er muligt at indtaste søgninger på et kildesprog, der først oversættes til et destinationssprog, så man kan gennemse og fortolke resultater fra det valgte destinationssprog i kildesproget.

Tekster skrevet med græsk , devanagari , kyrillisk og arabisk skrift kan automatisk translittereres fra fonetiske ækvivalenter skrevet i det latinske alfabet . Browserversionen af ​​Google Translate giver mulighed for at læse fonetisk for japansk til engelsk konvertering. Den samme mulighed er ikke tilgængelig på den betalte API -version.

Engelsk accent, som "tekst-til-tale" -lyden fra Google Oversæt i hvert land bruger:
  Britisk (modtaget udtale) (kvinde)
  General American (kvinde)
  General Australian (kvinde)
  Indisk (kvinde)
  Ingen Google translate service

Mange af de mere populære sprog har en "tekst-til-tale" lydfunktion, der er i stand til at læse en tekst tilbage på det sprog, op til et par dusin ord eller deromkring. I tilfælde af pluricentriske sprog afhænger accenten af ​​regionen: for engelsk, i Amerika , det meste af Asien-Stillehavet og Vestasien , bruger lyden en kvindelig generel amerikansk accent, hvorimod i Europa, Hong Kong , Malaysia , Singapore , Guyana og alle andre dele af verden bruges en kvindelig britisk accent ( modtaget udtale ), bortset fra en særlig generel australsk accent, der bruges i Australien, New Zealand og Norfolk Island , og en indisk engelsk accent, der bruges i Indien; for spansk, i Amerika bruges en latinamerikansk accent, mens der i de andre dele af verden bruges en castiliansk accent; for portugisisk bruges en São Paulo -accent rundt om i verden, undtagen i Portugal, hvor deres native accent bruges i stedet; for fransk bruges en quebecois -accent i Canada, mens der i de andre dele af verden bruges en standard europæisk accent ; for bengali bruges en mandlig bangladeshisk accent, undtagen i Indien, hvor der i stedet bruges en særlig kvindelig indisk bengalsk accent. Nogle mindre talte sprog bruger open-source eSpeak- synthesizeren til deres tale; producere en robotisk, akavet stemme, der kan være svær at forstå.

Browser integration

Google Translate er tilgængelig i nogle webbrowsere som en valgfri udvidelse, der kan downloades , og som kan køre oversættelsesmotoren, som giver højreklik på kommandoadgang til oversættelsestjenesten. I februar 2010 blev Google Translate som standard integreret i Google Chrome -browseren til valgfri automatisk oversættelse af websider.

Mobil app

Google Oversæt
Google Translate logo.svg
Skærmbillede
Google Translate iOS -app screenshot.png
Et skærmbillede af iOS -appen til Google Translate, der viser en engelsk oversættelse af "Coffee" til forenklet kinesisk "咖啡" eller "Kāfēi"
Udvikler (er) Google
Første udgivelse 1. januar 2010 ; 11 år siden (til Android) 8. februar 2011 ; 10 år siden (til iOS) ( 2010-01-01 )
 ( 2011-02-08 )
Stabil frigivelse (r) [±]
Android 6.5.0.RC04.292618770 / 31. januar 2020 ; 20 måneder siden ( 2020-01-31 )
iOS 6.3.0 / 3. oktober 2019 ; 2 år siden ( 2019-10-03 )
Platform
Størrelse 20,74 MB (Android)
70,9 MB (iOS)
Tilgængelig i 109 sprog, se nedenfor
Type Statistisk og neural maskinoversættelse
Internet side m .translate .google Com

Google Translate -appen til Android og iOS understøtter 109 sprog og kan foreslå oversættelser til 37 sprog via foto, 32 via stemme i "samtaletilstand" og 27 via live videobilleder i "augmented reality -tilstand".

Android -appen blev udgivet i januar 2010, mens en HTML5 -webapplikation blev frigivet til iOS -brugere i august 2008 efterfulgt af en indbygget app den 8. februar 2011.

App’en understøtter 109 sprog og stemmeinput til 45 sprog. Den er tilgængelig for enheder, der kører Android 2.1 og nyere, og kan downloades ved at søge efter "Google Oversæt" i Google Play .

Den nuværende Google Translate -app er kompatibel med iPhone , iPad og iPod Touch opdateret til iOS 7.0+. Det accepterer stemmeinput til 15 sprog og tillader oversættelse af et ord eller en sætning til et af mere end 50 sprog. Oversættelser kan tales højt på 23 forskellige sprog.

En Android -version fra januar 2011 eksperimenterede med en "Samtale -tilstand", der har til formål at give brugerne mulighed for at kommunikere flydende med en person i nærheden på et andet sprog. Oprindeligt begrænset til engelsk og spansk, modtog funktionen support til 12 nye sprog, der stadig testes, den følgende oktober.

Funktionen "Kameraindgang" giver brugerne mulighed for at tage et fotografi af et dokument, skilt osv. Google Translate genkender teksten fra billedet ved hjælp af optisk tegngenkendelse (OCR) teknologi og giver oversættelsen. Kameraindgang er ikke tilgængelig for alle sprog.

I januar 2015 fik appsne mulighed for at foreslå oversættelser af fysiske tegn i realtid ved hjælp af enhedens kamera som et resultat af Googles erhvervelse af Word Lens -appen. Den oprindelige lancering i januar understøttede kun syv sprog, men en opdatering i juli tilføjede understøttelse af 20 nye sprog med udgivelsen af ​​en ny implementering, der anvender konvolutive neurale netværk , og forbedrede også hastigheden og kvaliteten af ​​oversættelser i konversationstilstand ( augmented reality ). Funktionen blev efterfølgende omdøbt til Instant Camera. Teknologien bag Instant Camera kombinerer billedbehandling og optisk tegngenkendelse og forsøger derefter at producere tværsprogede ækvivalenter ved hjælp af standard Google Translate-estimater for teksten, som den opfattes.

Den 11. maj 2016 introducerede Google Tap to Translate til Google Translate til Android. Ved fremhævelse af tekst i en app, der er på et fremmedsprog, vil Translate dukke op inde i appen og tilbyde oversættelser.

API

Den 26. maj 2011 meddelte Google, at Google Translate API for softwareudviklere var blevet forældet og ville ophøre med at fungere. Translate API -siden angav årsagen som "betydelig økonomisk byrde forårsaget af omfattende misbrug" med en slutdato fastsat til 1. december 2011. Som svar på offentligt pres meddelte Google i juni 2011, at API'en fortsat ville være tilgængelig som betalt service.

Fordi API'en blev brugt på adskillige tredjepartswebsteder og apps, førte den oprindelige beslutning om at afskaffe den nogle udviklere til at kritisere Google og stille spørgsmålstegn ved levedygtigheden af ​​at bruge Google API'er i deres produkter.

Google Assistant

Google Translate giver også oversættelser til Google Assistant og de enheder, som Google Assistant kører på, f.eks. Google Home og Pixel Buds .

Understøttede sprog

Fra oktober 2021 understøttes følgende 109 sprog af Google Translate.

Historie
  1. 1. etape
    1. Engelsk til og fra fransk
    2. Engelsk til og fra tysk
    3. Engelsk til og fra spansk
  2. 2. etape
    1. Engelsk til og fra portugisisk
  3. 3. etape
    1. Engelsk til og fra italiensk
  4. 4. etape
    1. Engelsk til og fra kinesisk (forenklet)
    2. Engelsk til og fra japansk
    3. Engelsk til og fra koreansk
  5. 5. etape (lanceret 28. april 2006)
    1. Engelsk til og fra arabisk
  6. 6. etape (lanceret 16. december 2006)
    1. Engelsk til og fra russisk
  7. 7. etape (lanceret 9. februar 2007)
    1. Engelsk til og fra kinesisk (traditionel)
    2. Kinesisk (forenklet til og fra traditionel)
  8. 8. etape (alle 25 sprogpar bruger Googles maskinoversættelsessystem) (lanceret 22. oktober 2007)
    1. Engelsk til og fra hollandsk
    2. Engelsk til og fra græsk
  9. 9. etape
    1. Engelsk til og fra hindi
  10. 10. etape (fra denne fase kan oversættelse foretages mellem to sprog, hvis det er nødvendigt med engelsk som et mellemliggende trin) (lanceret 8. maj 2008)
    1. Bulgarsk
    2. Kroatisk
    3. Tjekkisk
    4. dansk
    5. Finsk
    6. Norsk ( bokmål )
    7. Polere
    8. Rumænsk
    9. Svensk
  11. 11. etape (lanceret 25. september 2008)
    1. Catalansk
    2. Filippinsk
    3. Hebraisk
    4. Indonesisk
    5. Lettisk
    6. Litauisk
    7. Serbisk
    8. Slovakisk
    9. Slovensk
    10. Ukrainsk
    11. Vietnamesisk
  12. 12. etape (lanceret 30. januar 2009)
    1. Albansk
    2. Estisk
    3. Galicisk
    4. Ungarsk
    5. Malteser
    6. Thai
    7. tyrkisk
  13. 13. etape (lanceret 19. juni 2009)
    1. Persisk
  14. 14. etape (lanceret 24. august 2009)
    1. Afrikaans
    2. Hviderussisk
    3. Islandsk
    4. Irsk
    5. Makedonsk
    6. Malaysisk
    7. Swahili
    8. Walisisk
    9. Jiddisch
  15. 15. etape (lanceret 19. november 2009)
    1. Beta -fasen er færdig. Brugere kan nu vælge at få romaniseringen skrevet til hviderussisk, bulgarsk, kinesisk, græsk, hindi, japansk, koreansk, russisk, thai og ukrainsk. Ved oversættelser fra arabisk, hindi og persisk kan brugeren indtaste en latinsk translitteration af teksten, og teksten vil blive translittereret til det native script for disse sprog, mens brugeren skriver. Teksten kan nu læses af et tekst-til-tale- program på engelsk, fransk, tysk og italiensk.
  16. 16. etape (lanceret 30. januar 2010)
    1. Haitisk kreolsk
  17. 17. etape (lanceret april 2010)
    1. Taleprogram lanceret på hindi og spansk.
  18. 18. etape (lanceret 5. maj 2010)
    1. Taleprogram lanceret på afrikaans, albansk, catalansk, kinesisk (mandarin), kroatisk, tjekkisk, dansk, hollandsk, finsk, græsk, ungarsk, islandsk, indonesisk, lettisk, makedonsk, norsk, polsk, portugisisk, rumænsk, russisk, serbisk, slovakisk , Swahili, svensk, tyrkisk, vietnamesisk og walisisk (baseret på eSpeak )
  19. 19. etape (lanceret 13. maj 2010)
    1. Armensk
    2. Aserbajdsjansk
    3. Baskisk
    4. Georgisk
    5. Urdu
  20. 20. etape (lanceret juni 2010)
    1. Giver romanisering til arabisk.
  21. 21. etape (lanceret september 2010)
    1. Tillader fonetisk indtastning af arabisk, græsk, hindi, persisk, russisk, serbisk og urdu.
    2. Latin
  22. 22. etape (lanceret december 2010)
    1. Romanisering af arabisk fjernet.
    2. Stavekontrol tilføjet.
    3. For nogle sprog erstattede Google tekst-til-tale-synthesizere fra eSpeaks robotstemme til modersmålstalers naturstemme-teknologier fremstillet af SVOX (kinesisk, tjekkisk, dansk, hollandsk, finsk, græsk, ungarsk, norsk, polsk, portugisisk, russisk, svensk, Tyrkisk), og også de gamle versioner af fransk, tysk, italiensk og spansk; Latin bruger den samme synthesizer som italiensk.
    4. Taleprogram lanceret på arabisk, japansk og koreansk.
  23. 23. etape (lanceret januar 2011)
    1. Valg af forskellige oversættelser for et ord.
  24. 24. etape (lanceret juni 2011)
    1. 5 nye indikationssprog (i alfa) og en translittereret inputmetode:
    2. Bengali
    3. Gujarati
    4. Kannada
    5. Tamil
    6. Telugu
  25. 25. etape (lanceret juli 2011)
    1. Oversættelsesvurdering introduceret.
  26. 26. etape (lanceret januar 2012)
    1. Hollandsk mandlig stemmesynthesizer erstattet med kvinde.
    2. Elena af SVOX erstattede den slovakiske eSpeak -stemme.
    3. Translitteration af jiddisch tilføjet.
  27. 27. etape (lanceret februar 2012)
    1. Taleprogram lanceret på thai.
    2. Esperanto
  28. 28. etape (lanceret september 2012)
    1. Lao
  29. 29. etape (lanceret oktober 2012)
    1. Translitteration af Lao tilføjet. (alfa -status)
  30. 30. etape (lanceret oktober 2012)
    1. Nyt taleprogram lanceret på engelsk.
  31. 31. etape (lanceret november 2012)
    1. Nyt taleprogram på fransk, tysk, italiensk, latin og spansk.
  32. 32. etape (lanceret marts 2013)
    1. Parlør tilføjet.
  33. 33. etape (lanceret april 2013)
    1. Khmer
  34. 34. etape (lanceret maj 2013)
    1. Bosnisk
    2. Cebuano
    3. Hmong
    4. Javanesisk
    5. Marathi
  35. 35. etape (lanceret maj 2013)
    1. 16 ekstra sprog kan bruges med kameraindgang: bulgarsk, catalansk, kroatisk, dansk, estisk, finsk, ungarsk, indonesisk, islandsk, lettisk, litauisk, norsk, rumænsk, slovakisk, slovensk og svensk.
  36. 36. etape (lanceret december 2013)
    1. Hausa
    2. Igbo
    3. Maori
    4. Mongolsk
    5. Nepalesisk
    6. Punjabi ( Gurmukhi )
    7. Somalisk
    8. Yoruba
    9. Zulu
  37. 37. etape (lanceret juni 2014)
    1. Definition af ord tilføjet.
  38. 38. etape (lanceret december 2014)
    1. Burmesisk
    2. Chewa
    3. Kasakhisk
    4. Madagaskisk
    5. Malayalam
    6. Singalesisk
    7. Sotho
    8. Sundanesisk
    9. Tadsjikisk
    10. Usbekisk
  39. 39. etape (lanceret oktober 2015)
    1. Translitteration af arabisk gendannet.
  40. 40. etape (lanceret november 2015)
    1. Aurebesh
  41. 41. etape (lanceret februar 2016)
    1. Aurebesh fjernet.
    2. Taleprogram lanceret på bengali.
    3. Amharisk
    4. Korsikansk
    5. Hawaii
    6. Kurdisk ( Kurmanji )
    7. Kirgisisk
    8. Luxemburgsk
    9. Pashto
    10. Samoansk
    11. Skotsk gælisk
    12. Shona
    13. Sindhi
    14. Vestfrisisk
    15. Xhosa
  42. 42. etape (lanceret september 2016)
    1. Taleprogram lanceret på ukrainsk.
  43. 43. etape (lanceret december 2016)
    1. Taleprogram blev lanceret i Khmer og Sinhala.
  44. 44. etape (lanceret juni 2018)
    1. Taleprogram lanceret på burmesisk, malayalam, marathi, nepalesisk og telugu.
  45. 45. etape (lanceret september 2019)
    1. Taleprogram lanceret i Gujarati, Kannada og Urdu.
  46. 46. ​​etape (lanceret februar 2020)
    1. Kinyarwanda
    2. Odia
    3. Tatarisk
    4. Turkmenere
    5. Uyghur
  47. 47. etape (lanceret februar 2021)
    1. Taleprogram lanceret på afrikaans, bulgarsk, catalansk, islandsk, lettisk, malaysisk og serbisk (ændret fra eSpeak til en naturlig stemme).
    2. Nyt talesystem (WaveNet) til flere sprog.

Sprog i udvikling og betaversion

Følgende sprog understøttes endnu ikke af Google Translate, men er tilgængelige i Oversæt -fællesskabet. Fra oktober 2021 er der 126 sprog under udvikling, og 25 af dem er i betaversion .

Sprogene i betaversionen er tættere på deres offentlige udgivelse og har en eksklusiv ekstra mulighed for at bidrage, der gør det muligt at evaluere op til 4 oversættelser af betaversionen ved at oversætte en engelsk tekst på op til 50 tegn.

Sprog begærede, men der skal endnu ikke tilføjes

Oversættelsesmetode

I april 2006 lancerede Google Translate med en statistisk maskinoversættelsesmotor.

Google Translate anvender ikke grammatiske regler, da dets algoritmer er baseret på statistisk eller mønsteranalyse frem for traditionel regelbaseret analyse. Systemets oprindelige skaber, Franz Josef Och , har kritiseret effektiviteten af regelbaserede algoritmer til fordel for statistiske tilgange. Originale versioner af Google Translate var baseret på en metode kaldet statistisk maskinoversættelse og mere specifikt på forskning foretaget af Och, der vandt DARPA -konkurrencen om hurtig maskinoversættelse i 2003. Och var leder af Googles maskinoversættelsesgruppe, indtil han gik med i Human Longevity , Inc. i juli 2014.

Google Translate oversætter ikke fra et sprog til et andet (L1 → L2). I stedet oversættes det ofte først til engelsk og derefter til målsproget (L1 → EN → L2). Fordi engelsk, ligesom alle menneskelige sprog, er tvetydigt og afhænger af kontekst, kan dette forårsage oversættelsesfejl. For eksempel giver oversættelse af vous fra fransk til russisk vous → dig → ты OR Bы/вы . Hvis Google brugte et entydigt, kunstigt sprog som mellemmand, ville det være vous → dig → Bы/вы OR tu → YOU → ты . En sådan suffiks af ord skiller deres forskellige betydninger klart ud. Derfor offentliggøres på engelsk, ved hjælp af entydige ord, giver kontekst, bruger udtryk som "jer alle" ofte en bedre oversættelse i ét trin.

Følgende sprog har ikke en direkte Google -oversættelse til eller fra engelsk. Disse sprog oversættes gennem det angivne mellemsprog (som i de fleste tilfælde er nært beslægtet med det ønskede sprog, men mere udbredt) ud over engelsk:

Ifølge Och vil et solidt grundlag for at udvikle et brugbart statistisk maskinoversættelsessystem til et nyt par sprog fra bunden bestå af et tosproget tekstkorpus (eller en parallelsamling ) på mere end 150-200 millioner ord og to ensprogede korpuder hver af mere end en milliard ord. Statistiske modeller fra disse data bruges derefter til at oversætte mellem disse sprog.

For at erhverve denne enorme mængde sproglige data brugte Google dokumenter og udskrifter fra FN og Europa -Parlamentet . FN offentliggør typisk dokumenter på alle seks officielle FN-sprog , hvilket har frembragt et meget stort 6-sproget korpus.

Når Google Translate genererer et oversættelsesforslag, leder det efter mønstre i hundredvis af millioner af dokumenter for at hjælpe med at beslutte den bedste oversættelse. Ved at opdage mønstre i dokumenter, der allerede er oversat af menneskelige oversættere, foretager Google Translate informerede gæt (AI) om, hvad en passende oversættelse skal være.

Før oktober 2007, for andre sprog end arabisk , kinesisk og russisk , var Google Translate baseret på SYSTRAN , en softwaremotor, der stadig bruges af flere andre online oversættelsestjenester, f.eks. Babel Fish (nu nedlagt). Fra oktober 2007 brugte Google Translate i stedet proprietær, intern teknologi baseret på statistisk maskinoversættelse , inden den gik over til neural maskinoversættelse.

Google Translate -fællesskab

Google har crowdsourcing -funktioner til frivillige til at være en del af dets "Oversæt fællesskab", der skal hjælpe med at forbedre Google Oversæts nøjagtighed. Frivillige kan vælge op til fem sprog for at hjælpe med at forbedre oversættelsen; brugere kan kontrollere oversatte sætninger og oversætte sætninger på deres sprog til og fra engelsk, hvilket hjælper med at forbedre nøjagtigheden af ​​at oversætte mere sjældne og komplekse sætninger. I august 2016 blev der udgivet en Google Crowdsource -app til Android -brugere, hvor der tilbydes oversættelsesopgaver. Der er tre måder at bidrage på. Først vil Google vise en sætning, som man skal skrive i den oversatte version. For det andet viser Google en foreslået oversættelse, så en bruger kan acceptere, være uenig eller springe over. For det tredje kan brugerne foreslå oversættelser af sætninger, hvor de tror, ​​de kan forbedre Googles resultater. Test på 44 sprog viser, at funktionen "foreslå en redigering" førte til en forbedring i maksimalt 40% af sagerne over fire år, mens analyse over hele linjen viser, at Googles mængdeprocedurer ofte reducerer fejlagtige oversættelser.

Statistisk maskinoversættelse

Selvom Google implementerede et nyt system kaldet neural maskinoversættelse til bedre oversættelse, er der sprog, der stadig bruger den traditionelle oversættelsesmetode, der kaldes statistisk maskinoversættelse. Det er en regelbaseret oversættelsesmetode, der anvender forudsigelsesalgoritmer til at gætte måder at oversætte tekster på fremmedsprog. Det sigter mod at oversætte hele sætninger frem for enkelte ord og derefter samle overlappende sætninger til oversættelse. Desuden analyserer den også tosproget tekstkorpora for at generere statistisk model, der oversætter tekster fra et sprog til et andet.

Google Neural maskinoversættelse

I september 2016 annoncerede et forskerhold hos Google udviklingen af ​​Google Neural Machine Translation System (GNMT) for at øge flydende og nøjagtighed i Google Translate og annoncerede i november, at Google Translate ville skifte til GNMT.

Google Translate's neurale maskinoversættelsessystem bruger et stort end-to-end kunstigt neuralt netværk, der forsøger at udføre dyb læring , især lange korttidshukommelsesnetværk . GNMT forbedrer kvaliteten af ​​oversættelse over SMT i nogle tilfælde, fordi det bruger en eksempelbaseret maskinoversættelsesmetode (EBMT), hvor systemet "lærer af millioner af eksempler." Ifølge Google -forskere oversætter den "hele sætninger ad gangen, snarere end bare stykke for stykke. Den bruger denne bredere kontekst til at hjælpe den med at finde ud af den mest relevante oversættelse, som den derefter omarrangerer og justerer for mere at være et menneske, der taler med korrekt grammatik ". GNMTs "foreslåede arkitektur" for "systemindlæring" er blevet implementeret på over hundrede sprog understøttet af Google Translate. Med en ende-til-ende-ramme angiver Google, men viser ikke for de fleste sprog, at "systemet lærer over tid at oprette bedre og mere naturlige oversættelser." GNMT-netværket forsøger flersproget maskinoversættelse , som koder for "sætningens semantik frem for blot at huske sætning-til-sætning-oversættelser udenad", og systemet opfandt ikke sit eget universelle sprog, men bruger "det fælles, der findes mellem mange sprog" . GNMT blev først aktiveret for otte sprog: til og fra engelsk og kinesisk, fransk, tysk, japansk, koreansk, portugisisk, spansk og tyrkisk. I marts 2017 blev den aktiveret for hindi, russisk og vietnamesisk, efterfulgt af bengali, gujarati, indonesisk, kannada, malayalam, marathi, punjabi, tamil og telugu i april.

Nøjagtighed

Google Translate er ikke så pålidelig som menneskelig oversættelse. Når teksten er velstruktureret, skrevet ved hjælp af formelt sprog med enkle sætninger, der vedrører formelle emner, som træningsdata er rigelig til, producerer den ofte konverteringer, der ligner menneskelige oversættelser mellem engelsk og et antal sprog med høj ressource. Nøjagtigheden falder for disse sprog, når færre af disse betingelser gælder, for eksempel når sætningslængden stiger, eller teksten bruger velkendt eller litterært sprog. For mange andre sprog i forhold til engelsk kan det frembringe tekstens indhold i disse formelle omstændigheder. Menneskelig evaluering fra engelsk til alle 102 sprog viser, at hovedideen med en tekst formidles mere end 50% af tiden for 35 sprog. For 67 sprog opnås et minimalt forståeligt resultat ikke 50% af tiden eller mere. Et par undersøgelser har evalueret kinesisk, fransk, tysk og spansk til engelsk, men der er ikke foretaget en systematisk menneskelig evaluering fra de fleste Google Translate -sprog til engelsk. Spekulative sprog-til-sprog-scoringer ekstrapoleret fra engelsk-til-andre målinger indikerer, at Google Translate vil producere oversættelsesresultater, der formidler kernen i en tekst fra et sprog til et andet mere end halvdelen af ​​tiden i omkring 1% af sprogpar, hvor ingen af ​​dem sproget er engelsk.

Når den bruges som en ordbog til at oversætte enkelte ord, er Google Oversæt meget unøjagtig, fordi den skal gætte mellem polysemiske ord . Blandt de 100 bedste ord på det engelske sprog, der udgør mere end 50% af alt skrevet engelsk, har det gennemsnitlige ord mere end 15 sanser, hvilket gør oddsene mod en korrekt oversættelse omkring 15 til 1, hvis hver sans kort til en anden ord på målsproget. De mest almindelige engelske ord har mindst to sanser, hvilket giver 50/50 odds i det sandsynlige tilfælde, at målsproget bruger forskellige ord til de forskellige sanser. Oddsene ligner engelsk fra andre sprog. Google Oversæt foretager statistiske gæt, der øger sandsynligheden for at producere den hyppigste forstand af et ord, med den konsekvens, at en nøjagtig oversættelse vil være utilgængelig i tilfælde, der ikke matcher flertallet eller flertallet af korpus . Nøjagtigheden af ​​enkeltordsprognoser er ikke blevet målt for noget sprog. Fordi næsten alle ikke-engelske sprogpar drejer sig gennem engelsk, kan oddsene mod at opnå præcise enkeltordsoversættelser fra et ikke-engelsk sprog til et andet estimeres ved at multiplicere antallet af sanser i kildesproget med antallet af sanser hver af disse udtryk har på engelsk. Når Google Translate ikke har et ord i sit ordforråd, udgør det et resultat som en del af dets algoritme.

Google Translate's unøjagtighed kan illustreres ved at oversætte fra et sprog til et andet og derefter tilbage til originalsproget. Dette vil ofte resultere i useriøse konstruktioner, snarere at gendanne originalteksten.

Begrænsninger

Google Translate har, ligesom andre automatiske oversættelsesværktøjer, sine begrænsninger. Tjenesten begrænser antallet af afsnit og omfanget af tekniske udtryk, der kan oversættes, og selvom det kan hjælpe læseren med at forstå det generelle indhold i et fremmedsprogs tekst, leverer det ikke altid præcise oversættelser, og de fleste gange har det en tendens til at gentage ordret det samme ord, det forventes at oversætte. Grammatisk, for eksempel, kæmper Google Translate for at skelne mellem ufuldkomne og perfekte aspekter på romantiske sprog, så vane og kontinuerlige handlinger i fortiden blev ofte til enkelte historiske begivenheder. Selv om det tilsyneladende er pedantisk, kan dette ofte føre til forkerte resultater (til en modersmål på f.eks. Fransk og spansk), som en menneskelig oversætter ville have undgået. Kendskab til den konjunktive stemning er stort set ikke-eksisterende. Desuden vælges den formelle anden person ( vous ) ofte, uanset kontekst eller accepteret brug. Da det engelske referencemateriale kun indeholder "dig" -formularer, har det svært ved at oversætte et sprog med "jer alle" eller formelle "jer" -variationer.

På grund af forskelle mellem sprog i investeringer, forskning og omfanget af digitale ressourcer varierer nøjagtigheden af ​​Google Translate meget mellem sprog. Nogle sprog giver bedre resultater end andre. De fleste sprog fra Afrika, Asien og Stillehavet har en tendens til at score dårligt i forhold til mange velfinansierede europæiske sprog, idet afrikansk og kinesisk er de højeste undtagelser fra deres kontinenter. Ingen sprog, der er hjemmehørende i Australien eller Amerika, er inkluderet i Google Translate. Højere score for europæisk kan delvist tilskrives Europarl Corpus , en skare af dokumenter fra Europa -Parlamentet, der er blevet professionelt oversat af EU -mandatet til op til 21 sprog. En analyse fra 2010 viste, at oversættelse fra fransk til engelsk er relativt præcis, og 2011 og 2012 analyser viste, at oversættelse fra italiensk til engelsk også er relativt præcis. Men hvis kildeteksten er kortere, fungerer regelbaserede maskinoversættelser ofte bedre; denne effekt er særlig tydelig i kinesiske til engelske oversættelser. Selvom redigeringer af oversættelser kan indsendes, kan man specifikt ikke på kinesisk redigere sætninger som helhed. I stedet skal man til tider redigere vilkårlige sæt tegn, hvilket fører til forkerte redigeringer. Et godt eksempel er russisk-til-engelsk. Tidligere ville man bruge Google Translate til at lave et udkast og derefter bruge en ordbog og sund fornuft til at rette de mange fejl. I begyndelsen af ​​2018 var Translate tilstrækkelig præcis til at gøre den russiske Wikipedia tilgængelig for dem, der kan læse engelsk. Kvaliteten af ​​Oversæt kan kontrolleres ved at tilføje den som en udvidelse til Chrome eller Firefox og anvende den på venstre sproglinks i enhver Wikipedia -artikel. Det kan bruges som en ordbog ved at skrive ord. Man kan oversætte fra en bog ved hjælp af en scanner og en OCR som Google Drive, men det tager cirka fem minutter pr. Side.

I funktionen Oversættelse af skrevne ord er der en ordgrænse for mængden af ​​tekst, der kan oversættes på én gang. Derfor bør lang tekst overføres til en dokumentformular og oversættes gennem dens Document Translate -funktion.

Desuden kæmper Google Translate ligesom alle maskinoversættelsesprogrammer med polysemi (de flere betydninger et ord kan have) og flerordsudtryk (udtryk, der har betydninger, der ikke kan forstås eller oversættes ved at analysere de enkelte ordenheder, der sammensætter dem). Et ord på et fremmedsprog kan have to forskellige betydninger i det oversatte sprog. Dette kan føre til fejloversættelser.

Derudover er grammatiske fejl stadig en stor begrænsning for nøjagtigheden af ​​Google Translate.

Open-source licenser og komponenter

Sprog WordNet Licens
Albansk Albanet CC-BY 3.0/GPL 3
Arabisk Arabisk Wordnet CC-BY-SA 3
Catalansk Flersproget centralt depot CC-BY-3.0
kinesisk Kinesisk Wordnet Wordnet
dansk Dannet Wordnet
engelsk Princeton Wordnet Wordnet
Finsk FinnWordnet Wordnet
fransk WOLF (WOrdnet Libre du Français) CeCILL-C
Galicisk Flersproget centralt depot CC-BY-3.0
Hebraisk Hebraisk Wordnet Wordnet
Hindi IIT Bombay Wordnet Indo Wordnet
Indonesisk Wordnet Bahasa MIT
Italiensk MultiWordnet CC-BY-3.0
Japansk Japansk Wordnet Wordnet
Javanesisk Javanesisk Wordnet Wordnet
Malaysisk Wordnet Bahasa MIT
Norsk Norsk Wordnet Wordnet
Persisk Persisk Wordnet Gratis at bruge
Polere plWordnet Wordnet
Portugisisk OpenWN-PT CC-BY-SA-3.0
spansk Flersproget centralt depot CC-BY-3.0
Thai Thai Wordnet Wordnet

Anmeldelser

Kort efter lanceringen af ​​oversættelsestjenesten for første gang vandt Google en international konkurrence om engelsk - arabisk og engelsk - kinesisk maskinoversættelse.

Oversættelsesfejl og særheder

Da Google Translate brugte statistisk matchning til at oversætte, kan oversat tekst ofte indeholde tilsyneladende useriøse og indlysende fejl, nogle gange bytte fælles termer til lignende men ikke -ækvivalente fællesbetegnelser på det andet sprog eller invertere sætningsbetydning. Nyhedswebsteder som Bad Translator og Translation Party har brugt tjenesten til at producere humoristisk tekst ved at oversætte frem og tilbage mellem flere sprog, svarende til børnenes spilletelefon .

Hvis appen forsøger at oversætte Monty Pythons " The Funniest Joke in the World " til engelsk, returnerer tjenesten meddelelsen "[FATAL ERROR]".

Domstolsbrug

I 2017 blev Google Translate brugt under et retsmøde, da retsembedsmænd ved Teesside Magistrates 'Court ikke undlod at bestille en tolk til den kinesiske tiltalte.

Se også

Referencer

eksterne links