Forhåndskomponeret karakter - Precomposed character

Et på forhånd sammensat tegn (alternativt sammensat tegn eller nedbrydeligt tegn ) er en Unicode -enhed, der også kan defineres som en sekvens af et eller flere andre tegn. Et prækomponeret tegn kan typisk repræsentere et bogstav med et diakritisk mærke , såsom é (latinsk lille bogstav e med akut accent ). Teknisk set er é (U+00E9) et tegn, der kan nedbrydes til en ækvivalent streng af grundbogstavet e (U+0065) og kombinere akut accent (U+0301). Tilsvarende ligaturer er precompositions af deres konstituerende breve eller grafemer .

Forudkomponerede tegn er den ældre løsning til at repræsentere mange specielle bogstaver i forskellige tegnsæt . I Unicode er de primært inkluderet for at hjælpe edb -systemer med ufuldstændig Unicode -understøttelse, hvor tilsvarende nedbrudte tegn muligvis gengives forkert.

Sammenligning af forkomponerede og nedbrudte tegn

I det følgende eksempel er der et almindeligt svensk efternavn Åström skrevet i de to alternative metoder, den første med en forudkomponeret Å (U+00C5) og ö (U+00F6), og den anden ved hjælp af et nedbrudt grundbogstav A ( U+0041) med en kombinationsring ovenover (U+030A) og en o (U+006F) med en kombinerende diaeresis (U+0308).

  1. Å str ö m (U+00C5U+0073 U+0074 U+0072U+00F6U+006D)
  2. Åström (U+0041 U+030A U+0073 U+0074 U+0072 U+006F U+0308 U+006D)

Bortset fra de forskellige farver er de to løsninger ækvivalente og skal gengives identisk. I praksis har nogle Unicode -implementeringer dog stadig problemer med dekomponerede tegn. I værste fald kan kombination af diakritik ses bort fra eller gengives som uigenkendte tegn efter deres grundbogstaver, da de ikke er inkluderet i alle skrifttyper . For at overvinde problemerne kan nogle applikationer simpelthen forsøge at erstatte de nedbrudte tegn med de tilsvarende forkomponerede tegn.

Med en ufuldstændig skrifttype kan prækomponerede tegn imidlertid også være problematiske-især hvis de er mere eksotiske, som i det følgende eksempel (viser det rekonstruerede proto-indoeuropæiske ord for "hund"):

  1. ḱṷṓ n (U+1E31 U+1E77 U+1E53U+006E)
  2. ḱṷṓn (U+006B U+0301 U+0075 U+032D U+006F U+0304 U+0301 U+006E)

I nogle situationer kan den forudkomponerede grønne k , u og o med diakritik gengive som ukendte tegn , eller deres typografiske udseende kan være meget forskellig fra det sidste bogstav n uden diakritisk. På den anden linje skal basisbogstaverne i det mindste gengives korrekt, selvom de kombinerende diakritik ikke kunne genkendes.

OpenType har ccmp "feature tag" til at definere glyfer, der er sammensætninger eller dekompositioner, der involverer kombination af tegn.

kinesiske karaktere

I teorien mest kinesiske tegn som kodet af Han-forening kunne og lignende ordninger behandles som precomposed tegn, da de kan reduceres (nedbrudt) til deres konstituerende slagtilfælde og ideogram beskrivelser med kinesiske tegn sidebeskrivelsessprog . En sådan tilgang kunne reducere antallet af tegn i tegnsættet fra titusinder til blot et par hundrede. På den anden side ville et sådant stærkt nedbrudt tegnsæt indføre udfordringer for søgning og redigering af software og kræve flere bytes kodning pr. Dokument.

Se også

Kilder

eksterne links