Trigram - Trigram

Trigrammer er et specielt tilfælde af n -grammet , hvor n er 3. De bruges ofte i naturlig sprogbehandling til at udføre statistisk analyse af tekster og i kryptografi til kontrol og brug af cifre og koder .

Frekvens

Kontekst er meget vigtig, varierende analyserangeringer og procentsatser udledes let ved at trække fra forskellige stikprøvestørrelser, forskellige forfattere; eller forskellige dokumenttyper: poesi, science-fiction, teknologisk dokumentation; og skrive niveauer: historier for børn kontra voksne, militære ordrer og opskrifter.

Typisk kryptanalytisk frekvensanalyse finder ud af, at de 16 mest almindelige trigrammer på tegnniveau på engelsk er:

Rang Trigram Frekvens
(forskellig kilde)
1 det 1,81%
2 og 0,73%
3 tha 0,33%
4 ent 0,42%
5 ing 0,72%
6 ion 0,42%
7 tio 0,31%
8 til 0,34%
9 nde
10 har
11 nce
12 edt
13 tis
14 ofte 0,22%
15 sth 0,21%
16 Mænd

Fordi krypterede meddelelser sendt med telegraf ofte udelader tegnsætning og mellemrum, indeholder kryptografisk frekvensanalyse af sådanne meddelelser trigrammer, der grænser op til ordgrænser. Dette får trigrammer som "edt" til at forekomme ofte, selvom det måske aldrig forekommer i et enkelt ord i disse meddelelser.

Eksempler

Sætningen "den hurtige røde ræv springer over den dovne brune hund" har følgende trigrammer på ordniveau:

the quick red
quick red fox
red fox jumps
fox jumps over
jumps over the
over the lazy
the lazy brown
lazy brown dog

Og trigram på ordniveau "den hurtige røde" har følgende trigrammer på tegnniveau (hvor en understregning "_" markerer et mellemrum):

the
he_
e_q
_qu
qui
uic
ick
ck_
k_r
_re
red

Referencer