Trigram - Trigram
Trigrammer er et specielt tilfælde af n -grammet , hvor n er 3. De bruges ofte i naturlig sprogbehandling til at udføre statistisk analyse af tekster og i kryptografi til kontrol og brug af cifre og koder .
Frekvens
Kontekst er meget vigtig, varierende analyserangeringer og procentsatser udledes let ved at trække fra forskellige stikprøvestørrelser, forskellige forfattere; eller forskellige dokumenttyper: poesi, science-fiction, teknologisk dokumentation; og skrive niveauer: historier for børn kontra voksne, militære ordrer og opskrifter.
Typisk kryptanalytisk frekvensanalyse finder ud af, at de 16 mest almindelige trigrammer på tegnniveau på engelsk er:
Rang | Trigram | Frekvens (forskellig kilde) |
---|---|---|
1 | det | 1,81% |
2 | og | 0,73% |
3 | tha | 0,33% |
4 | ent | 0,42% |
5 | ing | 0,72% |
6 | ion | 0,42% |
7 | tio | 0,31% |
8 | til | 0,34% |
9 | nde | |
10 | har | |
11 | nce | |
12 | edt | |
13 | tis | |
14 | ofte | 0,22% |
15 | sth | 0,21% |
16 | Mænd |
Fordi krypterede meddelelser sendt med telegraf ofte udelader tegnsætning og mellemrum, indeholder kryptografisk frekvensanalyse af sådanne meddelelser trigrammer, der grænser op til ordgrænser. Dette får trigrammer som "edt" til at forekomme ofte, selvom det måske aldrig forekommer i et enkelt ord i disse meddelelser.
Eksempler
Sætningen "den hurtige røde ræv springer over den dovne brune hund" har følgende trigrammer på ordniveau:
the quick red quick red fox red fox jumps fox jumps over jumps over the over the lazy the lazy brown lazy brown dog
Og trigram på ordniveau "den hurtige røde" har følgende trigrammer på tegnniveau (hvor en understregning "_" markerer et mellemrum):
the he_ e_q _qu qui uic ick ck_ k_r _re red