Computational leksikologi - Computational lexicology

Computational lexicology er en gren af computational lingvistik , der beskæftiger sig med brugen af ​​computere i studiet af leksikon . Det er blevet snævrere beskrevet af nogle lærde (Amsler, 1980) som brugen af ​​computere i studiet af maskinlæsbare ordbøger . Det adskiller sig fra beregningsmæssig leksikografi , der mere korrekt ville være brugen af ​​computere i konstruktionen af ​​ordbøger, skønt nogle forskere har brugt beregningsmæssig leksikografi som synonym .

Historie

Computational leksikologi opstod som en separat disciplin inden for computervingvistik med udseendet af maskinlæsbare ordbøger, der startede med oprettelsen af ​​maskinlæsbare bånd i Merriam-Webster Seventh Collegiate Dictionary og Merriam-Webster New Pocket Dictionary i 1960'erne Olney et al. hos System Development Corporation . I dag er beregningsmæssig leksikologi bedst kendt gennem oprettelse og anvendelser af WordNet . Efterhånden som forskningsberegningen af ​​forskerne steg med tiden, er brugen af ​​beregningsmæssig leksikologi blevet anvendt allestedsnærværende i tekstanalysen. I 1987 har blandt andre Byrd, Calzolari, Chodorow udviklet beregningsværktøjer til tekstanalyse. Især var modellen designet til at koordinere de foreninger, der involverer sanserne for polysemøse ord.

Undersøgelse af leksikon

Computational leksikologi har bidraget til forståelsen af ​​indholdet og begrænsningerne i trykte ordbøger til beregningsmæssige formål (dvs. det præciserede, at det foregående arbejde i leksikografi ikke var tilstrækkeligt til computervingvistikens behov). Gennem arbejde med beregningsmæssige leksikologer er næsten hver del af et trykt ordbogspost undersøgt lige fra:

  1. hvad der udgør et hovedord - brugt til at generere stavekorrektionlister;
  2. hvilke varianter og bøjninger overskriften danner - bruges til empirisk forståelse af morfologi;
  3. hvordan overskriften afgrænses i stavelser;
  4. hvordan hovedordet udtales - bruges i talegenereringssystemer;
  5. de dele af talen, som hovedordet tager på - bruges til POS-taggere ;
  6. ethvert specielt emne eller brugskoder, der er tildelt hovedordet - brugt til at identificere tekstdokumentets emne
  7. hovedordets definitioner og deres syntaks - brugt som hjælp til disambiguation af ord i sammenhæng;
  8. etymologien af ​​overskriften og dets anvendelse til at karakterisere ordforråd efter oprindelsesprog - brugt til at karakterisere tekstordforråd med hensyn til dets oprindelsesprog;
  9. eksemplerne sætninger;
  10. run-ons (yderligere ord og multi-word udtryk, der dannes ud fra overskriften); og
  11. relaterede ord såsom synonymer og antonymer .

Mange computing-sprogkundere blev afskrækket med de trykte ordbøger som en ressource for computervingvistik, fordi de manglede tilstrækkelig syntaktisk og semantisk information til computerprogrammer. Arbejdet med beregningsmæssig leksikologi førte hurtigt til indsats i to yderligere retninger.

Efterfølgere til Computational Lexicology

For det første førte samarbejdsaktiviteter mellem computing-sprogfolk og leksikografer til en forståelse af den rolle, som virksomheder spillede i oprettelsen af ​​ordbøger. De fleste beregningsmæssige leksikologer flyttede videre til at opbygge store virksomheder for at samle de grundlæggende data, som leksikografer havde brugt til at oprette ordbøger. ACL / DCI (Data Collection Initiative) og LDC ( Linguistic Data Consortium ) gik ned ad denne vej. Fremkomsten af ​​markup-sprog førte til oprettelsen af ​​mærkede korpora, der lettere kunne analyseres for at skabe beregningsmæssige sproglige systemer. Del-af-tale-taggete corpora og semantisk-tagged corpora blev oprettet for at teste og udvikle POS-taggere og word semantisk disambiguation-teknologi.

Den anden retning var mod oprettelsen af ​​Lexical Knowledge Bases (LKB'er). En Lexical Knowledge Base blev anset for at være, hvad en ordbog skulle være til beregningsmæssige sproglige formål, især til beregningsmæssige leksikale semantiske formål. Det skulle have de samme oplysninger som i en trykt ordbog, men fuldstændigt ekspliceret med hensyn til betydningen af ​​ordene og de passende forbindelser mellem sanser. Mange begyndte at skabe de ressourcer, de ønskede ordbøger var, hvis de var blevet oprettet til brug i beregningsanalyse. WordNet kan betragtes som en sådan udvikling, ligesom de nyere bestræbelser på at beskrive syntaktisk og semantisk information såsom FrameNet-arbejdet i Fillmore. Uden for beregningssprogetik kan Ontologi-arbejdet med kunstig intelligens ses som en evolutionær indsats for at opbygge en leksikalsk videnbase til AI-applikationer.

Standardisering

Optimering af produktion, vedligeholdelse og udvidelse af beregningsmæssige leksikoner er et af de afgørende aspekter, der påvirker NLP . Hovedproblemet er interoperabiliteten : forskellige leksikoner er ofte inkompatible. Den hyppigste situation er: hvordan flettes to leksikoner eller fragmenter af leksikoner? Et sekundært problem er, at et leksikon normalt tilpasses specifikt til et specifikt NLP-program og har vanskeligheder med at blive brugt i andre NLP-programmer eller applikationer.

I denne henseende studeres de forskellige datamodeller af Computational leksikoner af ISO / TC37 siden 2003 inden for rammerne af projektets leksikale markering, der fører til en ISO-standard i 2008.

Referencer

Amsler, Robert A. 1980. Ph.D. Afhandling, "Strukturen i Merriam-Webster Pocket Dictionary". University of Texas i Austin.

eksterne links