Problém variantních tvarů slov při automatickém zpracování jazyka

Publikace na Matematicko-fyzikální fakulta |

2011

Abstrakt

Zápis slov v~mnoha jazycích není jednoznačný, existují různé varianty. Někdy se jedná o~varianty rovnocenné, jindy jsou některé nářeční, nespisovné či jinak příznakové.

Při automatickém zpracování jazyka však chceme umět rozpoznat všechny, a současně jim přiřadit stejný základní tvar, tzv. lemma. Na druhou stranu ale potřebujeme všechny varianty od sebe nějakým způsobem odlišit, abychom např. mohli při automatické syntéze zvolit tu správnou.

Příspěvek se zabývá možným řešením tohoto problému, a to zavedením tzv. vícenásobného lemmatu. Uvedeme možnosti jeho využití při konkrétních aplikacích, zejména v~korpusové lingvistice.

Klíčová slova

problém variantních tvarů slov automatickém zpracování jazyka