Charles Explorer logo
🇨🇿

TectoMT: modulární framework pro zpracování přirozeného jazyka

Publikace na Matematicko-fyzikální fakulta |
2010

Abstrakt

Článek popisuje víceúčelový open-source NLP framework TectoMT, který umožňuje rychlý a efektivní vývoj NLP aplikací. Využívá široké spektrum softwarových modulů, které jsou již integrovány do TectoMT, např. nástroje pro segmentaci textu na věty, tokenizaci, morfologickou analýzu a disambiguaci (tagging), parsing (povrchový i hloubkový), rozpoznávání pojmenovaných entit, rozpoznávání anafory, strojový překlad stromových struktur, generování vět z hloubkových struktur, slovní zarovnávání paralelních korpusů atd.

Jednou z nejkomplexnějších aplikací TectoMT je anglicko-český systém strojového překladu s transferem přes tektogramatickou rovinu. Moduly jsou dostupné i pro další jazyky (němčina, ruština, arabština,...).