Pěstování stromů v poušti: kombinace delexikalizovaného značkování a parsingu

Publikace na Matematicko-fyzikální fakulta |

2016

Abstrakt

Pro morfologické značkování a syntaktickou analýzu neznámých jazyků byla navržena řada metod. My zkoumáme delexikalizovaný parsing, navržený Zemanem a Resnikem (2008), a delexikalizované značkování, navržené Yu et al. (2016).

V obou případech předkládáme podrobné vyhodnocení na datech z Universal Dependencies (Nivre et al., 2016), de-facto standardu pro vícejazyčné morfosyntaktické zpracování (předchozí práce pracovaly s jinými daty). Naše výsledky potvrzují, že každá z uvedených delexikalizovaných metod samostatně má určitý omezený potenciál v případech, kdy není k dispozici žádná ruční anotace cílového jazyka.

Nicméně, pokud obě metody zkombinujeme, jejich chyby se vzájemně zmnožují nad přijatelnou mez. Ukazujeme, že i sebemenší střípek expertní anotace cílového jazyka může významně zvýšit úspěšnost a měl by být použit, jestliže ho lze získat.

Klíčová slova

pěstování stromů poušti kombinace delexikalizovaného značkování parsingu