Charles Explorer logo
🇨🇿

Tokenizace, tagging, lemmatizace a syntaktická analýza UD 2.0 pomocí UDPipe

Publikace na Matematicko-fyzikální fakulta |
2017

Abstrakt

Představujeme novou verzi UDPipe 1.0, což je trénovatelný nástroj provádějící větnou segmentaci, tokenizaci, morfologické značkování, lemmatizaci a syntaktickou analýzu. Poskytujeme modely pro všech 50 jazyků UD 2.0, a navíc lze jednoduše UDPipe natrénovat pomocí vlastních dat v CoNLL-U formátu.

Pro potřeby CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, upravená verze UDPipe 1.1 byla použita jako základový systém a umístila se na 13. místě z 33 účastníků. Nejnovější verze UDPipe 1.2, která se také účastnila, dosáhla na 8. místo, přičemž potřebuje jen malý čas na běh a středné velké modely.

Nástroj je k dispozici pod open-source licencí MPL a poskytuje rozhraní pro C++, Python (pomocí ufal.udpipe balíčku PyPI), Perl (pomocí UFAL::UDPipe balíčku CPAN), Javu a C#.