Charles Explorer logo
🇨🇿

UDPipe

Publikace

Abstrakt

UDPipe je trénovatelný nástroj pro tokenizaci, tagging, lemmatizaci a závislostní parsing CoNLL-U souborů. UDPipe je jazykově nezávislý a pro natrénování jazykového modelu stačí označkovaná data v CoNLL-U formátu.

Předtrénované jazykové modely jsou k dispozici pro téměř všechny UD korpusy. UDPipe je k dispozici jako spustitelný soubor, jako knihovna pro C++, Python, Perl, Java, C#, a také jako webová služba.

UDPipe je svobodný software licencovaný pod Mozilla Public License 2.0 a jazykové modely jsou k dispozici pro nekomerční použití pod licencí CC BY-NC-SA, nicméně původní data použitá k vytvoření modelů mohou v některých případech ukládat další licenční omezení.