Charles Explorer logo
🇨🇿

Poloautomatická detekce víceslovných výrazů ve Slovenském závislostním korpusu

Publikace na Matematicko-fyzikální fakulta |
2014

Abstrakt

Popisujeme metodu poloautomatické extrakce slovenských víceslovných výrazů ze závislostního korpusu. Proces používá automatickou konverzi ze závislostních syntaktických stromů do hloubkové syntaxe a automatické značkování slovesných doplnění na základě valenčního slovníku.

Jak valenční slovník tak konverze syntaktického korpusu vznikla úpravou podobného nástroje pro češtinu; autmomaticky přeložený valenční slovník byl ručně zkontrolován a opraven. Přínos této práce je dvojí - valenční slovník slovenských víceslovných výrazů s přímými odkazy na odpovídající výrazy v českém slovníku PDT-Vallex a metoda pro extrakci víceslovných výrazů ze Slovenského závislostního korpusu.

Práce na projektu stále probíhá, cílem je 1) vytvořit slovenský valenční slovník paralelní k českému a 2) použít extrahované slovesné rámce v kolokačním slovníku slovenských sloves.