Charles Explorer logo
🇨🇿

Lexikální asociační míry: extrakce kolokací

Publikace na Matematicko-fyzikální fakulta |
2009

Abstrakt

Tato kniha je věnovaná empirické studii lexikálních asociačních měr a jejich aplikaci v úloze automatické extrakce kolokací. Práce obsahuje vyčerpávající seznam 82 lexikálních asociačních měr ajejich evaluaci na celkem čtyřech referenčních datových množinách: závislostních bigramech z ručně anotovaného Pražského závislostního korpusu, povrchové bigramy ze stejného korpusu, instance prvků předchozí množiny z Českého národního korpusu opatřeného automatickou lemmatizací a morfologickým značkováním a vzdálenostními verbnominálními bigramy z automaticky značko­vaného švédského korpusu Parole.

Kolokační kandidáti v referenčních množinách byli manuálně anotováni jako kolokace nebo nekolokace. Použité evaluační schéma je založeno na měření kvality seřazení kolokačních kandidátů dle jejich pravděpodobnosti tvořit kolokaci.

Metody jsou porovnány pomocí precision-recall křivek a hodnot mean average precision, které jsou převzaty z oboru vyhle­dávání informací. Provedeny byly