Korpus pojmenovaných entit v češtině

Publikace na Matematicko-fyzikální fakulta |

2017

Abstrakt

Představujeme korpus českých vět s ručně anotovanými pojmenovanými entitami, ve kterém byla použita bohatá dvouúrovňová hierarchie typů pojmenovaných entit. Korpus představuje první dostupný českým zdroj pro rozpoznávání pojmenovaných entit a od roku 2007 stimuloval výzkum v tomto oboru.

Popisujeme dvouúrovňovou jemnou hierarchii s vnořenými entitami a motivace, které nás vedly k jejímu návrhu. Dále ukazujeme, jak byla tato data prakticky využita při návrhu a trénování rozpoznávače pojmenovaných entit a provádíme velké množství experimentů, abychom kriticky ohodnotili rozhodnutí, která jsme v průběhu návrhu korpusu provedli.

Důkladně prodiskutujeme dopad zvoleného výběru vět, velikosti korpusu, způsobu morfologického zpracování, ale i výběr typů pojmenovaných entit a dalších vlastností korpusu na výkon rozpoznávače pojmenovaných entit z hlediska strojového učení s učitelem.

Klíčová slova

korpus pojmenovaných entit češtině