Představujeme korpus českých vět s ručně anotovanými pojmenovanými entitami, ve kterém byla použita bohatá dvouúrovňová hierarchie typů pojmenovaných entit. Korpus představuje první dostupný českým zdroj pro rozpoznávání pojmenovaných entit a od roku 2007 stimuloval výzkum v tomto oboru.
Popisujeme dvouúrovňovou jemnou hierarchii s vnořenými entitami a motivace, které nás vedly k jejímu návrhu. Dále ukazujeme, jak byla tato data prakticky využita při návrhu a trénování rozpoznávače pojmenovaných entit a provádíme velké množství experimentů, abychom kriticky ohodnotili rozhodnutí, která jsme v průběhu návrhu korpusu provedli.
Důkladně prodiskutujeme dopad zvoleného výběru vět, velikosti korpusu, způsobu morfologického zpracování, ale i výběr typů pojmenovaných entit a dalších vlastností korpusu na výkon rozpoznávače pojmenovaných entit z hlediska strojového učení s učitelem.