Charles Explorer logo
🇨🇿

Pojmenované entity v češtině: anotace dat a vývoj taggeru

Publikace na Matematicko-fyzikální fakulta |
2007

Abstrakt

Tento článek se zabývá léčbou pojmenovaných entit (NE) v češtině. Představujeme dvoustupňovou klasifikaci NE.

Tuto klasifikaci jsme použili pro ruční anotaci dvou tisíc vět, abychom získali více než 11 000 NE instancí. S využitím anotovaných dat a technik strojového učení (konkrétně indukce rozhodovacích stromů shora dolů) jsme vyvinuli a vyhodnotili softwarový systém zaměřený na automatickou detekci a klasifikaci NE v českých textech.