Anotační software dat vyvozování v přirozeném jazyce

Publikace

Abstrakt

Byl vyvinut speciální anotační software pro vytváření unikátních datových sad, vhodných pro učení modelů řešících problém vyvozování v přirozeném jazyce (Natural Language Inference). Zároveň byla vytvořena vlastní výstupní datová sada a zpřístupněna výzkumné veřejnosti.

Sada obsahuje 3 097 anotovaných textových tvrzení, doplněných o 1 247 odstavců extrahovaných z 665 článků archivu České tiskové kanceláře (dále jen ČTK). Systém pracuje na základě výběru relevantních vět v rámci dokumentů - a to na úrovni odstavců.

Tvrzení jsou generována na základě náhodně vybraných článků a anotátor (až na výjimky) nesmí používat vlastní znalosti, k dispozici má jen znalostní rámec, což je výchozí článek a další relevantní texty - abstrakty článků odkazovaných z výchozího článku. Systém implementuje celý proces anotace, který se skládá z tvorby výchozích tvrzení, práci se zdrojovými odstavci a obměnami tvrzení, práci se znalostním rámcem, anotací správnosti cizích tvrzení na základě důkazu a případných doplňujících tvrzení.

Klíčová slova

umělá inteligence žurnalistika média počítačové zpracování přirozeného jazyka NLP anotace dataset inference