Charles Explorer logo
🇨🇿

Odpovídají stromy UD rozsahům zmínek v anotacích koreference?

Publikace na Matematicko-fyzikální fakulta |
2021

Abstrakt

Existují desítky datových zdrojů pro různé jazyky, ve kterých je ručně anotovaná koreference - vztah mezi dvěma nebo více výrazy, které odkazují na tutéž entitu v reálném světě. Dalo by se předpokládat, že takové výrazy obvykle tvoří syntakticky významné jednotky; avšak rozsahy koreferenčních výrazů (zmínek) byly ve většině projektů anotovány prostě vymezením intervalů tokenů, tj. nezávisle na jakékoli syntaktické reprezentaci.

Tvrdíme, že by bylo z dlouhodobého hlediska výhodné, kdyby se k sobě anotace syntaxe a koreference přiblížily. Představujeme pilotní empirickou studii, která se zaměřuje na případy, kde koreferenční zmínky pasují nebo naopak nepasují na automaticky přiřazené syntaktické stromy, které odpovídají standardu Universal Dependencies.

Studie zahrnuje 8 datových sad pro 7 různých jazyků.