Existují desítky datových zdrojů pro různé jazyky, ve kterých je ručně anotovaná koreference - vztah mezi dvěma nebo více výrazy, které odkazují na tutéž entitu v reálném světě. Dalo by se předpokládat, že takové výrazy obvykle tvoří syntakticky významné jednotky; avšak rozsahy koreferenčních výrazů (zmínek) byly ve většině projektů anotovány prostě vymezením intervalů tokenů, tj. nezávisle na jakékoli syntaktické reprezentaci.
Tvrdíme, že by bylo z dlouhodobého hlediska výhodné, kdyby se k sobě anotace syntaxe a koreference přiblížily. Představujeme pilotní empirickou studii, kter á se zaměřuje na případy, kde koreferenční zmínky pasují nebo naopak nepasují na automaticky přiřazené syntaktické stromy, které odpovídají standardu Universal Dependencies.
Studie zahrnuje 8 datových sad pro 7 různých jazyků.