V příspěvku navrhujeme dvě neuronové architektury pro rozpoznávání vnořených pojmenovaných entit, což je úloha, ve které se pojmenované entity mohou překrývat a také být označeny více než jednou značkou. Vnořené značky zakódováváme pomocí linearizovaného schématu.
V prvním navrženém přístupu jsou vnořené značky modelovány jako multiznačky náležející kartézkému součinu vnořených značek ve standardní LSTM-CRF architektuře. V druhém navrženém přístupu přistupujeme k úloze rozpoznávání vnořených pojmenovaných entit jako k sequence-to-sequence problému, ve kterém vstupní sekvence sestává z tokenů a výstupní sekvence ze značek, přičemž použ íváme vynucený mechanismus attention na slově, které právě značkujeme.
Navržené metody překonávají současný stav poznání v úloze rozpoznávání vnořených pojmenovaných entit na čtyřech korpusech: ACE-2004, ACE-2005, GENIA a českém CNEC. Naše architektury jsme dále obohatili nedávno publikovanými kontextovými embeddingy: ELMo, BERT a Flair, čímž jsme dosáhli dalšího zlepšení