Charles Explorer logo
🇨🇿

Syntakticky anotovaný korpus: Práce na celý život?

Publikace na Filozofická fakulta |
2014

Abstrakt

Projekt syntaktické analýzy češtiny z hlediska centeringové teorie (např. Grosz, Weinstein, Joshi, 1995; Walker, Joshi, Prince, 1998) je založen na částečně automatické, částečně manuální anotaci tzv. center pozornosti (Sidner, 1981; Brennan, Friedman, Pollard, 1987).

Není možné využít korpusy již existující (ČNK, PDT) jinak, než jako zdroj jednotlivých textů, neboť cílem projektu Centering a čeština - syntaktická analýza je postihnout obecné principy výstavby českého textu bez ohledu na mluvenost vs. psanost, připravenost vs. nepřipravenost apod. Centeringová teorie, na jejímž základě bude anotace probíhat, vykazuje několik základních rysů, které jsou určujícími kritérii pro parametry takového korpusu.

Prvním z nich je fakt, že centering se zaměřuje na modelování lokálních vztahů v textu. Z toho vyplývá požadavek kladený na korpus, který výrazně ovlivní jeho velikost - kritické výpovědi tvoří pouze polovinu pozic korpusu (ve smyslu počtu výpovědí, je zřejmé, že mezi dvěma bezprostředně následujícími výpověďmi nemusí panovat z hlediska délky, počtu slov, symetrie), zbytek tvoří pro anotaci nezbytné bezprostředně předcházející výpovědi, které ale nelze považovat za kritické položky analýzy, neboť k nim není k dispozici bezprostředně předcházející výpověď.

Další charakteristikou, která ovlivňuje sestavovaný korpus, je metodologický postup, který centeringová teorie uplatňuje - při určování vztahů mezi výpověďmi se zaměřuje na jejich jmenné části (označujeme je jako jmenné fráze i v případech, kdy formálně jde o předložkové fráze, pronominalizované subjekty apod.). Kromě těchto dvou základních kritérií vyplývajících z aplikované teorie existují další otázky - jak technicky zpracovat korpus z hlediska spojování textů označkovaných v rámci PDT s texty korpusů ČNK; kolik pozic má korpus mít; na které stylové distinkce je možné rezignovat v zájmu usnadnění zpracování a které je naopak nutné zachovávat apod.