Charles Explorer logo
🇨🇿

Stylometrie na textech ve dvou jazycích

Publikace na Matematicko-fyzikální fakulta |
2020

Abstrakt

Metoda stylometrie nejčastějšími slovy neumožňuje přímé srovnání původních textů a jejich překladů, tj. Napříč jazyky.

Například v dvojjazyčné česko-německé textové sbírce obsahující paralelní texty (originály a překlady v obou směrech spolu s českými a německými překlady z jiných jazyků) by autoři neshlukovali mezi jazyky, protože seznamy četných slov pro jakékoli české texty jsou zjevně bude se více podobat německému textu a naopak. Pokusili jsme se přijít s interlinguou, která by odstranila rysy specifické pro jazyk a případně zachovala jazykově nezávislé rysy signálu jednotlivého autora, pokud existují.

Každý jazykový protějšek jsme označili, lemmatizovali a analyzovali odpovídajícím jazykovým modelem v UDPipe, který poskytuje jazykové označení, které je do značné míry vícejazyčné. Odstranili jsme výstup jazykově závislých položek, ale to samo o sobě moc nepomohlo.

V dalším kroku jsme transformovali lemma obou jazykových protějšků na sdílená pseudolemata na základě velmi hrubého česko-německého gl