COSTRA 1.0: Dataset komplexních transformací vět

Publikace na Matematicko-fyzikální fakulta |

2020

Abstrakt

V tomto článku je představena COSTRA 1.0, dataset komplexních transformací vět. Dataset je určen ke studiu větných embeddingů nad rámec jednoduchých výměn slov nebo standardních parafrází.

COSTRA 1.0 obsahuje pouze věty v češtině, ale metoda konstrukce je univerzální a plánujeme ji použít i pro jiné jazyky. Dataset obsahuje 4262 unikátních vět s průměrnou délkou 10 slov, ilustrujících 15 typů úprav, jako je zjednodušení, zobecnění nebo formální a neformální jazykové variace.

Doufáme, že s tímto datovým souborem bychom měli být schopni otestovat sémantické vlastnosti větných embeddingů a možná dokonce najít nějaké topologicky zajímavé '' kostry '' v prostoru větných embeddingů. Předběžná analýza s využitím mnohojazyčných větných embeddingů LASER naznačuje, že nevykazuje požadované vlastnosti

Klíčová slova

costra dataset komplexních transformací