Neuronové generování češtiny: data a základní modely

Publikace na Matematicko-fyzikální fakulta |

2019

Abstrakt

Prezentujeme první datovou sadu zaměřenou na end-to-end generování jazyka v češtině v doméně restaurací, společně s několika silnými základními modely postavenými na architektuře sequence-to-sequence. Neanglické generování jazyka je obecně málo probádaný problém a čeština jakožto morfologicky bohatý jazyk představuje ještě těžší úkol: protože v češtině je třeba skloňovat jmenné entity, delexikalizace nebo jednoduché kopírovací mechanismy nefungují samy o sobě a lexikalizace výstupů generátoru je netriviální.

V našich experimentech představujeme dva různé přístupy k tomuto problému: (1) použití jazykového modelu pro výběr správné vyskloňované formy během lexikalizace, (2) dvoufázové generování: náš model sequence-to-sequence vygeneruje prokládanou sekvenci lemmat a morfologických značek, která je posléze zpracována morfologickým generátorem.

Klíčová slova

neuronové generování češtiny data základní modely