Čtení s porozuměním je značně studovaný úkol s obrovskými trénovacími datasety v angličtině. Tato práce se zaměřuje na tvorbu systému čtení s porozuměním pro češtinu, aniž by byla potřeba ručně anotovaná česká trénovací data.
Nejprve jsme automaticky přeložili datasety SQuAD 1.1 a SQuAD 2.0 do češtiny, abychom vytvořili trénovací a validační data, která zveřejňujeme na http://hdl.handle.net/11234/1-3249. Poté jsme natrénovali a vyhodnotili několik referenčních modelů založených na architekturách BERT a XLM-RoBERTa.
Náš hlavní příspěvek však spočívá v modelech mezijazykového přenosu. Model XLM-RoBERTa, trénovaný na anglických datech a vyhodnocený na češtině, dosahuje velmi konkurenceschopných výsledků, jen přibližně o 2 procenta horší než model trénovaný na přeložených českých datech.
Tento výsledek je mimořádně dobrý, vezmeme-li v úvahu skutečnost, že model během trénování neviděl žádná česká data. Mezijazykový přenos je velmi flexibilní a je pomocí něj možné vytvořit model v jakémkoli jazyce, pro kte